Big Data Days 2021

Online Edition

28-30 Cентября

онлайн

Павел Симанихин

Ведущий Консультант Центра Компетенции Big Data

Россия, Neoflex

Биография

Ведущий консультант Центра компетенции Big Data

Доклад

Unboxing Многокомпонентных Big Data-проектов Инструментом DataLog на Основе Подхода Software Аs Аrtefact

Проблемы legacy-проектов в Big Data – это общие проблемы для больших проектов с долгой историей, такие как отсутствие актуальной документации, сложность системы в целом и так далее.

Однако, для Big Data это дополнительно все осложняется еще следующим:

1. Множество компонентов в одном проекте (например, в обычном проекте архитектура выглядит так: webserver <-> webapp, в bigdata проекте так: oracle -> sqoop -> hive -> spark -> kafka -> model -> kafka -> spark -> hive);
2. Невозможность применения единой архитектуры проекта упорядочивающей сложность системы, такой например, как domen-driven-design;
3. Декларативность инструментов программирования pipeline, декларирующих что нужно сделать, а не описывающих как это будет делаться;
4. Необходимость отдельно вести учет компонентов системы и объектов данных.

Мы разработали инструмент, значительно ускоряющий и облегчающий построение диаграмм раскрывающих различные компоненты таких проектов, и показывающих связи между ними на основе ряда довольно простых принципов. 

Ключевые слова

Big Data
Software As Artefact
DataLog

« Hазад