Big Data Moscow 2018

Андрей Бащенко

Почта России, Россия

Биография

Руководитель центра компетенций по Big Data Почты России.
Отвечает за:
– разработку и развитие Data платформы, развитие экосистемы продуктов вокруг платформы;
– стратегию развития направления, ключевые архитектурные и технологические решения, продуктовые бэклоги;
– управление командами разработки, развитие команд, развитие компетенций.

Более 15 лет в разработке ПО, от разработчика до руководителя проектов и руководителя подразделений разработки.
Фокус на Data-centric, Data-driven продуктах:от DWH, MDM решений на централизованной архитектуре до Enterprise Data платформы на Hadoop стеке.

Доклад

Case Study: Big Data платформа для Почты России на Hadoop стэке

Я хочу поделиться успешной историей создания Enterprise Data Platform на Hadoop стеке для Почты России.
Почта России это 350.000+ сотрудников, крупнейшая логистическая инфраструктура и ретейл сеть из 42.000+ отделений, в которой каждый item уникален. Цифровая трансформация бизнеса такого масштаба это интереснейший вызов. В этом докладе я покажу, как задачи и требования бизнеса формировали архитектуру решения и влияли на выбор технологий.

За 3 года с момента создания платформа выросла до кластера в 7200 VCPU, со следующей архитектурой: Hadoop (Hortonworks), Yarn, Spark, Hive, Hue, Tez, Oozie, Flink, Kafka, Spark Streaming, Cassandra, Vertica, Yandex ClickHouse, Pentaho, Docker.

Платформа решает в том числе следующие задачи:
– многоступенчатый расчет аналитических витрин по десяткам миллиардов записей в сутки;
– потоковая обработка событий от источников, интеграция данных в реальном времени и раздача потоков данных потребителям;
– высокопроизводительный доступ к данным потоковой обработки по ключу;
– надежный и удобный доступ к данным для сотен тысяч пользователей.

Дата: 11 октября, 2018