Big Data Moscow 2018

Бартош Лоз

RTB House, Польша

Биография

Бартек является выпускником двух факультетов Варшавского университета: информатика и математика. Основной интерес Бартека связан с созданием систем, которые позволяют обеспечить распределенную обработку больших массивов данных. Вот над чем он работал на протяжении более чем 8 лет: вначале как программист C++ в Gemius, а сейчас как технический руководитель в RTB House. Он обладает уникальным опытом в этой области, он работал с совершенно разными технологиями, во-первых, с внутренними решениями специальной разработки, и во-вторых, с решениями, построенными на базе последних open source проектов. Докладчик также является автором представленного решения. И он же является лицом, ответственным за реорганизацию нового потока всех данных, которые были получены и сохранены для потребностей RTB, а также сопровождение всей структуры обработки данных. Его опыт включает в себя все уровни архитектуры обработки данных, начиная от технических проблем до проектирования высокоуровневых систем с нацеленностью на эффективность, масштабируемость и надежность.

Доклад

Обработка данных в режиме реального времени в RTB House — Архитектура и полученный опыт

В рамках этого семинара мы хотели бы поделиться полученным опытом в области построения и масштабирования нашей инфраструктуры обработки данных в режиме реального времени в компании RTB House, которая занимает 46 место в списке Financial Times 1000 (и 8 место в сфере технологий).
Наша платформа, которая приобретает и показывает рекламные объявления в режиме торгов в реальном времени, обрабатывает 1,5 миллиона тендерных заявок и создает 80 тысяч событий каждую секунду в 4 центрах обработки данных, которые выдают 30 ТБ данных каждый день. Для нужд машинного обучения, системного мониторинга и финансовых расчетов, нам необходимо фильтровать, синхронизировать, хранить, агрегировать и объединять все эти события вместе. Как результат, обработанные события и агрегированная статистика становятся доступными в разных источниках данных, как Hadoop, Google BigQuery, Postgres или Elasticsearch.
Мы спроектировали и реализовали решение, которое сократило задержку доступности таких данных с 1 дня до нескольких секунд. Это оказалось возможным благодаря новому подходу и использованным технологиям. Было важно обеспечить неизменяемые потоки событий, чтобы сделать решение пригодным для нашей архитектуры с множеством распределительных центров. Существующий поток данных в режиме реального времени по сравнению с предыдущим решением является полностью независимым от системы торгов, которая генерирует сейчас только легкие события. Благодаря такому разделению, не только основная система стала более стабильной, но и обработка данных получается более качественной и более простой в обслуживании. Дополнительно, создание событий можно поставить на паузу или даже провести повторную обработку в случае необходимости.

Дата: 11 октября, 2018