Big Data Days 2019

 8-10 октября   Москва

Юлия Столина

Outbrain, Израиль

Биография

У Юлии 15-летний практический опыт в архитектуре программного обеспечения, специализация в построении больших объемов, масштабируемых, высокопроизводительных распределенных систем данных. Опыт работы с большими данными, NoSQL, архитектурой и разработкой. Она работает в Outbrain в качестве архитектора группы рекомендаций.

Доклад

Источники данных реального времени с использованием Spark Streaming

В компании Outbrain мы обслуживаем миллиарды персонализированных рекомендаций. Наши модели обслуживания ML построены на пакетных потоках ELT. Однако, для нашего бизнеса чрезвычайно важно получать исходные данные в почти реальном времени. В ходе этой сессии я расскажу о том, как мы перешли от аналитики на основе пакетов к аналитике реального времени. Мы реализовали конвейер данных, используя потоковую передачу Spark на Kafka для принятия точных решений в режиме реального времени. Я представлю основные компоненты нашей архитектуры, управления данными, а также выводы, сделанные в ходе работы. Наконец, мы рассмотрим два разных случая использования:

(1)   Создание и запуск прогностической аналитики в режиме реального времени с использованием контекстуальных моделей многоруких бандитов для оптимизации A/B-тестирования пользовательского интерфейса.

(2)  Выполнение прогнозной оценки кликабельности на основе данных в реальном времени с использованием взвешенной линейной регрессии. В конце занятия вы ознакомитесь с концепциями лямбда-архитектуры и потоковой передачи данных. Вы также узнаете как использовать SPARK для объединения аналитики в реальном времени и по пакетам, а также лучше узнаете о возможностях SPARK.

Ключевые слова

Lambda Architecture
Spark Streaming
Kafka