Big Data Days 2019

 8-10 октября   Москва

Бас Гирдинг

Aizonic, Голландия

Биография

Архитектор и инженер в области больших данных/ИИ.

Доклад

Быстрая передача данных со стеком KISSS

Потоковая аналитика (или быстрая обработка данных) становится все более популярной темой в корпоративных организациях. Причиной этого является желание клиентов получать события в реальном времени, например, уведомления и консультации, основанные на их действиях и действиях других пользователей онлайн. В типичном решении потокового анализа применяется схема «каналов и фильтров», состоящая из трех основных этапов: обнаружение моделей на данных необработанных событий (комплексная обработка событий), оценка результатов, получаемых с помощью бизнес-правил и алгоритмов машинного обучения, и принятие решения о следующем действии. В основе этой архитектуры лежит выполнение прогнозных моделей, которые обрабатывают огромные объемы нескончаемых потоков данных. В данном докладе я представлю архитектуру для потоковых аналитических решений, охватывающую многие случаи использования по этой схеме: действенная оценка, выявление мошенничества, анализ журналов, анализ трафика, заводские данные, интернет вещей и т.д. Я коснусь нескольких проблем архитектуры, которые будут возникать при работе с потоковыми данными, например проблем с задержкой, время события против времени сервера. Решение построено на стеке KISSS: Kafka, Impala и Spark Structured Streaming. Решение имеет открытый исходный код и доступно на GitHub.

Ключевые слова

Kafka
Impala
Spark
Streaming