Big Data Days 2019

 8-10 октября   Москва

Александр Заболоцкий

Райффайзенбанк, Россия

Сергей Самсонов

Райффайзенбанк, Россия

Дата

8 октября, 2019

}

Время проведения

10:00-17:00

Язык проведения

Русский

Александр Заболоцкий

Руководитель Data Governance & Data Quality в Райффайзен Банке, Business Owner MDM системы Банка. Один из авторов операционного хранилища данных, предназначенного для трансформаций данных в режиме near real time, и расчета дельт между большими data set-ами. Профессионал по исследованию данных и обеспечения прозрачности потоков данных в Банке. Любит решать задачи под лозунгом “mission impossible”.

Сергей Самсонов

Архитектор стриминговой платформы Райффайзенбанка. Большой энтузиаст Kubernetes как менеджера ресурсов систем распределенной обработки данных, таких как Apache Spark, Apache Flink и других инструментов. Руководил разработкой Data Lake в Fasten Inc, а также реализацией стриминговой платформы на Kubernetes в Vezet Group. Имеет опыт автоматизации CI/CD для Spark- и Flink-приложений.

Мастер-класс

Основы управления распределенными приложениями обработки данных на Kubernetes

Узнаете о моделях и ключевых паттернах управления распределенными приложениями на Kubernetes. Вы будете описывать логику трансформаций на Apache Beam, а затем в кластере Kubernetes запускать реализованный пайплайн, как в batch-, так и streaming-режимах на Apache Spark и Apache Flink, соответственно. После чего используя GitLab CI/CD вы реализуете пайплайн сборки и деплоя приложений в Kubernetes.

Практические занятия будут проводиться в 4 этапа:

  • Подготовка рабочего окружения;
  • Описание трансформаций данных на Apache Beam;
  • Реализация CI/CD-пайплайна для управления streaming-приложением (execution engine – Apache Flink, инструментарий – GitLab CI/CD, Helm, Kubernetes);
  • Реализация CI/CD-пайплайна для управления batch-приложением (execution engine – Apache Spark, инструментарий – GitLab CI/CD, Helm, Kubernetes);

По результатам мастер-класса участники семинара получат раздаточные материалы, а также набор упражнений с целью закрепления полученных навыков.

Также у вас будет возможность задать интересующие вопросы и обсудить перспективы применения полученных знаний и рассмотренных инструментов в контексте решения ваших рабочих задач.

Программа

  • Сравнительный анализ менеджеров ресурсов распределенных приложений. Какие преимущества нам даёт Kubernetes?: теория
  • Введение в Kubernetes: теория и практическое задание;
  • Модели управления streaming- и batch- приложениями на Kubernetes (на примере Apache Flink и Apache Spark). Преимущества использования фрэймворка Kubernetes Operator: теория и практическое задание.
  • Разбор паттернов управления streaming- и batch-приложениями на Kubernetes: теория;
  • Apache Beam как унифицированная модель для описания трансформаций данных: теория и практическое задание;
  • Реализация CI/CD для streaming- и batch-приложений (на примере Apache Flink и Apache Spark): теория и практические задания;

Цели

В результате прохождения данного мастер-класса вы получите представление о моделях управления распределенными приложениями на Kubernetes, а также научитесь:

  • эффективно применять паттерны управления batch- и streaming- приложениями на Kubernetes;
  • использовать фрэймворк Kubernetes Operator для автоматизации задач администрирования приложений;
  • использовать Apache Beam для описания логики обработки данных;
  • реализовывать CI/CD-пайплайны для batch- и streaming- приложений.

Целевая аудитория

  • разработчики распределенных приложений;
  • архитекторы платформ обработки данных;
  • все заинтересованные в автоматизации процессов сборки и деплоя приложений распределенной обработки данных.

Предварительные условия курса

Ноутбук (минимум 8 ГБ ОЗУ) с доступом в интернет.