Big Data Days 2019

 8-10 октября   Москва

Мастер-классы

Дата проведения: 8 октября 2019 года (день накануне конференции)
Время проведения: 10.00-17.00

• При покупке билета вы получаете доступ только на один выбранный вами мастер-класс.

• Каждый практический мастер-класс – мероприятие на целый день. Все мастер-классы проходят параллельно, поэтому приобретенный билет дает вам право на посещение только одного, выбранного вами мастер-класса. Поменять мастер-класс возможности не будет. Язык проведения каждого мастер-класса зависит от того, англо- или русскоговорящим является тренер.

• Язык проведения указан у каждого конкретного мастер-класса.

• Синхронный перевод мастер-классов НЕ ПРЕДУСМОТРЕН, поэтому перед выбором темы оцените возможности своего английского языка. Однако, исходя из опыта прошлых конференций, все тренеры знают о наличии языкового барьера, поэтому приложат максимальные усилия, чтобы облегчить участникам мастер-классов понимание обсуждаемой темы.

• Каждый участник мастер-классов должен иметь при себе ноутбук.

1

Эрнестас Сысоевас

DATA MINER, Литва

Узнайте, как Apache Hadoop справляется с ограничениями традиционных вычислений, помогает организациям решать реальные задачи и поддерживает новые типы аналитики больших данных. Мастер-класс посвящен введению в экосистему Apache Hadoop, а также созданию центра обработки данных и управлению Hadoop в production.
В стеке Apache Hadoop взаимодействует целый ряд компонентов. Поняв принцип действия каждого из них, вы получите лучшее представление о функциях Hadoop в вашей информационной среде. Мы выйдем за рамки мотивации Apache Hadoop и проанализируем распределенную файловую систему Hadoop (HDFS), MapReduce и общую топологию кластера Hadoop.

1

2

Валентина Джорджевич

Things Solver, Сербия

Этот мастер-класс посвящён методам машинного обучения, которые можно использовать для обнаружения аномалий. Сессия будет проходить в три этапа, каждый из которых является более углубленным, чем предыдущий.
Этап 1 включает в себя теоретическое введение в обнаружение аномалий и охватывает основные методы обнаружения аномалий, такие как z-оценка и сглаженная z-оценка для обнаружения аномалий.
Этап 2 включает в себя более продвинутые алгоритмы машинного обучения, способные работать с многомерными наборами данных, такие как изолирующий лес и метод эллиптической огибающей.
Этап 3 включает в себя использование нейросети – автоэнкодера для обнаружения аномалий в больших многомерных наборах данных.

2

В текущую эпоху микросервисов имеется насущная потребность в эффективном создании приложений, управляемых событиями, но традиционные системы обработки сообщений отстают по уровню развития, поскольку не обладают достаточной гибкостью для адаптации к облаку. На этом семинаре я представлю Siddhi, которая представляет собой систему обработки потоков с полностью открытым исходным кодом и обеспечивает эффективный способ реализации управляемых событиями облачных приложений, способных работать на Kubernetes и интегрироваться в различные системы, такие как NATS, Kafka, электронная почта и MongoDB. Я также проведу практическое занятие, чтобы продемонстрировать, как можно эффективно создавать потоковую интеграцию данных, потоковую аналитику и приложения адаптивного интеллекта на основе машинного обучения в течение нескольких минут.

3

4

Михаил Петров

Счетная палата Российской Федерации, Россия

Многие компании сейчас задумываются над вопросами «что такое цифровая трансформация?» «нужна ли она?» «если нужна – как к ней подступиться, с чего начать?»
Культура работы с данными в компании – один из важнейших факторов успеха.
Как изменить культуру и встать на путь трансформации? Необходимо правильно определить ключевые шаги, собрать команду изменений, найти «агентов преобразований», наметить «быстрые победы», подкрепить все планом мотивации и обучения, определиться с источниками данных, технологиями и продуктами.

4

5

Павлов Дмитрий

Аренaдата, Россия

Андрей Коняев

Аренaдата, Россия

Последние несколько лет в сфере корпоративных хранилищ данных (КХД) лучше всего описываются одним словосочетанием: игра изменилась. В противовес моно-вендорным решениям прошлого современный data-ландшафт представлен не единственной системой-серебряной пулей, и даже не несколькими системами от одного вендора. Бизнес, желающий получать конкурентное преимущество из доступных ему данных, вынужден использовать десятки, если не сотни, различных компонентов и систем, каждый из которых эффективно решает свою узкую задачу.

Одновременно с этим растёт тенденция отказа от решений vendor lock-in – теперь компании всё чаще выбирают решения с открытым исходным кодом. Это позволяет диверсифицировать риски подрядных организаций и вендоров, одновременно с этим открывая двери для накопления внутренней экспертизы по технологиям с последующей самостоятельной их поддержкой.

При этом всё больше заметен ещё один тренд – всё больше компаний в качестве инфраструктуры своего ландшафта вместо собственных мощностей выбирают облака, при этом если несколько лет назад это были в основном приватные инсталляции, то сейчас виден перевес в сторону публичных. Каждый такой облачный провайдер несёт за собой свои технологии виртуализации, сети и другую специфику.

5

6

Александр Заболоцкий

Райффайзенбанк, Россия

Сергей Самсонов

Райффайзенбанк, Россия

Узнаете о моделях и ключевых паттернах управления распределенными приложениями на Kubernetes. Вы будете описывать логику трансформаций на Apache Beam, а затем в кластере Kubernetes запускать реализованный пайплайн, как в batch-, так и streaming-режимах на Apache Spark и Apache Flink, соответственно. После чего используя GitLab CI/CD вы реализуете пайплайн сборки и деплоя приложений в Kubernetes.

Практические занятия будут проводиться в 4 этапа:

  • Подготовка рабочего окружения;
  • Описание трансформаций данных на Apache Beam;
  • Реализация CI/CD-пайплайна для управления streaming-приложением (execution engine – Apache Flink, инструментарий – GitLab CI/CD, Helm, Kubernetes);
  • Реализация CI/CD-пайплайна для управления batch-приложением (execution engine – Apache Spark, инструментарий – GitLab CI/CD, Helm, Kubernetes);

По результатам мастер-класса участники семинара получат раздаточные материалы, а также набор упражнений с целью закрепления полученных навыков.

Также у вас будет возможность задать интересующие вопросы и обсудить перспективы применения полученных знаний и рассмотренных инструментов в контексте решения ваших рабочих задач.

6