Big Data Moscow 2018

Эрнестас Сысоевас

DATA MINER, Литва

Дата: 10 октября, 2018
Время проведения: 10:00-17:00
Язык: Русский

Биография

Эрнестас является старшим инструктором и директором в компании DATA MINER. Он начал карьеру инструктора 15 лет назад в Литве, когда стал сертифицированным инструктором Microsoft (MCT) со специализацией в области реляционных баз данных. За прошедшие годы он провел более 300 курсов по Microsoft SQL Server. Однако 5 лет назад он решил перейти от реляционных баз данных к решениям в области больших данных.
Сейчас он проводит тренинги по платформе Cloudera Hadoop не только на местном уровне в Литве, но и по всей Европе от Лондона до Москвы. Являясь горячим поклонником технологии больших данных, Эрнестас часто выступает с докладами или проводит практические семинары на различных ИТ-конференциях и мероприятиях. В 2016 году по оценкам участников курсов Эрнестас получил награду как лучший инструктор по платформе Cloudera в регионе ЕБВА (Европа, Ближний Восток и Азия). Он является одним из вдохновителей и основных организаторов конференций devdays.lt, devopspro.lt, testcon.lt и bigdataconference.lt.

Мастер-класс

Основы Apache Hadoop и экосистемы Hadoop

Узнайте, как Apache Hadoop справляется с ограничениями традиционных вычислений, помогает организациям решать реальные задачи и поддерживает новые типы аналитики больших данных. Мастер-класс посвящен введению в экосистему Apache Hadoop, а также созданию центра обработки данных и управлению Hadoop в production.

Программа

  • Зачем нужна платформа Hadoop?
  • Архитектура Hadoop.
  • Какого типа проблемы можно решить с помощью Hadoop?
  • Какие компоненты составляют экосистему Hadoop?
  • Ядро Hadoop: HDFS, MapReduce и YARN.
  • Интеграция данных: Flume, Kafka и Sqoop.
  • Обработка данных: Spark.
  • Анализ данных: Hive и Impala.
  • Изучение данных: Cloudera Search.
  • Пользовательский интерфейс: Hue.
  • Хранение данных: HBase.
  • Безопасность данных: Sentry.
  • Управление Hadoop.

Цели

В стеке Apache Hadoop взаимодействует целый ряд компонентов. Поняв принцип действия каждого из них, вы получите лучшее представление о функциях Hadoop в вашей информационной среде. Мы выйдем за рамки мотивации Apache Hadoop и проанализируем распределенную файловую систему Hadoop (HDFS), MapReduce и общую топологию кластера Hadoop. Экосистему Apache Hadoop составляют различные проекты, и каждый из них по-своему улучшает хранение, управление, взаимодействие и анализ данных. Мы рассмотрим Hive, Pig, Impala, Spark, Kafka, Flume, Sqoop, HBase и Oozie, как они функционируют в стеке и как помогают интегрировать Hadoop в производственную среду. Мы рассмотрим некоторые примеры использования Hadoop в различных отраслях, включая финансовые услуги, страхование, телекоммуникации, разведку и здравоохранение, чтобы узнать, как Apache Hadoop используется в реальном мире, и изучим способы использования Apache Hadoop для управления большими данными и решения бизнес-задач способами, которые раньше никогда не представлялись возможными. Крайне важно понять, как Apache Hadoop повлияет на текущую конфигурацию центра обработки данных и спланировать ее заранее. Мы обсудим, какие ресурсы необходимы для развертывания Hadoop, как спланировать пропускную способность кластера, а также как подобрать конфигурацию для вашей стратегии больших данных. Вы внедрили Hadoop в вашу среду, что дальше? Как получить максимальную отдачу от технологии при управлении ей на повседневной основе? Итак, мы научимся эффективно управлять Hadoop.

Целевая аудитория

Этот вводный мастер-класс предназначен для всех ИТ-специалистов, которые мало знают о Hadoop и интересуются теорией создания Hadoop, анатомией самой платформы Hadoop и обзором бесплатных проектов, составляющих экосистему Hadoop.

Предварительные условия курса

Персональный компьютер с 16 ГБ ОЗУ (минимум 8 ГБ) для виртуальных машин.

Дата: 11 октября, 2018