Big Data Moscow 2018

Теофилос Какантусис

Logical Clocks AB, Швеция

Биография

Теофилос Какантусис является исполнительным директором и соучредителем компании Logical Clocks AB – основного разработчика Hops Hadoop. Он получил степень магистра в области распределенных систем в KTH в 2015 году. Ранее он работал консультантом по межплатформенному программному обеспечению в Oracle (Греция), а также инженером-исследователем в компаниях SAP AG (Цюрих) и RISE SICS AB (Стокгольм). Он часто проводит семинары по Hops Hadoop и представлял Hops на таких мероприятиях, как Strata San Jose (Нью-Йорк), Big Data Tech (Варшава) и BigDataConference (Вильнюс).

Доклад

Многоклиентское глубокое обучение и потоковая передача как сервис с использованием Hopsworks

Hops – это новая европейская версия Apache Hadoop, которая вводит новые концепции проектов, наборов данных и пользователей в Hadoop для предоставления услуг многоклиентского глубокого обучения и потоковой передачи как сервиса. Наша платформа для управления наборами данных и выполняемыми заданиями под названием Hopsworks основана на концепции Hops и является полностью ориентированной на пользовательский интерфейс средой, реализованной с полностью открытым исходным кодом. На этом семинаре мы рассмотрим проблемы и опыт создания безопасной платформы, которая запускает приложения для машинного обучения и потоковой передачи с использованием множества технологий. Мы покажем, как Hopsworks предоставляет распределенное глубокое обучение как сервис с использованием TensorFlow, Horovod Uber и TensorFlowOnSpark Yahoo, и продемонстрируем, как специалисты по обработке данных могут выполнять крупномасштабную оптимизацию гиперпараметров, контролировать обучение модели с помощью TensorBoard и управлять своими экспериментами с помощью службы Hopsworks Experiment. Мы продемонстрируем, как мы запускаем потоковые приложения как на Spark, так и на Flink с Kafka поверх YARN и как мы запускаем SQL на больших данных с использованием Hive и SparkSQL. Мы также покажем, как мы используем стек ELK (Elasticsearch, Logstash и Kibana) и SparkUI для регистрации и отладки приложений Spark, как мы используем Grafana для контроля приложений Spark и, наконец, как блокноты Jupyter предоставляют интерактивные визуализации и графики для конечных пользователей. Кроме того, мы покажем, как Hopsworks упрощает обнаружение и загрузку крупных наборов данных с использованием Dela – настраиваемого инструмента однорангового обмена. Пользователи могут за несколько минут установить платформу, открыть отобранные важные данные и загружать их для применения своей бизнес-логики с помощью потокового приложения либо тренировки глубоких нейронных сетей с использованием TensorFlow. Мы также рассмотрим наш опыт использования глубокого обучения как сервиса и потоковой передачи как сервиса в кластере в Швеции с более чем 400 пользователями (по состоянию на середину 2018 года).

Дата: 11 октября, 2018