Big Data Days 2019

 8-10 октября   Москва

Подтверждённые доклады

подтверждённые доклады на данный момент

Милош Милованович

Things Solver, Сербия

Доклад

Кому необходимо управление данными?

С быстрым развитием углубленной аналитики и с учетом сжатых сроков выполнения проектов, требуемых бизнес-подразделениям, управление данными часто остается в стороне. Эта среда ведет к формированию неконсолидированного и децентрализованного подхода к аналитическим проектам, где организации не хватает общего представления о цельных бизнес-процессах. Тем не менее некоторая польза от проектов…

Читать больше…

Data Management
Data Governance
Advanced Analytics
Доклад

Изначальное преимущество нативных облачных приложений

В нынешнюю эпоху микросервисов возникает необходимость эффективного построения приложений, управляемых событиями, однако традиционные системы обработки сообщений отстают, поскольку они не являются гибкими при адаптации к облаку. В этом докладе я представлю Siddhi, являющуюся системой потоковой обработки данных с открытым исходным кодом. Она способна обеспечить эффективный…

Читать больше…

Stream Processing
Kubernetes
Event Driven Applications

Дэвид Пилато

elastic, Франция

Доклад

Elasticsearch для приложений прежних версий

Как обеспечить сочетание вселенных SQL и NoSQL, не прибегая к радикальным изменениям?
Я покажу вам, как добавить Elasticsearch в приложения прежних версий и не изменять ваших привычек разработчика. Функции расширенного поиска появятся в вашем приложении мгновенно, без необходимости написания сложного SQL-кода!
Я начну с приложения на основе Spring Boot/Postgresql/MySQL и добавлю полную интеграцию с Elasticsearch.

Читать больше…

Search
Data
Elasticsearch
Opensource

Бас Гирдинг

Aizonic, Голландия

Доклад

Быстрая передача данных со стеком KISSS

Потоковая аналитика (или быстрая обработка данных) становится все более популярной темой в корпоративных организациях. Причиной этого является желание клиентов получать события в реальном времени, например, уведомления и консультации, основанные на их действиях и действиях других пользователей онлайн. В типичном решении потокового анализа применяется схема…

Читать больше…

Kafka
Impala
Spark
Streaming

Богдан Ивченко

Dataworkz, Голландия

Доклад

От нейронных сетей до обмана местных властей

Мы расскажем вам историю о том, как мы планируем подорвать парковочный сектор в Голландии. Все началось, когда один из нас получил 5 штрафов за парковку в один день. В настоящее время процесс продажи билетов полностью автоматизирован с помощью так называемых сканирующих автомобилей. Эти автомобили сканируют номерные знаки автомобилей и проверяют, заплатил ли владелец…

Читать больше…

Real Time Object Detection

Андрей Голуб

ELSE Corp Srl, Италия

Доклад

Использование Малых Данных (Small Data), синтетических данных (Synthetic Data) в построении ИИ моделей для Модного Ритейла

Можно ли улучшить качество ИИ моделей, благодаря использованию «малых данных» (Small Data)? Корректно ли обучать и настраивать ИИ модели при помощи «синтетических данных» (Synthetic Data)? Возможно ли создать эффективную Нейронную Сеть для работы с Big Data, имея вначале лишь ограниченный набор данных, помноженный на глубокое понимание природы этих данных?

Читать больше…

Small Data
Recommendation Systems
Fashion

Мацей Брынски

Payability, Польша

Доклад

Большие данные на Kubernetes

В своей презентации я хочу показать, как можно использовать технологии больших данных на кластере Kubernetes. К ним относятся: Kafka, HDFS, Spark и Flink. Я расскажу о своем опыте и о тех проблемах, которые нужно решать. Я также покажу как использовать Kubernetes с существующей инфраструктурой Hadoop.

Читать больше…

Kubernetes
Hadoop
Kafka
Spark

Владимир Крылов

Artezio, Россия

Доклад

Семиотический анализ юридических текстов

В отличие от семантического анализа LSA, который извлекает имманентные темы из текста, семиотический анализ имеет целью интерпретировать нарративный текст в терминах заранее определенных умственных конструкций, называемых знаками. Такие задачи создают новую область NLU — Natural Language Understanding.

Читать больше…

Natural Language Understanding
Semiotic Analysis

Вадим Стрижов

Московский физико-технический институт, Россия

Доклад

Оценка оптимального объема выборки и выбор моделей машинного обучения

Обсуждаются методы выбора моделей машинного обучения для случая, когда у нас нет данных. Для построения моделей данные надо собрать. Эта работа требует значительных усилий и ресурсов. Особенно, если речь идет о медицине. Например, специальный анализ крови одного пациента стоит более трех тысяч евро. Принятые статистические методы оценки объема выборки требуют до пятисот пациентов.

Читать больше…

Машинное обучение
Oценка оптимального объема выборки
Bыбор моделей