Big Data Days 2019
8-10 октября
Москва
Подтверждённые доклады
подтверждённые доклады на данный момент
Александр Сербул
1С-Битрикс, Россия
Массовый скоринг в CRM - секреты и подводные камни
В докладе расскажем, как мы делаем скоринг Лидов и других сущностей в массовой CRM Битрикс24 (миллионы компаний – клиентов). Подробно разберем процессы алгоритмического и математического проектирования, создания действующего пилота, анализа данных, управления рисками проекта, тюнинга облачного сервиса “Amazon Machine Learning”. Рассмотрим возможности “Amazon Sage Maker” и его технологического стека. Поговорим о несбалансированных данных, как с этим жить, выборе фич и действительно работающих оценках качества классификации.





Ярослав Дынников
Tarantool, Mail.Ru Group, Россия
Построение крупных кластеров Tarantool из 100+ узлов
Tarantool – это база данных и сервер приложений в одном флаконе. Даже для небольших проектов такого флакона часто бывает недостаточно.
В презентации я расскажу о новых возможностях Tarantool, которые упрощают создание распределенных систем, и как мы к этому пришли…



Никита Пустовойтов
BCS, Россия
Data-driven стероиды для ускорения роста современных цифровых банковских сервисов
Цель команды Data Science в ФГ БКС – ускорить рост новых и существующих бизнесов в финансовой группе, применяя анализ данных на всех этапах жизненного цикла клиента бизнеса, начиная с его привлечения, скоринга и увеличения конверсии в целевое действие и заканчивая подбором предложений для up- и кросс-сейла для его удержания и увеличения его LTV.



Кирилл Васин
SEMrush, Россия
ML Pipeline: структуризация проектов по анализу данных
В XXI веке разработка ПО перестала полагаться на рок-звезд одиночек и стала развивать подходы для увеличения эффективности работы в команде. Сегодня хорошие софтверные проекты имеют ясную структуру, хранят большую часть кода в едином репозитории, придерживаются единых стандартов качества кода, работают внутри системы контроля версий, покрывают кодовую базу тестами. В общем, полагаются на обширную базу лучших практик, которые вырабатывались годами, и которые позволяют хорошим инженерам кооперироваться для создания хороших продуктов.



Максим Пантелеев
Luxoft Training, Россия
Инструменты для анализа и обработки данных: SKlearn и другие
Обзор существующих инструментов и подходов, призванных помочь и улучшить существующие пайплайны моделей классического машинного обучения:
• Различные hack-и, позволяющие ускорить работу, сделать предсказания более консистентными: ускорение grid search, уменьшение потребления памяти pandas dataframe;
• Работа с категориальными переменными (cat2vec, mean encoding, etc);


Александр Брейман
Luxoft Training, Россия
Интеграция больших данных: ETL, ELT, Data Lake, Data Mesh
На этой сессии можно будет увидеть классические и современные способы делать данные из разных источников доступными для запросов, как если бы они все хранились в одной системе. На реализации практической задачи сможем проверить эти способы в действии и понять, в каких случаях нужно применять ELT, когда достаточно старого доброго ETL, а когда задачи развития лучше решаются с использование Data Mesh.



Владимир Федорков
ProxySQL, Россия
Анастасия Распопина
ProxySQL, Россия
Отказоустойчивость и балансировка трафика для MySQL-бэкенда
Система хранения данных в 2019 году должна справляться с всплесками трафика без заметной потери в скорости, а также не выходить из строя при любых отказах “софта” или “железа”, в том числе в облачных средах. Такой системе хранения также необходимо гибко распределять нагрузку между всеми нодами кластера.
Иногда сама СУБД не не имеет встроенных возможностей для балансировки запросов и выбора наименее загруженного узла (в MySQL это именно так). В этом случае используются внешние инструменты управления трафиком (ProxySQL).


Гергели Девеньи
Cloudera, США
Вашему вниманию — новая Data платформа от Cloudera. От Edge до ИИ
Cloudera изменяет среду корпоративных данных, предоставляя клиентам унифицированный, гибридный облачный сервис. Наша современная архитектура данных позволяет осуществлять локальные, мульти-облачные и частные облачные развертывания в рамках единой службы распространения. Это означает: простая переносимость, отсутствие привязки к поставщику облачных решений, совместное управление данными, которое поддерживает все варианты использования.






Юлия Богачева
QIWI, Россия
Big Data – топливо экономики впечатлений
Для выживания в конкурентной борьбе в процессе перехода из экономики товаров и услуг в экономику впечатлений компаниям необходимо использовать персонифицированный подход к клиентам. В докладе приводится ряд примеров использования технологий анализа данных для персонализации отношений с клиентами таких как дифференциация клиентов по CLV, борьба с оттоком, управление эффективностью партнеров и каналов и т.п. Также будут даны ссылки на методы машинного обучения, используемые для каждого бизнес кейса.

