Big Data Days 2019

 8-10 октября   Москва

Подтверждённые доклады

подтверждённые доклады на данный момент

Александр Сербул

1С-Битрикс, Россия

Доклад

Массовый скоринг в CRM - секреты и подводные камни

В докладе расскажем, как мы делаем скоринг Лидов и других сущностей в массовой CRM Битрикс24 (миллионы компаний – клиентов). Подробно разберем процессы алгоритмического и математического проектирования, создания действующего пилота, анализа данных, управления рисками проекта, тюнинга облачного сервиса “Amazon Machine Learning”. Рассмотрим возможности “Amazon Sage Maker” и его технологического стека. Поговорим о несбалансированных данных, как с этим жить, выборе фич и действительно работающих оценках качества классификации.

Читать больше…

Predictive Marketing
Logistic Regression
CRM
Scoring
Classification

Ярослав Дынников

Tarantool, Mail.Ru Group, Россия

Доклад

Построение крупных кластеров Tarantool из 100+ узлов

Tarantool – это база данных и сервер приложений в одном флаконе. Даже для небольших проектов такого флакона часто бывает недостаточно.

В презентации я расскажу о новых возможностях Tarantool, которые упрощают создание распределенных систем, и как мы к этому пришли…

Читать больше…

Tarantool
Оркестрация
Горизонтальное масштабирование
Доклад

Data-driven стероиды для ускорения роста современных цифровых банковских сервисов

Цель команды Data Science в ФГ БКС – ускорить рост новых и существующих бизнесов в финансовой группе, применяя анализ данных на всех этапах жизненного цикла клиента бизнеса, начиная с его привлечения, скоринга и увеличения конверсии в целевое действие и заканчивая подбором предложений для up- и кросс-сейла для его удержания и увеличения его LTV.

Читать больше…

Machine Learning
Scoring
Banking

Кирилл Васин

SEMrush, Россия

Доклад

ML Pipeline: структуризация проектов по анализу данных

В XXI веке разработка ПО перестала полагаться на рок-звезд одиночек и стала развивать подходы для увеличения эффективности работы в команде. Сегодня хорошие софтверные проекты имеют ясную структуру, хранят большую часть кода в едином репозитории, придерживаются единых стандартов качества кода, работают внутри системы контроля версий, покрывают кодовую базу тестами. В общем, полагаются на обширную базу лучших практик, которые вырабатывались годами, и которые позволяют хорошим инженерам кооперироваться для создания хороших продуктов.

Читать больше…

Data Version Control
Teamwork
Hyperparameter Optimisation

Максим Пантелеев

Luxoft Training, Россия

Доклад

Инструменты для анализа и обработки данных: SKlearn и другие

Обзор существующих инструментов и подходов, призванных помочь и улучшить существующие пайплайны моделей классического машинного обучения:
• Различные hack-и, позволяющие ускорить работу, сделать предсказания более консистентными: ускорение grid search, уменьшение потребления памяти pandas dataframe;
• Работа с категориальными переменными (cat2vec, mean encoding, etc);

Читать больше…

Python
Scikit-learn

Александр Брейман

Luxoft Training, Россия

Доклад

Интеграция больших данных: ETL, ELT, Data Lake, Data Mesh

На этой сессии можно будет увидеть классические и современные способы делать данные из разных источников доступными для запросов, как если бы они все хранились в одной системе. На реализации практической задачи сможем проверить эти способы в действии и понять, в каких случаях нужно применять ELT, когда достаточно старого доброго ETL, а когда задачи развития лучше решаются с использование Data Mesh.

Читать больше…

Data Mesh
Data Lake
ETL

Владимир Федорков

ProxySQL, Россия

Доклад

Отказоустойчивость и балансировка трафика для MySQL-бэкенда

Система хранения данных в 2019 году должна справляться с всплесками трафика без заметной потери в скорости, а также не выходить из строя при любых отказах “софта” или “железа”, в том числе в облачных средах. Такой системе хранения также необходимо гибко распределять нагрузку между всеми нодами кластера.

Иногда сама СУБД не не имеет встроенных возможностей для балансировки запросов и выбора наименее загруженного узла (в MySQL это именно так). В этом случае используются внешние инструменты управления трафиком (ProxySQL).

Читать больше…

High Load
MySQL
Доклад

Вашему вниманию — новая Data платформа от Cloudera. От Edge до ИИ

Cloudera изменяет среду корпоративных данных, предоставляя клиентам унифицированный, гибридный облачный сервис. Наша современная архитектура данных позволяет осуществлять локальные, мульти-облачные и частные облачные развертывания в рамках единой службы распространения. Это означает: простая переносимость, отсутствие привязки к поставщику облачных решений, совместное управление данными, которое поддерживает все варианты использования.

Читать больше…

Big Data
Hybrid Cloud
Multifunction
Secure
Analytics
Cloud

Юлия Богачева

QIWI, Россия

Доклад

Big Data – топливо экономики впечатлений

Для выживания в конкурентной борьбе в процессе перехода из экономики товаров и услуг в экономику впечатлений компаниям необходимо использовать персонифицированный подход к клиентам. В докладе приводится ряд примеров использования технологий анализа данных для персонализации отношений с клиентами таких как дифференциация клиентов по CLV, борьба с оттоком, управление эффективностью партнеров и каналов и т.п. Также будут даны ссылки на методы машинного обучения, используемые для каждого бизнес кейса.

Читать больше…

Big Data
Personalization