Big Data Days 2019

 8-10 октября   Москва

Максим Пантелеев

Luxoft Training, Россия

Биография

Специалист в области управления базами данных (BigData).
Максим имеет более 10 лет опыта разработки и поддержки высоконагруженных систем (поисковые системы, антиспам, системы предиктивной аналитики и сбора данных, криптоаналитика) в качестве разработчика и руководителя группы. Также он является инициатором и организатором трехмесячной программы стажировки для более чем 10 человек. На данный момент в сферу профессиональных интересов входят проекты по обработке больших данных и машинного обучения в Batch- и Streaming-режимах. Евангелист Apache Spark, Flink.
В настоящее время Максим занимается разработкой и поддержкой системы сбора и анализа телеметрии для одного из крупнейших разработчиков графических ускорителей и процессоров.

Доклад

Инструменты для анализа и обработки данных: SKlearn и другие

Обзор существующих инструментов и подходов, призванных помочь и улучшить существующие пайплайны моделей классического машинного обучения:
• Различные hack-и, позволяющие ускорить работу, сделать предсказания более консистентными: ускорение grid search, уменьшение потребления памяти pandas dataframe;
• Работа с категориальными переменными (cat2vec, mean encoding, etc);
• Бэггинг бустинг на Python и не только и тд.

Ключевые слова

Python
Scikit-learn