Big Data Days 2019

 8-10 октября   Москва

Кирилл Васин

SEMrush, Россия

Биография

Я закончил магистратуру ВШЭ по анализу данных в 2018 год, После этого полтора года работал на фрилансе Python-разработчиком и ML-специалистом. С 2019 года работаю Data Scientist в компании SEMrush. Есть опыт преподавательской деятельности: полгода читал курсы по машинному обучению в школе Digital Banana (очные компьютерные курсы для школьников). Интересуюсь изучением темы воспроизводимости экспериментов в проектах по анализу данных. В свободное время люблю писать код для опенсорсных проектов.

Доклад

ML Pipeline: структуризация проектов по анализу данных

В XXI веке разработка ПО перестала полагаться на рок-звезд одиночек и стала развивать подходы для увеличения эффективности работы в команде. Сегодня хорошие софтверные проекты имеют ясную структуру, хранят большую часть кода в едином репозитории, придерживаются единых стандартов качества кода, работают внутри системы контроля версий, покрывают кодовую базу тестами. В общем, полагаются на обширную базу лучших практик, которые вырабатывались годами, и которые позволяют хорошим инженерам кооперироваться для создания хороших продуктов.

Было бы очень удобно перенять лучшие практики софтверной разработки для анализа данных. Для этого нужно найти такие инструменты и подходы, которые будут учитывать специфику ML-проектов: наличие большого объема данных, множества пайплайнов для генерации признаков и огромного количества моделей со множеством гиперпараметров.

Я расскажу вам, как облегчить взаимодействие между специалистами по анализу данных, ускорить и стандартизировать процесс проведения экспериментов и добиться воспроизводимости результатов этих экспериментов.

После доклада вы сможете:
– Создать хорошо структурированный проект по анализу данных;
– Контролировать качество кода внутри этого проекта;
– Отслеживать результаты экспериментов, проведенных на разных машинах;
– Автоматизировать подбор гиперпараметров;
– Версионировать данные и пайплайны;
– Надежно воспроизводить эксперименты.

Ключевые слова

Data Version Control
Teamwork
Hyperparameter Optimisation