Big Data Days 2021

Online Edition

28-30 Cентября

онлайн

Василий Литвинов

Старший Инженер ПО

Россия, Intel

Биография

Любитель Питона со стажем. Начал ИТ-карьеру в инфраструктуре, затем разрабатывал инструменты для профилирования Питона. В последнее время переключился на улучшение Питон-библиотек для Data Science.

Доклад

Масштабируем Data Science с помощью Modin

ИИ и data science сегодня развиваются семимильными шагами. Мы постоянно сталкиваемся с непрерывно возрастающим объёмом данных, и в то же время можем делать всё более сложные штуки, такие, как BERT. Однако, этот прогресс не даётся даром, вызывая смещение от извлечения данных к инженерии вычислительных систем, что в свою очередь побуждает data scientist’ов становиться скорее инженерами данных или инженерами облачных систем. В итоге data scientist’ы начинают больше заниматься инфраструктурой вместо выполнения своих непосредственных задач – выявления закономерностей и изучения данных.

Одной из причин такого смещения является отсутствие инфраструктуры для data science и машинного обучения, оптимизированной для data scientist’ов, которые не обязательно являются инженерами-программистами. Хорошо известно, что data scientist’ы – люди привычки, которые предпочитают пользоваться хорошо изученными инструментами Питон-набора, такими, как pandas, scikit-learn, NumPy, PyTorch и т.п. Однако, зачастую эти инструменты не приспособлены к параллельной работе или обработке терабайт данных.

Сегодня Василий расскажет про Modin, который является производительной библиотекой с полностью pandas-совместимым API. Единственное, что требуется для ускорения кода на pandas – замена одной-единственной строки кода с «import pandas as pd» на «import modin.pandas as pd».
Modin обладает следующими ключевыми особенностями:
1) Распараллеливает pandas для высокой производительности. В версии 0.9 Modin поддерживает 94% pandas API и интегрируется с привычной Питон-экосистемой (NumPy, XGBoost, scikit-learn и т.п.)
2) Позволяет запускать код на pandas на различных backend’ах.
3) Предоставляет возможность неограниченного по сути масштабирования в облака «по требованию», доступную прямо из Jupyter notebook’a.

Приходите за подробностями, как именно предлагается уменьшить время, затраченное на построение технической части решения задач data science, для того, чтобы потратить это время на собственно решение этих задач.

Ключевые слова

Data Science
Scalability
Pandas

« Hазад