Big Data Days 2021

Online Edition

28-30 Cентября

онлайн

Доклады

Ксения Калашникова

Senior BI Business Analyst

Беларусь, Llamazing Data Project

Talk

Discovery на API-Проектах: с Чего Начать и Чего Ожидать

Не Excel-ем единым! Как эффективно начать discovery на API-ориентированных проектах, не имея ничего, кроме нескольких файлов разных форматов? Как правильно настроить процессы разработки и анализа данных? Как определить, что данные обрабатываются корректно и в соответствии с пожеланиями заказчика? Об этом и многом другом – в нашем докладе.

Read more…

Requirements Management
API Discovery

Татьяна Зобнина

Data Scientist

Россия, Naumen

Talk

Нейронные Сети в Анализе и Генерации Звука

Татьяна расскажет о применения нейронных сетей в области звуковых исследований.

Read more…

Neural Networks
Sound Analysis
ML Art

Einat Orr

Co-Founder and CEO

Israel, Treeverse

Talk

Rethinking Ingestion: CI/CD for Data Lakes

What they propose and will cover in this talk, is a new strategy for data lake ingestion. One where new data can be added in isolation then tested and validated, before “going live” in a production table. Finally, they will show how git-for-data tools like lakeFS and Nessie enable this ingestion paradigm in a seamless way.

Read more…

Data Lake
Data Versioning
Ingestion

Gerard Toonstra

Engineering Manager

The Netherlands, Datafold

Talk

Data Observability

Data Observability is a growing area in data engineering. In this session, he will explain to an audience of data engineers what data observability means in both development and operational processes.

Read more…

Data Observability
Data Lineage
Catalog

Josef Habdank

Principal Solution Architect

Denmark, DXC Technology

Talk

Management of a Cloud Data Lake in Practice: How to Manage 1000s of ETLs Using Apache Spark

The talk will outline the business reasoning, key design principles as well as technical solution. Expect some (but not too much) nerdy details related to Apache Spark implementation.

Read more…

Data Governance
Azure
Spark

Karol Przystalski

CTO

Poland, Codete

Talk

Machine Learning Security

Many companies would like to introduce machine learning models, but fail to see the potential security issues. In the presentation, he will show recent security issues related to machine learning models, such as adversarial attacks.

Read more…

ML
Security

Paige Roberts

Open Source Relations Manager

US, Vertica

Talk

In-Database Machine Learning with Jupyter

Learn about new architectures that successfully supply the needs of both business analysts and data scientists. Get a peek at the future.

Read more…

ML
Jupyter
Data Architecture

Анастасия Викторова

Руководитель Отдела Анализа и Стратегии Данных

Россия, Mediacom

Talk

Metadata management light или чем полезна фолксономия

Доклад посвящен управлению данными, информацией и знаниями.
В данной работе представлен подход, который создает связи между презентационными материалами, инсайтами и исходными дата-сетами. Доклад должен быть интересен тем, кому не до конца понятно, что такое метаданные, а также тем, кто собирал метаданные с помощью подручных средств, решал разработать собственный дата-каталог, перебрав десяток готовых решений, испытывал фрустрацию при бизнес-обосновании внедрения управления метаданными.

Read more…

Data Catalog
Metadata Management

Василий Литвинов

Старший Инженер ПО

Россия, Intel

Talk

Масштабируем Data Science с помощью Modin

Хорошо известно, что data scientist’ы – люди привычки, которые предпочитают пользоваться хорошо изученными инструментами Питон-набора, такими, как pandas, scikit-learn, NumPy, PyTorch и т.п. Однако, зачастую эти инструменты не приспособлены к параллельной работе или обработке терабайт данных.

Сегодня Василий расскажет про Modin, который является производительной библиотекой с полностью pandas-совместимым API. Единственное, что требуется для ускорения кода на pandas – замена одной-единственной строки кода с «import pandas as pd» на «import modin.pandas as pd».

Read more…

Data Science
Scalability
Pandas

Иван Муратов

Технический директор

Россия, Первая Мониторинговая Компания

Talk

Распределенное хранилище IoT телеметрии на базе PostgreSQL и TimescaleDB

Доклад о популярном расширении PostgreSQL для хранения Time Series данных с возможностью партицирования, шардирования и сжатия TimescaleDB. Реальный опыт применения для IoT телеметрии автомобильной телематики с хранением более 5 ТБ данных за несколько лет.

Read more…

IoT
Time Series
TimescaleDB
PostgreSQL

« Hазад