Big Data Days 2021

Online Edition

28-30 Cентября

онлайн

Доклады

Владимир Озеров

Основатель

Россия, Querify Labs

Talk

Архитектура и Реализация Реляционных Операторов в Распределенных SQL-Движках

Стандарт SQL определяет набор операций над данными, такие как проекция, фильтрация, группировка, JOIN, UNION, window functions. Распределенные SQL системы должны обрабатывать данные, расположенне на нескольких серверах, что значительно усложняет эффективную реализацию. Так, операторы должны стремиться минимизировать количество данных, передаваемых между серверами, а так же адекватно распределять нагрузку между серверами, для избежания проблем с недостатком ресурсов. В данном докладе я расскажу дизайне реляционных операторов в распределенных SQL-системах, и типичных компромисах. Мы рассмотрим реализации распределенных агрегатов (включая window), JOIN, сортировов, а так же LIMIT/OFFSET.

Read more…

Apache Calcite
SQL
Query Optimization

Никита Курганов

Аспирант

Россия, МГТУ им Н.Э.Баумана

Talk

Использование Методов Машинного Обучения в Задачах Статического Анализа Исполняемых Файлов

В настоящей докладе производился анализ вредоносных исполняемых файлов под операционную систему Windows с помощью статического анализатора Capa компании FireEye с целью классификации вредоносных файлов на основе методов машинного обучения. В результате данной работы были получены алгоритмы, которые с высокой точностью позволяют определить к какому классу вредоносных файлов относится исследуюемый исполняемый файл.

Read more…

ML
Security
File Analysis

Алексей Чернобровов

Консультант Data Science

Россия, Chernobrovov.com

Talk

People-driven Company vs Data-driven Company

Многие крупные бизнесы (и подразделения бизнесов) по-прежнему управляется менеджерами в ручном режиме. И часто менеджеры делают этот достаточно хорошо и эффективно. Это классические people-driven company. Но у них есть и свои ограничения: все зависит от конкретного человека, который может заболеть, уволиться или начать принимать неверные решения. Поэтому многие компании хотят перейти на data-driven подход, чтобы обеспечить скорость, объективность, системность принять решения, и получать понятную оценку эффективности.
В докладе будет рассмотрен переход компании от People-driven к data-driven подходам. Будут как успешные кейсы таких переходов, так и не успешные. Из доклада вы узнаете:
• Когда стоит делать такой переход, а когда нет.
• Как правильно подготовится в техническом плане.
• Как правильно подготовить команду к такому переходу.

Read more…

Data Driven Management

Павел Симанихин

Ведущий Консультант Центра Компетенции Big Data

Россия, Neoflex

Talk

Unboxing Многокомпонентных Big Data-проектов Инструментом DataLog на Основе Подхода Software Аs Аrtefact

Проблемы legacy-проектов в Big Data – это общие проблемы для больших проектов с долгой историей, такие как отсутствие актуальной документации, сложность системы в целом и так далее.

Однако, для Big Data это дополнительно все осложняется еще следующим:

1. Множество компонентов в одном проекте (например, в обычном проекте архитектура выглядит так: webserver <-> webapp, в bigdata проекте так: oracle -> sqoop -> hive -> spark -> kafka -> model -> kafka -> spark -> hive);
2. Невозможность применения единой архитектуры проекта упорядочивающей сложность системы, такой например, как domen-driven-design;
3. Декларативность инструментов программирования pipeline, декларирующих что нужно сделать, а не описывающих как это будет делаться;
4. Необходимость отдельно вести учет компонентов системы и объектов данных.

Мы разработали инструмент, значительно ускоряющий и облегчающий построение диаграмм раскрывающих различные компоненты таких проектов, и показывающих связи между ними на основе ряда довольно простых принципов.

Read more…

Big Data
Software As Artefact
DataLog

Алексей Бурнаков

Старший Аналитик Данных

Россия, ТАСС

Talk

Обнаружение Плагиата в Новостях

Новости ТАСС и других информационных агентств цитируются многими новостными СМИ. Обычно при использовании новости, созданной в информ. агентстве делается явная ссылка на источник. Но иногда СМИ могут пренебречь этим правилом. Такие случаи также нарушают юридические условия использования материалами информ. агентства. В ТАСС мы разработали подход для детекции подобных нарушений – плагиат в новостях СМИ.

Read more…

NLP
Hadoop
Plagiarism

Frank Munz

Partner

Germany, Databricks

Talk

Share Massive Amounts of Live Data with Delta Sharing

The proposed session is a technical session for developers and big data architects. The session includes a live, hands-on demonstration of Delta Sharing. A detailed explanation of how to get started with purely open source is provided to the interested audience.

Read more…

Data Science
Open Source
Data Sharing

Daniel Wrigley

Lead Consultant Search & Analytics

Germany, SHI

Talk

Keyword Search is Dead! And so are Solr and Elasticsearch?

How can AI combined with Vector Similarity Search efficiently deliver more relevant search results than conventional methods? For which cases is there an economic gain from their application? To answer these and other questions, he will provide an overview of the current state and an outlook into the future possibilities of new technologies and reveal how search applications can get a boost with the help of AI. 

Read more…

Natural Language Processing (NLP)
Vector Similarity Search
Elasticsearch
Solr

Sebastian Mehldau

Head of Growth Marketing

The Netherlands, VanMoof

Talk

Creating a Dwh From Scratch to Analyze 11 Million Kilometers Worth of Bike Rides

In this talk, we will show you what problems we faced with creating a DWH from scratch, how we solved them with BigQuery, and what insights we gained with Looker: do e-bikes replace other forms of transportation?

Read more…

Data Warehouses
BigQuery
Predictive Models

Kris van der Mast

CEO

Belgium, VaHa

Talk

Use Visual Studio Code for Your Machine Learning Environments

VS Code has grown over the years to a multi-functional tool and turns out to be a great entry point for your Machine Learning experiences. Integration with Azure, Python support, … In this session, Kris will show you what’s possible.

Read more…

ML
Visual Studio
Python
Azure

Jan Karremans

Chief Evangelist

The Netherlands, EDB Postgres

Talk

Riding the Second Wave – Open Source for Relational Databases

How do databases fit in this equation? How do relational databases fit in this equation specifically? What does the database landscape look like, and where does Open Source fit in? Interesting questions in today’s world, from all angles, such as business, operations, development. Join this talk and get more insight into the wonderful world of data storage, data processing, and information delivery!

Read more…

Databases
Open Source
PostgreSQL

« Hазад