Big Data Days 2019

 8-10 октября   Москва

Филипп Мизрахи

Lyft, США

Биография

Фил Мизрахи – менеджер по продукции в команде по сопоставлению и обнаружению данных в Lyft. Он помогает компании, в которой постоянно увеличивается число наборов данных и количество сотрудников, проанализировать поступающую информацию. Ранее Фил работал менеджером по продукции в стартапе Fintech в Берлине, аналитиком по слияниям и поглощениям в Investment Bank в Париже и служил офицером ВВС Франции.

Доклад

Эффективный поиск данных в Lyft с помощью Amundsen

Прежде чем начать какой-либо анализ, специалисту по обработке данных необходимо найти подходящие источники данных, чтобы проанализировать их, понять и определить их надежность. К сожалению, на сегодняшний день эффективность обнаружения данных крайне невысока. На поиск подходящих данных тратится бесчисленное количество часов.
Проверка надежности данных требует выполнения огромного количества запросов (максимальная временная отметка, количество за день, количество различающихся и т. д.), которые отнимают время и приводят к возникновению ошибок. Не существует четкого способа, позволяющего узнать, как найти людей для ответа на вопросы по данным таблицы. Хуже всего то, что анализ выполняется повторно, а модели строятся заново множество раз, поскольку работа не поддается проверке. К этому прибавляется увеличение числа сотрудников и ресурсов данных, на что и обращает внимание Lyft.
Компания решила эту проблему и в 10 раз сократила время обнаружения данных, создав собственный портал данных — Amundsen. Его дизайн опирается на три основных элемента: расширенный граф данных, интуитивно понятный пользовательский интерфейс и централизованные метаданные.
1. Расширенный граф данных
С точки зрения внутренней структуры портал Amundsen использует графовую базу данных для хранения сведений об отношениях между многочисленными объектами данных (таблицами, панелями, событиями protobuf и т. д.). Уникальной особенностью портала является то, что он обращается с людьми как с объектами данных первого класса. Другими словами, для каждого человека в организации создается узел графа, который соединяется с другими узлами (например, таблицами или панелями).
2. Интуитивно понятный пользовательский интерфейс
Amundsen запускает алгоритм PageRank, используя для поискового ранжирования данные из журналов доступа, подобно тому, как Google ранжирует страницы в интернете.
3. Централизованные метаданные
Amundsen собирает метаданные из различных источников (Hive, Presto, Airflow и т. д.) и раскрывает их в одном центральном месте. Разработка подходящего места для хранения всех этих метаданных пока продолжается.
Спикер расскажет о текущих разработках в данной области, в том числе о проектах Ground в RISELab и Marquez в WeWork. Он представит демо-версию портала Amundsen, расскажет о его целях, подробно опишет архитектуру и объяснит, как в портале реализованы три основных принципа дизайна. Фил также расскажет, как сопоставление данных Lyft способствует обеспечению соответствия с Общим положением по защите данных (GDPR) и Законом о конфиденциальности данных клиентов штата Калифорния (CCPA).
В завершение он покажет всем будущий план проекта: какие проблемы остаются нерешенными, и каким образом мы, как сообщество Open Source, можем совместно работать над их решением.

Ключевые слова

Обнаружение данных
Открытый код
GDPR