SmartData 2021 (11.10.2021 — 14.10.2021)

img img Greenplum и Anchor modeling: Как мечты разбиваются о реальность

img DWH как продукт

img Apache Airflow 2.3 and beyond: What comes next?

img Big Data Tools: Демо

img Каталог и озеро данных на базе MongoDB, собираем технологический стек по кусочкам

img Hadoop 3: Erasure coding catastrophe

img Delta Lake data layout optimization

img Как облачные технологии меняют архитектуру баз данных и почему это важно

img «Функциональный» Spark

img Trino (Presto) DB: Zero copy lakehouse

img Lessons learned from using machine learning to optimize database configurations

img Обработка и проверка данных для компьютерного зрения в офисах продаж МТС по всей России

img Как прикрутить SQL к чему угодно при помощи Apache Calcite

img An experience report on strategies for working with Cloud Storage

img Projector: что это такое и как оно работает

img Optimizing test data coverage in functional testing

img Этапы построения платформы аналитических данных в облаках

img img img Airflow 2.х SaaS

img Построение кросс-ID для веб-аналитики

img img Архитектура высокопроизводительных распределенных SQL-движков

img От одной большой ETL-джобы до процесса проведения экспериментов над дата-пайплайнами

img img img How to bring advanced analytics to hybrid data storage with Vertica

img Apache Spark as an in-memory-only data processing engine?

img Вставить в ClickHouse и не умереть

img Воркшоп. Создание эффективной модели данных для высоконагруженных приложений с Apache Cassandra (часть 1)

img img Интервью с Пашей Финкельштейном

img MLOps в Ozon

img Spark Yoga — saving time & money with lean data pipelines

img Сказ про то, как мы DWH строим: От реплик MySQL до Exasol + ClickHouse

img Воркшоп. Создание эффективной модели данных для высоконагруженных приложений с Apache Cassandra (часть 2)

img Воркшоп: добавляем SQL к вашему приложению за 30 минут

img NiFi on a large scale: Архитектура, мониторинг, лучшие практики

img Как устроена поставка данных в Яндексе и почему мы больше не боимся перекладывать JSON'ы

img Dremio SQL Lakehouse: Быстрые данные для всех

img Цикл жизни ML-моделей в Cherry Labs

img Рабочее место D-people — опыт Сбер

img img How an analytical database stopped me smoking: A practical story with Exasol

img img Обсуждение: квази-изменяемые хранилища

img Воркшоп. Делаем жизнь инженеров проще с Big Data Tools

img Create a git-like experience for Data Lake analytics

img Два типа инженеров данных

img Self-service BI: Практика построения модели данных

img Как мы строим Feature store

img img img img img Круглый стол: Что, если не Hadoop

SmartData 2020 (09.12.2020 — 12.12.2020)

img img Kusto (Azure Data Explorer): Интерактивная платформа Big Data Майкрософта

img Flink + Zeppelin: Streaming data analytics platform

img Инициирующая загрузка в NiFi

img img Highly Normalized Hybrid Model, Или как мы внедрили свою модель хранения данных

img Демо: Big Data tools

img Kusto (Azure Data Explorer): Architecture and internals

img How we built Serverless Spark experience on Kubernetes

img По пути из Kafka в NiFi: Как не сломать и не потерять

img Версионирование структуры баз данных на примере хранилища

img Пишем гибкие пайплайны для дата-платформ с Dagster

img Подходы к построению современной платформы данных. Проблематика и концепция реализации

img NeoFS: Хранение объектных данных по своим правилам

img img Сегментация: Единое окно для знаний о пользователе

img img img Круглый стол: Языки программирования в Data Engineering

img Низкий уровень работы с данными

img Оцифровка рабочего в режиме реального времени

img CI/CD для Ml-моделей и датасетов

img Безопасные интерактивные большие данные в банке: Business intelligence на Clickhouse

img AI-augmented data preparation: Строим technology-agnostic data pipelines для современных стеков данных вместе с AI

img SQL-миграции в Postgres под нагрузкой

img Как мы разрабатываем DMP для Такси, Еды и Лавки

img How to master time and space

img The latest and greatest of Delta Lake

img Scio — data processing at Spotify

img img Kotlin API for Apache Spark: Зачем мы сделали ещё один API для работы со Spark

img Stateful streaming: Кейсы, паттерны, реализации

img Обзор технологий хранения больших данных. Плюсы, минусы, кому подойдет

img Наше хранилище для веб-аналитики

img Enterprise data platform: Инфраструктура данных как полигон для проверки бизнес-гипотез

SmartData 2017 (21.10.2017)

img Имя — это фича

img Рекомендательные системы: от матричных разложений к глубинному обучению в поточном режиме

img Глубокое обучение, вероятностное программирование и метавычисления: точка пересечения

img Краудсорсинг: как приручить толпу?

img Глубокие свёрточные сети для обнаружения объектов и сегментации изображений

img Прикладное машинное обучение в электронной коммерции: сценарии и архитектуры пилотов и боевых проектов

img Распределённое ML на больших данных: опыт построения рекомендательной системы в ivi

img От клика к прогнозу и обратно: Data Science-пайплайны в Одноклассниках

img Назад в будущее современной банковской системы

img Deep Learning: Распознавание сцен и достопримечательностей на изображениях

img Сегментируем 600 миллионов пользователей в режиме реального времени каждый день

img Нет данных? Нет проблем! Deep Learning на CGI

img CatBoost — следующее поколение градиентного бустинга

img Hadoop high availability: опыт Badoo

img Карты, бустинг, 2 стула

img Автоматический поиск контактной информации в интернете

img Neurona: зачем мы научили нейросеть писать стихи в стиле Курта Кобейна?