Apache Iceberg. Движки запросов и экосистема

Как стандартизированный формат хранения в data lake и единый интерфейс доступа к данным, Iceberg стимулирует развитие экосистемы вычислительных движков. Теперь вычислительный слой может быть реализован самыми разными способами, совместимыми с API Iceberg.

Итак, у нас есть хранилище и единый формат. Мы договорились о том, как структурированы данные, и теперь в вычислительном слое может проявиться всё многообразие подходов к выполнению запросов и реализации новых функций. По-настоящему круто наблюдать, как поверх Iceberg расцветает целая экосистема.

Экосистема движков

В этой экосистеме четко выделились различные ниши:

Data scientists, работающие с относительно статичными данными, часто выбирают PySpark.
Команды, обрабатывающие streaming-данные, используют Flink.
Аналитики пишут запросы с помощью Trino, Dremio или аналогичных инструментов.

Все эти инструменты одновременно видят консистентные данные. Никакого копирования, никакого дополнительного ETL между системами, никаких преобразований форматов. Это по-настоящему полноценная экосистема, где множество различных решений могут сосуществовать без конфликтов.

Apache Spark

Apache Spark поддерживает Iceberg дольше всех и, пожалуй, имеет самую зрелую интеграцию: полная поддержка чтения, записи, собственного streaming-режима, обслуживания таблиц и time travel. Netflix использует связку open source Apache Spark и Iceberg на петабайтных масштабах. Производительность на высочайшем уровне: поддерживаются векторное чтение, умное отсечение партиций (partition pruning) и другие важные оптимизации, необходимые для современных высоконагруженных систем.

Streaming с Flink

Flink приносит в Iceberg полноценный streaming. Вы можете выполнять обработку потоков в реальном времени, и Flink-задачи могут напрямую писать данные в таблицы Iceberg. Это критически важно для многих аналитических сценариев: можно стримить события change data capture (CDC) из баз данных прямо в таблицы Iceberg с гарантиями ACID, при необходимости обогащая или фильтруя их на лету. Дашборды отображают данные, которым всего несколько секунд, а не минуты или часы.

Интерактивный SQL

Для интерактивного SQL выбор ещё шире:

Trino великолепен в федеративных запросах. Вы можете джойнить таблицы Iceberg с данными в Postgres, MongoDB и вообще чем угодно — это его ключевая фишка.
Presto отлично подходит для workloads масштаба Facebook.
Impala обеспечивает субсекундное выполнение запросов для интерактивных дашбордов.

И все они поддерживают Iceberg нативно, включая такие функции, как отсечение партиций, проталкивание предикатов (predicate pushdown) и даже time travel. Ключевой момент в том, что все они читают одни и те же метаданные Iceberg. Благодаря этому вы можете выбирать идеальный инструмент для каждого use-case, не перемещая данные.

Подписывайтесь на наш telegram канал

Облако и Python

Облачные data warehouse также активно интегрируют Iceberg:

Snowflake может читать и писать таблицы Iceberg без необходимости импорта данных.
BigQuery поддерживает Iceberg как формат первого класса (first-class citizen).
Athena обеспечивает полную поддержку DDL и DML для Iceberg.

Если вы используете managed compute или подобные системы, выбор очевиден: хранение данных в открытых форматах даёт гораздо больше гибкости в будущем. Ваши данные остаются портативными и не привязаны к конкретному вендору.

Но Iceberg предназначен не только для SQL-движков. В предыдущем модуле мы уже смотрели небольшой фрагмент Python-кода. Это PyIceberg — библиотека, предоставляющая нативный доступ к Iceberg из Python без необходимости поднимать Spark или PySpark. Вы можете читать данные из Iceberg напрямую в pandas или arrow data frames. Это отлично подходит для множества data science workflow'ев при работе с batch-данными.

Также появляется реализация на Rust для высокопроизводительных приложений, а библиотека на Go находится в активной разработке. Не каждому use-case нужен тяжёлый распределённый движок. Иногда достаточно просто прочитать партицию в Jupyter-ноутбуке или сделать запрос к Iceberg из микросервиса.

Регистрируйтесь на SubQuery

Богатая экосистема специализированных инструментов

Доступен Kafka Connect connector, который синхронизирует данные напрямую в Iceberg для event streaming. Если вы используете Kafka, обязательно обратите внимание на специализированные стриминговые коннекторы.

В Airflow есть готовые операторы для обслуживания таблиц, другие фреймворки оркестрации тоже поддерживают Iceberg. Jupyter отлично работает с PyIceberg. Iceberg бесшовно вписывается в ваш существующий workflow, и вам не придётся перекраивать всю архитектуру. Скорее всего, какие бы инструменты вы ни использовали, для них уже найдётся интеграция с Iceberg.

Свобода открытого стандарта

Это одно из главных преимуществ формирования открытого стандарта (emerging standard). Открытые стандарты всегда дают гибкость. Вы не привязаны к конкретному вендору или движку для вычислений. Используете Spark для batch-задач сегодня? Завтра можете перейти на другой инструмент. Вы можете запускать разные workloads на разных движках в зависимости от потребностей конкретных команд в организации.

Новые инструменты будут поддерживать Iceberg просто потому, что это стандарт. Именно поэтому сейчас индустрия делает на него такие серьёзные ставки.

Так что присмотритесь к своему текущему стеку. Вполне вероятно, что Iceberg уже отлично поддерживается в инструментах, которые вы используете.

«Экосистема Iceberg — это сад, где может расцвести тысяча цветов: каждый движок запросов находит свою нишу, но все они питаются из одного источника — стандартизированного формата. Выбирайте инструмент под задачу, а не под формат.»

Поздравляем! Вы завершили курс по Apache Iceberg. Теперь у вас есть комплексное понимание табличного формата, архитектуры, каталогов, ACID-транзакций, операций обновления и удаления, эволюции схемы, партиционирования, кластеризации, time travel, ветвления, тегирования, метатаблиц, обслуживания и экосистемы.

← Назад к упражнению по обслуживанию таблиц