Масштабирование данных: Big Data Hosting - архитектурный плейбук для CTO

Этот плейбук — концентрат практики проектирования и эксплуатации платформ Big Data. Он помогает принять ключевые решения на старте: эталонные архитектуры, выбор хранилища и формата, параметры сети и SLO, безопасность «по умолчанию» и контроль стоимости. На каждом шаге показываем, как решения мэпятся на возможности Unihost (вычисления, объектное хранилище, высокополосная фабрика, колокация и управление), чтобы быстрее перейти от выбора к внедрению.

Референс‑архитектуры

1) Real‑time аналитика (stream‑first)

Инжест: Kafka (3+ брокера), registry схем, REST/gRPC‑шлюзы.
Обработка: Flink (низкая задержка), Spark Structured Streaming для микро‑батча.
Хранилище: lakehouse (S3‑совместимое) с Delta/Iceberg/Hudi.
Доступ: Presto/Trino, ClickHouse для суб‑секундного OLAP; API через FastAPI.
Unihost: bare‑metal с NVMe под Kafka/Flink state, 25/100 GbE spine‑leaf, S3‑кластеры, опционально GPU для инференса.

2) Batch lakehouse (ETL/ELT)

Инжест: Airbyte/Fivetran, CDC (Debezium).
Обработка: Spark на k8s/YARN; оркестрация Airflow/Argo.
Хранилище: объект как source of truth; каталоги (Glue/Hive), форматы таблиц (Iceberg/Delta).
Доступ: Trino/Presto/Impala; BI по JDBC.
Unihost: плотные CPU‑ноды, разнесённое хранилище, приватные VLAN, управляемые снапшоты.

3) IoT/телеметрия (edge → core)

Edge‑сбор: MQTT, локальный буфер.
Поток: Kafka с tiered storage; Flink windows/CEP.
Временные ряды: TimescaleDB/ClickHouse; холод — объект.
Unihost: edge‑колокация, региональные POP, приватный бэктбон в core.

4) ML‑фичехранилище (offline/online)

Offline: Spark на lakehouse; каталог/линейдж.
Online: Redis/Cassandra/Scylla; сервинг моделей (Triton/TF Serving).
Синхронизация: джобы материализации для паритета.
Unihost: GPU‑пулы, быстрые NVMe, сегрегация сетей train/serve.

5) Регулируемые данные (PII/PHI/PCI)

Зонирование: landing/raw/curated/trusted; токенизация на входе.
Контроли: уровень строк/столбцов, KMS/HSM, неизменяемые аудит‑логи (WORM).
Unihost: выделенные клетки/стойки, закрепление локации данных, шифрованные бэкапы, подтверждения соответствия по запросу.

Дерева решений

Слой хранения

HDFS — когда преобладает on‑prem batch, важна высокая последовательная скорость и стабильный кластер.
S3‑совместимый объект — когда нужна эластичность, мульти‑тенантность, lakehouse и прозрачность затрат.
Гибрид: HDFS для «горячего» shuffle + объект — для долговечного слоя правды.

Форматы файлов

Parquet/ORC для аналитики (колоночные, predicate pushdown, векторизация).
Avro/JSON для обмена и потоков; схемы держать в registry.

Форматы таблиц

Iceberg — для длинноживущих таблиц, эволюции схем и time travel.
Delta Lake — для Spark‑центристских стеков и простых upsert/ACID.
Hudi — для потоковых upsert и инкрементальных выборок.

Оркестрация

Airflow — для разнородных сред и «человеческих» процессов.
Argo/Kubeflow — для k8s‑нейтив CI/ML.
Unihost поддерживает оба подхода — выбирайте тот, который реально будете сопровождать.

Сеть и SLO

Цели

Внутри стойки: <5 мкс; между leaf: p95 < 150 мкс; север‑юг к объектному хранилищу: p95 < 2 мс.
Тяжёлый shuffle Spark: 30–60 Гбит/с на ноду без дропов во время merge.

Дизайн

Spine‑leaf 25/100 GbE, ECMP, jumbo‑кадры (9000), DCB по необходимости.
Разделение плоскостей: дата, менеджмент, репликация. Приватные VLAN по командам/продуктам.
Близость брокеров: Kafka/Flink рядом с вычислениями и NVMe.

Unihost

Неблокирующие фабрики, агрегация NIC, QoS и приватные межДЦ‑линки; на PoC предоставляем дашборды p95/p99.

Безопасность по умолчанию

Зонирование и наименьшие привилегии: landing/raw/curated/trusted + раздельные IAM‑роли.
Шифрование: TLS повсюду; на диске — SSE‑KMS или клиентское; envelope для PII.
Секреты/KMS: централизованный KMS/HSM, авто‑ротация; ключи не храним в ноутбуках/репозиториях ETL.
Контроли по строкам/столбцам: Ranger/Lake Formation/фильтры Iceberg; токенизация чувствительных атрибутов.
Аудит/линейдж: неизменяемые логи (WORM), OpenLineage/Marquez.
Unihost: варианты KMS на HSM, защищённая загрузка, политики стирания дисков, поддержка комплаенса (GDPR/HIPAA‑ready).

Размер и экономика

Быстрые ориентиры

Хранилище: сжатие и колоночные форматы дают ~3–6×; закладывайте 30–50% запаса.
Вычисления: 50–70% средняя загрузка batch‑нод, 40–60% — stream для соблюдения SLO.
Память: executors Spark 6–8× ГБ от числа ядер для тяжёлых join; файлы 512 МБ–1 ГБ.

Рычаги стоимости

Долговечность на объектном; горячий shuffle — на NVMe; nightly‑компакции.
Spot/прерываемые для некритичных батчей; резерв для стабильных.
Tiering: hot (NVMe) → warm (object) → cold (archive). TTL на уровне таблиц/пространств.

Unihost

Прозрачные тарифы за ТБ и Гбит/с, резервы и консультации: сопоставим метрики нагрузок с типами нод до покупки.

Операции

IaC: Terraform + Ansible/ArgoCD; среды как код с окнами изменений.
Деплой: blue‑green/rolling для каталогов и движков запросов; канарейки для Spark/Flink.
Бэкапы/DR: снапшоты форматов + версионирование объекта; регулярные тренировки восстановления.
Патчи: ежемесячно ОС/JVM, срочно — для CVE. Окна — в согласовании с календарём джобов.
Unihost: плейбуки, 24/7 NOC и опциональный managed SRE для наших площадок/колокации.

Наблюдаемость и KPI

SLO: p95 латентность запросов, лаг стрима, доля успешных джобов, свежесть данных, дрейф схем.
Инфра: CPU/память/IOPS, сеть p95/p99, паузы GC.
Качество данных: доля null/дубликатов, нарушения ограничений, аномалии.
Стоимость: $/ТБ‑мес (по тиру), $/запрос, $/успешную джобу; алерты на аномалии затрат.
Unihost даёт тенантные дашборды и экспорт в ваш SIEM/BI.

Миграции и подводные камни

Перенос в объектное хранилище, затем постепенный переход с ETL на ELT.
Двойная запись на время переключения; валидация data‑diff (Deequ/Great Expectations).
Борьба с «мелкими файлами» — компакции с первого дня.
Не тюньте JVM, пока не наведён порядок с форматами/партициями.
Архитекторы Unihost проводят PoC с синтетическими и реальными нагрузками для фиксации KPI перед масштабированием.

Checklists

Готовность

Определены SLO, зоны данных, IAM, форматы таблиц, нейминг, ретеншн.
Сеть проверена (p95/p99), jumbo frames, классы QoS.

Ввод в эксплуатацию

Бэкапы включены и тестировались, каталог/линейдж доступны, 7 дней зелёных дашбордов.
Резерв мощности ≥ 30%, политики автоскейлинга, утверждённые плейбуки.

RPO/RTO зафиксированы; восстановление тестировалось в этом квартале; кросс‑региональная репликация проверена.

Вывод

Успех Big Data — это архитектура. Делайте выбор форматов и хранилищ, который сохраняет гибкость, проектируйте сеть под SLO, вшивайте безопасность и управляйте стоимостью как метрикой первого класса. С инфраструктурой Unihost (фабрики высокой пропускной, NVMe‑узлы, S3‑совместимое хранилище и практическая поддержка архитекторов) вы быстрее пройдёте путь от схемы к продакшену и масштабируетесь по мере роста данных.

Приложение

KPI: p95/p99 запросов, SLA свежести, стоимость за успешную джобу, MTTR отказов, инциденты дрейфа схем.
FAQ: HDFS или S3? Для долговечности/эластичности — S3‑совместимое; HDFS — для горячего shuffle. Delta или Iceberg? Iceberg — для мульти‑движков, Delta — для Spark‑центристских. Нужны ли GPU? Для обучения/инференса или ускоренного SQL. Сколько брокеров Kafka? Начните с 3 и масштабируйте по разделам/пропускной.
Заметка Unihost: проводим воркшопы по sizing, делимся бенчмарками и делаем совместные PoC до продакшена.

Масштабирование данных: Big Data Hosting — архитектурный плейбук для CTO