2025-й — момент, когда искусственный интеллект перестал быть экспериментом в лаборатории и превратился в инфраструктурный слой для любого цифрового бизнеса. LLM-ассистенты обрабатывают заявки и продают, RAG-системы тянут факты из корпоративных баз знаний, агентов обучают действовать в сложных операционных средах, а мультимодальные модели анализируют изображения, речь и видео. Всё это — вычислительно и операционно тяжёлые нагрузки: терабайты данных, сотни гигабит межузлового трафика, десятки GPU на задачу, строгое соответствие SLO по p95/p99, комплаенс и предсказуемая цена результата. В этой статье разберём, как Unihost строит серверную и сетевую основу под AI-продукты — от обучающих пайплайнов и инференса до MLOps, безопасности и экономики.
Что реально нужно моделям в 2025: не «просто GPU», а сбалансированная система
Ошибочно сводить AI к числу ускорителей. Пропускная способность NVMe и сеть между узлами так же критичны, как и TOPS у GPU. Нагрузка делится на четыре пласта:
- Хранение и поток данных. NVMe-массивы для обучающих сэмплов, быстрый scratch-диск, кэш чекпоинтов, staging для аугментации.
- Межузловая сеть. 25/40/100 Gbps с низким джиттером и аккуратными хвостами p99: без этого распределённый тренинг «сыпется» на коммуникациях.
- GPU/CPU баланс. Достаточно PCIe линий, память CPU и NUMA-профиль, чтобы не «голодать» при подаче батчей.
- Оркестрация и телеметрия. Слои MLOps, алёртинг на хвосты задержек, прогрев моделей, контроль деградаций.
Unihost проектирует конфигурацию под профиль задачи: обучение (train/fine-tune), инференс онлайн/офлайн, мультимодальность, ретриверно-генеративные контуры (RAG), агентные сценарии. В результате модель получает не «рассыпуху ресурсов», а цельную систему с предсказуемым временем эпохи и скоростью выдачи токенов.
Обучающие пайплайны: ускорять эпохи, а не только расширять бюджет
Эффективность обучения — это не просто «добавить ещё 8 GPU». Влияют:
- Размещение данных. Часто быстрее хранить рабочий датасет локально на NVMe, а не дергать удалённое хранилище. Мы компонуем полку так, чтобы тренировочные чтения не конфликтовали с логами и чекпоинтами.
- Сеть между узлами. При DDP/ZeRO/FSDP коммуникации занимают значимую долю времени эпохи. Настройки LAG/ECMP, jumbo-кадры там, где безопасно, и равномерное распределение потоков позволяют держать p95/p99 на уровне SLO.
- Чекпоинты и восстановление. Регулярные snapshot’ы на быстрые тома + проверенные процедуры resuming минимизируют потери при обрывах.
- План экспериментов. Лучше десять чётких прогонов с воспроизводимыми seed/гиперпараметрами, чем двадцать «на глаз». Мы помогаем оформить runbook’и и каталоги конфигураций, чтобы не «стрелять из пушки по туману».
Инференс 24/7: SLA задают хвосты, а не среднее
Пользователю всё равно, что p50 отклика 50 мс, если p99 «уползает» за секунду. Под продакшн-инференс Unihost предлагает:
- Профили сети со SLA и приватные VLAN, чтобы хвосты p95/p99 оставались ровными во время пиков.
- Локальный кэш моделей и токенизаторов на NVMe, чтобы исключить холодные старты.
- Горячие и «тёплые» пулы. Самые востребованные модели держим на GPU-узлах постоянного профиля, второстепенные — на эластичных пулах; автоскейлинг по очередям и фактической загрузке.
- Изоляция окружений. Разные версии фреймворков/драйверов — в отдельных контурах, чтобы одна библиотека не ломала соседнюю службу.
- Наблюдаемость. Метрики throughput, токенов/сек, latency p95/p99, очередь запросов, коэффициент ошибок; алёрты завязаны на динамику хвостов, а не на средние.
RAG и корпоративные знания: быстрый ретривер важнее «максимального параметра»
Многие прикладные кейсы в 2025-м — это не «голая LLM», а ретриверно-генеративные архитектуры. Ключевые элементы:
- Индекс и векторное хранилище. Выбор между FAISS/HNSW и специализированными движками, физика данных (размер эмбеддингов, шардирование, кэш ретривов).
- Слои актуализации. Регулярные job’ы по обновлению индексов, дедупликация, контроль дрейфа качества.
- Безопасный доступ. AuthZ на уровне источников, маскирование полей, аудит запросов и ответов.
- Скорость конвейера. В RAG критичен общий p95: ретрив + ранжирование + генерация. Мы подбираем сеть и NVMe так, чтобы ретрив не становился «бутылочным горлышком».
Агентные сценарии: долгоживущие сессии и устойчивость контекста
Агенты (sales-assistants, техподдержка, роботы-исследователи) ведут диалоги, делают действия в системах, часто работают часами. Для них:
- Сохранение и подтягивание контекста на NVMe/в быстрой БД; RAG-подпитка с ограничением утечек.
- Таймауты и обратимость. Длинные цепочки шагов с checkpoint’ами и возможностью отката, чтобы не «зависать навечно».
- Ограничение стоимости эпизода. Лимиты на токены, задержки и внешние вызовы; отчёты по стоимости эпизода/сессии.
- Сетевые SLO. Транспорт к внешним API под QoS, чтобы агент не проваливал диалог из-за чужого SLA.
MLOps как дисциплина: воспроизводимость важнее «героизма»
Мы помогаем выстроить практики:
- Каталог датасетов и версионирование. Чёткие схемы хранения, права доступа, lineage.
- Репозитории моделей и артефактов. Политика промоушена (staging → canary → prod), контроль сумм/подписи.
- CI/CD для пайплайнов. Тесты, статанализ, валидация метрик, «красная кнопка» отката.
- Политика экспериментов. Именование ран, автоматическая запись параметров, автогенерация отчётов.
- SRE-культура. Дежурства, SLO/SLA, постмортемы, алёрты по хвостам.
Безопасность и комплаенс: ускорять, а не тормозить релизы
AI-стек часто трогает персональные и коммерческие данные. В Unihost:
- Сегментация по странам и средам, приватные VLAN/VRF, ACL, централизованный аудит.
- Ключи и секреты, аппаратные корни доверия (HSM/TPM), шифрование «в покое» и на линии.
- Контроль доступа к данным обучения (train/test/val), журналирование загрузок и выгрузок.
- RAG-санитайзеры для предотвращения утечек и инъекций.
- Готовые артефакты для внешних и внутренних проверок — документооборот не задерживает релизы.
Экономика AI-нагрузок: считать результат, а не «GPU-часы»
Финальная метрика — стоимость результата (стоимость эпохи до требуемой метрики качества; цена инференса на пользователя; эффект от сокращения p99 на воронку). Мы:
- Собираем структуру TCO. Железо/сеть/хранилище, данные, инженерные часы, лицензии, риски простоя.
- Выделяем «дорогие места». Транспорт между узлами, узкие NVMe, переобучение без профита, избыточные параметры.
- Показываем альтернативы. Parameter-efficient fine-tuning, дистилляция, кэширование промежуточных результатов, компрессия.
- Биллинг без «мелкого шрифта». Карты/SWIFT/инвойсы на разные юрлица, предсказуемые счета.
Наблюдаемость: видеть деградацию до инцидента
На проде нас интересуют не средние, а хвосты. Мы включаем:
- Метрики тренинга. Время эпохи/итерации, коммуникации, утилизация GPU/CPU, I/O, ошибки воспроизводимости.
- Метрики сервиса. Throughput, токены/сек, p95/p99, доля таймаутов, холодные старты, кэш-хиты.
- Трассировка (от запроса до генерации), корреляция с релизами/датасетами.
- Алертинг и рунабуки. Порог по хвостам, первые точки диагностики, шаги эскалации, обязательные постмортемы.
Сеть под AI: 10/25/40/100 Gbps без сюрпризов
Распределённые графы и пайплайны данных требуют детерминированных каналов. Мы:
- Размещаем узлы в проксимити к IX и строим multi-homed BGP с управлением сообществами.
- Применяем QoS/ECN, чтобы репликация/бэкапы не душили пользовательский трафик.
- Настраиваем offload на NIC (TSO/LRO, RSS, IRQ-пиннинг), SR-IOV/DPDK для чувствительных сервисов.
- Держим единый MTU-режим; где возможно — jumbo, иначе строгая консистентность.
Кейсы применения: где AI на Unihost уже даёт эффект
- Поддержка и продажи. LLM-ассистенты + RAG по базе знаний: меньше среднего времени ответа, выше CSAT, рост конверсии в чате.
- Финтех-антифрод. Гибрид онлайн-инференса и офлайн-переобучения; стабильный p99 на авторизациях, аккуратные релизы через канарейку.
- Медиасервисы. Мультимодальные модели: описания и модерация контента в реальном времени; кэширование эмбеддингов снижает стоимость отклика.
- SaaS-платформы. API-доступ к моделям и ретриверам; масштабирование без «ночных войн», предсказуемые счета для enterprise-клиентов.
Как выглядит переход: первые 30 дней
Дни 1–3. Бриф, цели, метрики качества/скорости/стоимости, выбор локаций и платежей.
Неделя 2. Пилот: разворачиваем кластер, настраиваем сеть/NVMe, импортируем часть данных, запускаем тестовые тренинги/инференс, включаем наблюдаемость.
Неделя 3. Нагрузочные испытания, канарейка, тест-restore чекпоинтов, DR-репетиция, корректировка конфигурации.
Неделя 4. Промоушен в прод, отчёт по метрикам и бюджету, дорожная карта оптимизаций на квартал.
Контрольный список перед продом
- Определены SLO по p95/p99 для тренинга и инференса.
- Чекпоинты восстанавливаются (проверено).
- RAG-индексы пересчитываются по расписанию.
- Настроены алёрты на хвосты, а не на средние.
- Есть план отката модели/версии данных.
- Документы для аудита готовы, роли и доступы актуальны.
Заключение
AI-продукты выигрывают там, где инфраструктура «подогнана» под метрики качества, скорости и стоимости. Серверы Unihost — это не просто GPU: это сбалансированная система из NVMe, сети 25/40/100 Gbps, оркестрации, безопасности и наблюдаемости, которая ускоряет обучение, делает инференс предсказуемым и удерживает бюджет под контролем.
Готовы обучать и запускать модели без «ночных штурмов» и с понятной экономикой? Выбирайте Unihost. Мы подберём конфигурацию под ваши SLO, согласуем удобный платёж и перенесём продакшн без даунтайма.