Если вы уже знаете, что вам нужен GPU-сервер для ML – начинайте с таблицы ниже. Если ещё сомневаетесь между CPU и GPU или не знаете, какая конфигурация подойдёт – читайте дальше.
Быстрый выбор: какая конфигурация нужна вам
| Ваша задача | Минимальная конфигурация | Оптимальная конфигурация |
| Прототип, обучение на малых датасетах | 1x RTX 4090 (24 ГБ) | 2x RTX 4090 (48 ГБ) |
| Файн-тюнинг 7B-13B моделей (LoRA/QLoRA) | 1x A100 40GB | 2x A100 80GB |
| Файн-тюнинг 30B-70B моделей | 4x A100 80GB | 4x H100 80GB |
| Обучение 7B-30B с нуля | 4x A100 80GB + NVLink | 8x A100 80GB + NVLink |
| Обучение 70B+ / foundation models | 8x H100 80GB + InfiniBand | 8x H200 141GB + InfiniBand |
| Продакшн LLM-инференс | 2x A100 40GB | 4x A100 80GB или 2x H100 |
| Компьютерное зрение (real-time) | 1x RTX 4090 | 2-4x A100 40GB |
| Embedding-генерация (большой объём) | 1x A100 40GB | 2x A100 80GB |
Если ваша задача есть в таблице – конфигурация определена. Если нет – читайте сценарии ниже, они охватывают нетипичные кейсы.
Почему GPU, а не CPU для ML
Обучение нейронной сети – это миллиарды операций умножения матриц, выполняемых последовательно по эпохам. CPU имеет 8-128 мощных ядер для последовательных задач. GPU имеет 6 000-18 000+ простых CUDA-ядер, выполняющих эти операции параллельно. Разница для ML-задач – от 10x до 100x в пользу GPU.
Конкретно: обучение BERT-large (340M параметров) на одном CPU (32 ядра, Xeon) занимает ~72 часа. На одном A100 80GB – ~4 часа. На 4x A100 – менее часа. CPU не просто медленнее – он делает обучение больших моделей практически нереальным.
| Задача | CPU | GPU (A100) | Ускорение |
| BERT-large обучение (1 эпоха) | ~72 ч | ~4 ч | ~18x |
| GPT-2 (1.5B) inference, 1 запрос | ~8 сек | ~0.1 сек | ~80x |
| ResNet-50 training (ImageNet) | ~10 дней | ~12 ч | ~20x |
| Embedding-генерация (1M векторов) | ~2 ч | ~3 мин | ~40x |
Что такое GPU-сервер для ML
GPU-сервер для machine learning – это выделенный bare-metal сервер с одним или несколькими GPU, оптимизированный для вычислительно интенсивных ML-нагрузок. От обычного GPU-сервера он отличается специфическим стеком: достаточный VRAM для модели, NVLink или NVSwitch для межчиповой коммуникации, быстрое NVMe-хранилище для стриминга датасетов и достаточно системной RAM для препроцессинга.
Ключевые компоненты, определяющие производительность:
- VRAM (GPU-память) – наиболее часто встречающееся узкое место. 70B модель в FP16 требует ~140 ГБ. Если модель не помещается в VRAM – либо квантизация (INT8/INT4), либо больше GPU.
- GPU-интерконнект – NVLink позволяет GPU на одном узле делиться памятью и общаться с пропускной способностью 600 ГБ/с (H100). Без NVLink – коммуникация через PCIe, что в 5-10 раз медленнее для распределённого обучения.
- NVMe-хранилище – во время обучения сервер непрерывно стримит батчи. Один NVMe 3.5 ГБ/с не справляется с 8xA100. Минимум – RAID из нескольких NVMe или отдельный storage-узел.
- Системная RAM – должна быть не меньше суммарного VRAM. На 8xH100 (640 ГБ VRAM) – минимум 512 ГБ RAM для нормального препроцессинга.
Сценарии: кто и какую конфигурацию выбирает
Сценарий 1 – ML-инженер в стартапе, первые эксперименты
Ситуация: команда из 2-3 ML-инженеров, есть идея продукта, нужно проверить гипотезы на небольших датасетах. Бюджет ограничен, конфигурация может меняться каждый месяц.
Что происходит без GPU: обучение простого классификатора на 100k примерах занимает час вместо минуты. Итерации замедляются в 20-50 раз. Команда тратит время на ожидание, а не на разработку.
Решение: 1-2x RTX 4090 (24 ГБ каждая). Для моделей до 13B (с квантизацией) – достаточно. Стоимость – $300-700/мес. Если нужна гибкость – облачный GPU-инстанс с почасовой оплатой в начале, выделенный сервер при регулярной нагрузке от 60% времени.
Сценарий 2 – Файн-тюнинг LLM для продукта
Ситуация: есть базовая модель (Llama 3, Mistral, Gemma), нужно адаптировать под конкретный домен (юридические тексты, медицинская документация, код). Датасет – 10k-500k примеров. Обучение – регулярное (раз в неделю или месяц).
Файн-тюнинг 7B через LoRA на одном A100 40GB занимает 2-8 часов в зависимости от датасета. Для 70B через QLoRA на 4x A100 80GB – 12-24 часа. Это уже реальное продакшн-расписание.
Решение: для 7B-13B – 1-2x A100 40GB или RTX 4090. Для 30B-70B – 4x A100 80GB с NVLink. Выделенный bare-metal оправдан при регулярных обучениях – дешевле облака от ~3 запусков в месяц.
Сценарий 3 – Продакшн LLM-инференс
Ситуация: модель уже обучена, нужно запустить API для 1000+ пользователей. Требования: latency < 200 мс до первого токена, throughput 50+ запросов/сек.
Здесь важен не только VRAM, но и throughput GPU. H100 генерирует токены ~3x быстрее A100 при одинаковом VRAM благодаря FlashAttention 2 и более высокой пропускной способности памяти (3.35 ТБ/с vs 2 ТБ/с). Для модели 13B – достаточно 1x A100 40GB. Для 70B – 2x H100 или 4x A100 80GB.
Решение: выделенный сервер вместо облака окупается при постоянной нагрузке. 2x H100 для 70B-инференса в продакшне – стандартная конфигурация для LLM API.
Сценарий 4 – Исследовательская команда, обучение с нуля
Ситуация: академическая или R&D-команда, обучение собственной архитектуры или foundation model. Датасеты – сотни ГБ или терабайты. Время обучения – дни или недели.
Здесь критичен InfiniBand между узлами: при обучении на 32 GPU разных серверов градиенты синхронизируются через сеть. InfiniBand 400 Гбит/с vs 100 GbE Ethernet даёт разницу в эффективности multi-node обучения до 2-3x.
Решение: 8x H100 или H200 как минимальный узел для серьёзных задач. NVLink внутри узла, InfiniBand между узлами. NVMe RAID для стриминга датасетов.
Лучшие GPU-конфигурации для ML
| GPU | VRAM | HBM bandwidth | NVLink | Цена/мес (ориент.) | Оптимально для |
| RTX 4090 | 24 ГБ | 1 ТБ/с | Нет | $300-450 | Прототипы, малые модели, inference до 13B |
| A100 40GB | 40 ГБ | 2 ТБ/с | Да | $600-900 | Fine-tuning 7B-30B, inference 30B+ |
| A100 80GB | 80 ГБ | 2 ТБ/с | Да | $900-1400 | Fine-tuning 70B, training 7B-30B |
| H100 80GB | 80 ГБ | 3.35 ТБ/с | Да (NVLink 4) | $2000-3500 | Продакшн inference, training 30B+ |
| H200 141GB | 141 ГБ | 4.8 ТБ/с | Да (NVLink 4) | $3500-6000 | Foundation models, 70B+ training |
Цены – за один GPU в конфигурации выделенного bare-metal сервера. Облачные on-demand цены в 2-4 раза выше при постоянной нагрузке.
Посмотреть актуальные GPU-серверы: GPU servers Unihost. Managed AI-инфраструктура: AI hosting Unihost.
Сценарии использования ML
Computer Vision. Детекция объектов (YOLO, DETR), сегментация, классификация изображений. Требования к VRAM ниже, чем у LLM – батч изображений занимает 4-16 ГБ для большинства архитектур. 1-2x RTX 4090 или A100 40GB закрывает 90% CV-задач.
NLP и обработка текста. BERT, RoBERTa, T5 для классификации, NER, sentiment. Модели до 1B параметров – RTX 4090 более чем достаточно. Большие трансформеры (3B-7B) – A100 40GB.
Рекомендательные системы. Embedding-модели, двухбашенные архитектуры, ранжирование. Объём VRAM относительно небольшой, но важна скорость inference для real-time рекомендаций. 1-2x A100 40GB для продакшн-рекомендеров.
Генерация аудио и изображений. Stable Diffusion, Whisper, MusicGen. SD XL требует 8-12 ГБ VRAM для базового inference. Для fine-tuning и batch-генерации – 24+ ГБ. RTX 4090 или A100 40GB.
Reinforcement Learning. RLHF для LLM, игровые агенты. Комбинация вычислений на GPU и CPU. Специфические требования зависят от среды – от RTX 4090 до multi-GPU кластера для сложных задач.
Частые вопросы
Какой GPU лучший для машинного обучения?
Зависит от задачи и бюджета. H100 80GB – лучшее железо для серьёзного ML в 2026 году, но по цене. A100 80GB – оптимальный баланс для большинства продакшн-задач. RTX 4090 – лучший выбор для бюджетного старта и моделей до 13B. Если ресурсы ограничены – A100 40GB закрывает 70% реальных ML-задач.
Нужен ли GPU для AI-обучения?
Для любого серьёзного ML – да. CPU-обучение нейронных сетей в 10-100 раз медленнее. Исключение: небольшие классические ML-модели (Random Forest, XGBoost, линейные модели) вполне обучаются на CPU. Но если вы работаете с нейронными сетями от нескольких миллионов параметров – GPU обязателен.
Сколько VRAM нужно для ML?
Правило: размер модели (в параметрах) × 2 байта (FP16) = минимум VRAM. 7B × 2 = ~14 ГБ. Плюс активации и состояния оптимайзера: для обучения умножайте на 4-6x. 7B модель для обучения требует 56-84 ГБ. Для inference – только веса, поэтому 7B помещается в 14-16 ГБ (FP16) или 7-8 ГБ (INT8).
CPU vs GPU для machine learning?
CPU выигрывает только в одном сценарии: традиционный ML без нейронных сетей (XGBoost, sklearn, feature engineering). Для всего остального – GPU быстрее на порядок. Практическое правило: если ваш код использует PyTorch или TensorFlow с нейронными сетями – GPU обязателен для любого серьёзного масштаба.
Следующий шаг
Определите размер модели и тип задачи – конфигурация станет очевидной. Актуальные GPU-серверы для ML: GPU servers Unihost. Managed AI-инфраструктура: AI hosting Unihost.