AI-агент – это автономная программа, которая выполняет задачи без постоянного вмешательства человека: анализирует данные, принимает решения, вызывает API, запускает другие инструменты. Для его работы нужна инфраструктура. Какая именно – зависит от того, что агент делает и насколько интенсивно.
Быстрый ответ: какая инфраструктура нужна вам
| Ваш агент / сценарий | Минимальная инфраструктура | Ориент. стоимость/мес |
| Агент-оркестратор (LangChain, AutoGPT) без локальной модели | VPS 2-4 vCPU / 4-8 ГБ RAM | $20-60 |
| Агент с локальной моделью до 7B (llama.cpp, Ollama) | VPS 4-8 vCPU / 16-32 ГБ RAM или 1x RTX 4090 | $60-450 |
| Агент с локальной моделью 13B-70B | Выделенный GPU: 1-4x A100 | $600-5000+ |
| RAG-агент (поиск по документам + LLM API) | VPS 4 vCPU / 8 ГБ RAM + векторная БД | $30-100 |
| Многоагентный pipeline (несколько агентов параллельно) | VPS 8-16 vCPU / 16-32 ГБ RAM | $80-200 |
| Агент для автоматизации браузера (Playwright, Selenium) | VPS 4 vCPU / 8 ГБ RAM + headless Chromium | $30-80 |
| Продакшн AI-агент с 1000+ задач/сутки | Выделенный сервер или AI hosting | $200-2000+ |
Ключевое разделение: если агент вызывает внешние LLM API (OpenAI, Anthropic, Gemini) – ему нужен только CPU и RAM для оркестрации. Если агент запускает модель локально – нужен GPU или мощный CPU с большим объёмом RAM.
Что такое AI agent hosting
AI agent hosting – это предоставление серверной инфраструктуры для запуска AI-агентов в непрерывном или on-demand режиме. В отличие от обычного веб-хостинга, AI-агенты имеют специфические требования: длительные процессы (агент может выполнять задачу часами), большой объём RAM для контекста модели, возможность вызывать внешние API и сохранять состояние между запусками.
Что отличает AI-агента от обычного приложения:
- Длительность выполнения – задача агента может занимать от секунд до часов, в отличие от HTTP-запроса который должен ответить за 100-500 мс
- Состояние между запусками – агент хранит память, контекст разговоров, результаты предыдущих шагов
- Динамичное потребление ресурсов – во время inference пик CPU/RAM намного выше, чем в режиме ожидания
- Вызовы инструментов – агент запускает внешние API, базы данных, браузер, код-интерпретатор
- Параллелизм – многоагентные системы запускают несколько агентов одновременно
Как это работает
Типичный AI-агент состоит из нескольких слоёв, каждый из которых имеет свои требования к инфраструктуре.
Слой модели (LLM)
Мозг агента – языковая модель. Есть два варианта: API-вызов (OpenAI GPT-4, Anthropic Claude, Google Gemini) или локальная модель (Llama, Mistral, Qwen). API-вызов требует только сетевого подключения и не нагружает сервер. Локальная модель требует GPU или мощного CPU + большого объёма RAM. Выбор между ними – это компромисс между стоимостью (API дороже при большом объёме), приватностью (локальная модель – данные не покидают сервер) и производительностью.
Слой оркестрации
Фреймворк агента (LangChain, LlamaIndex, AutoGen, CrewAI, n8n) координирует вызовы модели, инструментов и хранение состояния. Оркестратор – это относительно лёгкий Python/Node.js-процесс. Его основное требование – стабильная работа 24/7 или on-demand запуск без холодного старта. VPS достаточно для большинства оркестраторов.
Слой памяти и хранилища
Агент хранит состояние в нескольких местах: векторная БД (Chroma, Qdrant, Weaviate, Pinecone) для семантического поиска по документам, реляционная БД (PostgreSQL) для структурированных данных и метаданных, Redis для краткосрочной памяти и кеша, файловое хранилище для артефактов (документы, изображения, результаты).
Слой инструментов
Агент может запускать: браузер (Playwright, Selenium) для веб-сёрфинга и скрейпинга, код-интерпретатор (Python sandbox) для вычислений, внешние API (calendar, email, CRM, databases), shell-команды для автоматизации системных задач. Каждый инструмент требует собственных ресурсов – особенно headless browser (100-500 МБ RAM на сессию).
Требования к инфраструктуре
| Компонент агента | CPU | RAM | GPU | Диск |
| Оркестратор (без локальной модели) | 2-4 vCPU | 2-4 ГБ | Не нужен | 10-50 ГБ SSD |
| Локальная модель 7B (CPU inference) | 8-16 vCPU | 16-32 ГБ | Не нужен | 20 ГБ NVMe |
| Локальная модель 7B (GPU inference) | 4-8 vCPU | 16 ГБ | 1x RTX 4090 (24 ГБ) | 20 ГБ NVMe |
| Векторная БД (Qdrant/Chroma) | 2-4 vCPU | 4-16 ГБ | Не нужен | 50-500 ГБ NVMe |
| Headless browser (Playwright) | 2-4 vCPU / браузер | 1-2 ГБ / браузер | Не нужен | 10 ГБ SSD |
| Python sandbox (код-интерпретатор) | 2-4 vCPU | 2-8 ГБ | Не нужен | 10 ГБ SSD |
| Полный стек (оркестратор + RAG + browser) | 8-16 vCPU | 16-32 ГБ | Опционально | 100+ ГБ NVMe |
Практический совет: начинайте с минимальной конфигурации и мониторьте реальное потребление. AI-агенты имеют очень неравномерную нагрузку – пик во время inference и почти нулевое потребление в ожидании. Вертикальное масштабирование VPS после запуска – более простая стратегия, чем избыточное provisioning с самого начала.
VPS vs Выделенный сервер для AI-агентов
Сценарий: стартап запускает первого AI-агента
Ситуация: команда разработчиков строит агента для автоматизации customer support. Агент использует OpenAI API для генерации ответов и Playwright для проверки статуса заказов. Ожидаемый объём – 100-500 задач в сутки.
VPS 4 vCPU / 8 ГБ RAM – оптимальный старт. Агент-оркестратор (LangChain) + Playwright вписывается в 4-6 ГБ RAM под нагрузкой. Стоимость ~$30-60/мес. Выделенный сервер здесь избыточен – CPU и RAM не являются узким местом, узкое место – это latency OpenAI API (~200-500 мс на запрос).
Сценарий: агент с локальной LLM для enterprise
Ситуация: финансовая компания строит агента для анализа документов. Данные не могут покидать корпоративную сеть – только локальная модель. Выбор пал на Llama 3.1 70B.
Llama 3.1 70B в FP16 требует ~140 ГБ VRAM. Минимум – 2x A100 80GB (160 ГБ VRAM). Здесь VPS не подходит вообще – нужен выделенный GPU-сервер. Стоимость – от $2000/мес. Альтернатива для меньших требований: Llama 3.1 8B в INT4 (~5 ГБ VRAM) – помещается в RTX 4090, стоимость ~$350-450/мес.
Сценарий: платформа для многоагентной автоматизации
Ситуация: SaaS-продукт где каждый клиент получает собственного AI-агента для автоматизации workflow. 50 клиентов, каждый агент выполняет 10-50 задач в сутки. Агенты используют OpenAI API, имеют собственные векторные БД.
Выделенный сервер с 16-32 ядрами и 64-128 ГБ RAM позволяет упаковать все агентские процессы на один узел. Или – несколько меньших VPS + балансировщик для изоляции между клиентами. Второй вариант даёт лучшую изоляцию (сбой одного VPS не влияет на остальных), первый – проще в управлении.
| Критерий | VPS | Выделенный сервер / AI hosting |
| Локальная LLM (7B+ модели) | CPU inference: медленно, GPU: нужен выделенный | Оптимально с GPU |
| API-based агент (OpenAI, Anthropic) | Оптимально | Избыточно для одного агента |
| RAG с большой векторной БД (100+ ГБ) | Ограничено RAM | Оптимально |
| Многоагентная платформа (50+ агентов) | Несколько VPS или большой VPS | Выделенный сервер |
| Приватность (данные не покидают сервер) | Подходит при правильной конфигурации | Максимальная изоляция |
| Стоимость (один агент, API-based) | Наименьшая ($20-80/мес) | Избыточно |
| Масштабирование при росте | Вертикально или горизонтально | Вертикально или кластер |
Сценарии использования
Customer support автоматизация. Агент обрабатывает входящие тикеты: классифицирует, отвечает на типовые вопросы, эскалирует сложные кейсы. Требует: LLM API или локальная модель, векторная БД с документацией продукта, интеграция с helpdesk через API. Инфраструктура: VPS 4-8 vCPU / 8-16 ГБ RAM достаточно для 500-2000 тикетов/сутки при API-based подходе.
Исследовательский агент (web research). Агент ищет информацию в интернете, анализирует страницы, составляет отчёты. Playwright для браузерного доступа, LLM для анализа и синтеза. Headless browser – наиболее ресурсоёмкий компонент: каждая параллельная сессия занимает 200-500 МБ RAM. 10 параллельных браузеров = 2-5 ГБ только для них. VPS 8 ГБ RAM при активном веб-скрейпинге заполняется быстро.
Code generation и review агент. Агент анализирует код в репозитории, пишет тесты, делает code review, предлагает рефакторинг. Интеграции с GitHub/GitLab через webhook, запуск кода в sandbox. Требует: LLM API (или локальная code-специализированная модель), sandbox-среда для безопасного запуска кода. VPS с Docker и ограничениями ресурсов для sandbox – стандартная конфигурация.
Data analysis агент. Агент получает данные из разных источников, очищает, анализирует, строит отчёты. Python-interpreter для вычислений, подключение к БД, возможно ML-библиотеки (pandas, scikit-learn). Нужны: достаточно RAM для in-memory обработки датасетов (для больших датасетов – 32+ ГБ), мощный CPU для вычислений без GPU.
Для хостинга AI-агентов с оптимизированной AI-инфраструктурой: AI hosting Unihost. Для API-based агентов и оркестраторов подойдёт
Частые вопросы
Как хостить AI-агента?
Зависит от архитектуры агента. Если агент использует внешние LLM API (OpenAI, Anthropic) – достаточно VPS с Python/Node.js средой, фреймворком агента (LangChain, AutoGen) и доступом к интернету. Если агент запускает модель локально – нужен либо мощный CPU с большим RAM (для малых квантизованных моделей), либо GPU-сервер (для моделей 7B+).
Какой сервер нужен для AI-агента?
Для оркестрационного агента без локальной модели – VPS 2-4 vCPU / 4-8 ГБ RAM. Для агента с локальной 7B моделью на CPU – 16-32 ГБ RAM, 8+ ядер. Для агента с локальной 7B+ моделью на GPU – минимум RTX 4090 (24 ГБ VRAM). Для 70B модели – от 2x A100 80GB. Добавьте RAM для векторной БД, браузера и других инструментов в зависимости от задач агента.
Может ли AI работать на VPS?
Да, с ограничениями. Агент на основе API (без локальной модели) отлично работает на стандартном VPS. Локальная модель до 7B в квантизованном формате (INT4/INT8 через llama.cpp или Ollama) также может запускаться на VPS с 16-32 ГБ RAM – медленнее GPU, но функционально. Для больших моделей или продакшн нагрузки нужен выделенный GPU-сервер.
Сколько стоит хостинг AI-агента?
API-based агент на VPS: $20-80/мес за хостинг плюс стоимость API-вызовов (OpenAI GPT-4: $30/1M токенов input, $60/1M токенов output). При 100k задач/месяц со средним контекстом 2k токенов – ~$12-20/мес только за API. Агент с локальной моделью: $350-450/мес (1x RTX 4090) – без зависимости от API-стоимости. Для больших объёмов локальная модель дешевле уже от 500k-1M API-вызовов/мес.
Следующий шаг
Определите архитектуру агента (API или локальная модель) и выберите инфраструктуру. AI hosting для продакшн-агентов: Unihost AI hosting.