AI Agent Hosting: всё что нужно знать

AI-агент – это автономная программа, которая выполняет задачи без постоянного вмешательства человека: анализирует данные, принимает решения, вызывает API, запускает другие инструменты. Для его работы нужна инфраструктура. Какая именно – зависит от того, что агент делает и насколько интенсивно.

Быстрый ответ: какая инфраструктура нужна вам

Ваш агент / сценарий	Минимальная инфраструктура	Ориент. стоимость/мес
Агент-оркестратор (LangChain, AutoGPT) без локальной модели	VPS 2-4 vCPU / 4-8 ГБ RAM	$20-60
Агент с локальной моделью до 7B (llama.cpp, Ollama)	VPS 4-8 vCPU / 16-32 ГБ RAM или 1x RTX 4090	$60-450
Агент с локальной моделью 13B-70B	Выделенный GPU: 1-4x A100	$600-5000+
RAG-агент (поиск по документам + LLM API)	VPS 4 vCPU / 8 ГБ RAM + векторная БД	$30-100
Многоагентный pipeline (несколько агентов параллельно)	VPS 8-16 vCPU / 16-32 ГБ RAM	$80-200
Агент для автоматизации браузера (Playwright, Selenium)	VPS 4 vCPU / 8 ГБ RAM + headless Chromium	$30-80
Продакшн AI-агент с 1000+ задач/сутки	Выделенный сервер или AI hosting	$200-2000+

Ключевое разделение: если агент вызывает внешние LLM API (OpenAI, Anthropic, Gemini) – ему нужен только CPU и RAM для оркестрации. Если агент запускает модель локально – нужен GPU или мощный CPU с большим объёмом RAM.

Что такое AI agent hosting

AI agent hosting – это предоставление серверной инфраструктуры для запуска AI-агентов в непрерывном или on-demand режиме. В отличие от обычного веб-хостинга, AI-агенты имеют специфические требования: длительные процессы (агент может выполнять задачу часами), большой объём RAM для контекста модели, возможность вызывать внешние API и сохранять состояние между запусками.

Что отличает AI-агента от обычного приложения:

Длительность выполнения – задача агента может занимать от секунд до часов, в отличие от HTTP-запроса который должен ответить за 100-500 мс
Состояние между запусками – агент хранит память, контекст разговоров, результаты предыдущих шагов
Динамичное потребление ресурсов – во время inference пик CPU/RAM намного выше, чем в режиме ожидания
Вызовы инструментов – агент запускает внешние API, базы данных, браузер, код-интерпретатор
Параллелизм – многоагентные системы запускают несколько агентов одновременно

Как это работает

Типичный AI-агент состоит из нескольких слоёв, каждый из которых имеет свои требования к инфраструктуре.

Слой модели (LLM)

Мозг агента – языковая модель. Есть два варианта: API-вызов (OpenAI GPT-4, Anthropic Claude, Google Gemini) или локальная модель (Llama, Mistral, Qwen). API-вызов требует только сетевого подключения и не нагружает сервер. Локальная модель требует GPU или мощного CPU + большого объёма RAM. Выбор между ними – это компромисс между стоимостью (API дороже при большом объёме), приватностью (локальная модель – данные не покидают сервер) и производительностью.

Слой оркестрации

Фреймворк агента (LangChain, LlamaIndex, AutoGen, CrewAI, n8n) координирует вызовы модели, инструментов и хранение состояния. Оркестратор – это относительно лёгкий Python/Node.js-процесс. Его основное требование – стабильная работа 24/7 или on-demand запуск без холодного старта. VPS достаточно для большинства оркестраторов.

Слой памяти и хранилища

Агент хранит состояние в нескольких местах: векторная БД (Chroma, Qdrant, Weaviate, Pinecone) для семантического поиска по документам, реляционная БД (PostgreSQL) для структурированных данных и метаданных, Redis для краткосрочной памяти и кеша, файловое хранилище для артефактов (документы, изображения, результаты).

Слой инструментов

Агент может запускать: браузер (Playwright, Selenium) для веб-сёрфинга и скрейпинга, код-интерпретатор (Python sandbox) для вычислений, внешние API (calendar, email, CRM, databases), shell-команды для автоматизации системных задач. Каждый инструмент требует собственных ресурсов – особенно headless browser (100-500 МБ RAM на сессию).

Требования к инфраструктуре

Компонент агента	CPU	RAM	GPU	Диск
Оркестратор (без локальной модели)	2-4 vCPU	2-4 ГБ	Не нужен	10-50 ГБ SSD
Локальная модель 7B (CPU inference)	8-16 vCPU	16-32 ГБ	Не нужен	20 ГБ NVMe
Локальная модель 7B (GPU inference)	4-8 vCPU	16 ГБ	1x RTX 4090 (24 ГБ)	20 ГБ NVMe
Векторная БД (Qdrant/Chroma)	2-4 vCPU	4-16 ГБ	Не нужен	50-500 ГБ NVMe
Headless browser (Playwright)	2-4 vCPU / браузер	1-2 ГБ / браузер	Не нужен	10 ГБ SSD
Python sandbox (код-интерпретатор)	2-4 vCPU	2-8 ГБ	Не нужен	10 ГБ SSD
Полный стек (оркестратор + RAG + browser)	8-16 vCPU	16-32 ГБ	Опционально	100+ ГБ NVMe

Практический совет: начинайте с минимальной конфигурации и мониторьте реальное потребление. AI-агенты имеют очень неравномерную нагрузку – пик во время inference и почти нулевое потребление в ожидании. Вертикальное масштабирование VPS после запуска – более простая стратегия, чем избыточное provisioning с самого начала.

VPS vs Выделенный сервер для AI-агентов

Сценарий: стартап запускает первого AI-агента

Ситуация: команда разработчиков строит агента для автоматизации customer support. Агент использует OpenAI API для генерации ответов и Playwright для проверки статуса заказов. Ожидаемый объём – 100-500 задач в сутки.

VPS 4 vCPU / 8 ГБ RAM – оптимальный старт. Агент-оркестратор (LangChain) + Playwright вписывается в 4-6 ГБ RAM под нагрузкой. Стоимость ~$30-60/мес. Выделенный сервер здесь избыточен – CPU и RAM не являются узким местом, узкое место – это latency OpenAI API (~200-500 мс на запрос).

Сценарий: агент с локальной LLM для enterprise

Ситуация: финансовая компания строит агента для анализа документов. Данные не могут покидать корпоративную сеть – только локальная модель. Выбор пал на Llama 3.1 70B.

Llama 3.1 70B в FP16 требует ~140 ГБ VRAM. Минимум – 2x A100 80GB (160 ГБ VRAM). Здесь VPS не подходит вообще – нужен выделенный GPU-сервер. Стоимость – от $2000/мес. Альтернатива для меньших требований: Llama 3.1 8B в INT4 (~5 ГБ VRAM) – помещается в RTX 4090, стоимость ~$350-450/мес.

Сценарий: платформа для многоагентной автоматизации

Ситуация: SaaS-продукт где каждый клиент получает собственного AI-агента для автоматизации workflow. 50 клиентов, каждый агент выполняет 10-50 задач в сутки. Агенты используют OpenAI API, имеют собственные векторные БД.

Выделенный сервер с 16-32 ядрами и 64-128 ГБ RAM позволяет упаковать все агентские процессы на один узел. Или – несколько меньших VPS + балансировщик для изоляции между клиентами. Второй вариант даёт лучшую изоляцию (сбой одного VPS не влияет на остальных), первый – проще в управлении.

Критерий	VPS	Выделенный сервер / AI hosting
Локальная LLM (7B+ модели)	CPU inference: медленно, GPU: нужен выделенный	Оптимально с GPU
API-based агент (OpenAI, Anthropic)	Оптимально	Избыточно для одного агента
RAG с большой векторной БД (100+ ГБ)	Ограничено RAM	Оптимально
Многоагентная платформа (50+ агентов)	Несколько VPS или большой VPS	Выделенный сервер
Приватность (данные не покидают сервер)	Подходит при правильной конфигурации	Максимальная изоляция
Стоимость (один агент, API-based)	Наименьшая ($20-80/мес)	Избыточно
Масштабирование при росте	Вертикально или горизонтально	Вертикально или кластер

Сценарии использования

Customer support автоматизация. Агент обрабатывает входящие тикеты: классифицирует, отвечает на типовые вопросы, эскалирует сложные кейсы. Требует: LLM API или локальная модель, векторная БД с документацией продукта, интеграция с helpdesk через API. Инфраструктура: VPS 4-8 vCPU / 8-16 ГБ RAM достаточно для 500-2000 тикетов/сутки при API-based подходе.

Исследовательский агент (web research). Агент ищет информацию в интернете, анализирует страницы, составляет отчёты. Playwright для браузерного доступа, LLM для анализа и синтеза. Headless browser – наиболее ресурсоёмкий компонент: каждая параллельная сессия занимает 200-500 МБ RAM. 10 параллельных браузеров = 2-5 ГБ только для них. VPS 8 ГБ RAM при активном веб-скрейпинге заполняется быстро.

Code generation и review агент. Агент анализирует код в репозитории, пишет тесты, делает code review, предлагает рефакторинг. Интеграции с GitHub/GitLab через webhook, запуск кода в sandbox. Требует: LLM API (или локальная code-специализированная модель), sandbox-среда для безопасного запуска кода. VPS с Docker и ограничениями ресурсов для sandbox – стандартная конфигурация.

Data analysis агент. Агент получает данные из разных источников, очищает, анализирует, строит отчёты. Python-interpreter для вычислений, подключение к БД, возможно ML-библиотеки (pandas, scikit-learn). Нужны: достаточно RAM для in-memory обработки датасетов (для больших датасетов – 32+ ГБ), мощный CPU для вычислений без GPU.

Для хостинга AI-агентов с оптимизированной AI-инфраструктурой: AI hosting Unihost. Для API-based агентов и оркестраторов подойдёт

Частые вопросы

Как хостить AI-агента?

Зависит от архитектуры агента. Если агент использует внешние LLM API (OpenAI, Anthropic) – достаточно VPS с Python/Node.js средой, фреймворком агента (LangChain, AutoGen) и доступом к интернету. Если агент запускает модель локально – нужен либо мощный CPU с большим RAM (для малых квантизованных моделей), либо GPU-сервер (для моделей 7B+).

Какой сервер нужен для AI-агента?

Для оркестрационного агента без локальной модели – VPS 2-4 vCPU / 4-8 ГБ RAM. Для агента с локальной 7B моделью на CPU – 16-32 ГБ RAM, 8+ ядер. Для агента с локальной 7B+ моделью на GPU – минимум RTX 4090 (24 ГБ VRAM). Для 70B модели – от 2x A100 80GB. Добавьте RAM для векторной БД, браузера и других инструментов в зависимости от задач агента.

Может ли AI работать на VPS?

Да, с ограничениями. Агент на основе API (без локальной модели) отлично работает на стандартном VPS. Локальная модель до 7B в квантизованном формате (INT4/INT8 через llama.cpp или Ollama) также может запускаться на VPS с 16-32 ГБ RAM – медленнее GPU, но функционально. Для больших моделей или продакшн нагрузки нужен выделенный GPU-сервер.

Сколько стоит хостинг AI-агента?

API-based агент на VPS: $20-80/мес за хостинг плюс стоимость API-вызовов (OpenAI GPT-4: $30/1M токенов input, $60/1M токенов output). При 100k задач/месяц со средним контекстом 2k токенов – ~$12-20/мес только за API. Агент с локальной моделью: $350-450/мес (1x RTX 4090) – без зависимости от API-стоимости. Для больших объёмов локальная модель дешевле уже от 500k-1M API-вызовов/мес.

Следующий шаг

Определите архитектуру агента (API или локальная модель) и выберите инфраструктуру. AI hosting для продакшн-агентов: Unihost AI hosting.