AI Agent Hosting: все що потрібно знати

AI-агент – це автономна програма, яка виконує завдання без постійного втручання людини: аналізує дані, приймає рішення, викликає API, запускає інші інструменти. Для його роботи потрібна інфраструктура. Яка саме – залежить від того, що агент робить і наскільки інтенсивно.

Швидка відповідь: яка інфраструктура вам потрібна

Ваш агент / сценарій	Мінімальна інфраструктура	Орієнт. вартість/міс
Агент-оркестратор (LangChain, AutoGPT) без локальної моделі	VPS 2-4 vCPU / 4-8 ГБ RAM	$20-60
Агент з локальною моделлю до 7B (llama.cpp, Ollama)	VPS 4-8 vCPU / 16-32 ГБ RAM або 1x RTX 4090	$60-450
Агент з локальною моделлю 13B-70B	Виділений GPU: 1-4x A100	$600-5000+
RAG-агент (пошук по документах + LLM API)	VPS 4 vCPU / 8 ГБ RAM + векторна БД	$30-100
Багатоагентний pipeline (кілька агентів паралельно)	VPS 8-16 vCPU / 16-32 ГБ RAM	$80-200
Агент для автоматизації браузера (Playwright, Selenium)	VPS 4 vCPU / 8 ГБ RAM + headless Chromium	$30-80
Продакшн AI-агент із 1000+ задач/добу	Виділений сервер або AI hosting	$200-2000+

Ключова розбивка: якщо агент викликає зовнішні LLM API (OpenAI, Anthropic, Gemini) – йому потрібен лише CPU і RAM для оркестрації. Якщо агент запускає модель локально – потрібен GPU або потужний CPU із великим обсягом RAM.

Що таке AI agent hosting

AI agent hosting – це надання серверної інфраструктури для запуску AI-агентів у безперервному або on-demand режимі. На відміну від звичайного вебхостингу, AI-агенти мають специфічні вимоги: тривалі процеси (агент може виконувати задачу годинами), великий обсяг RAM для контексту моделі, можливість викликати зовнішні API і зберігати стан між запусками.

Що відрізняє AI-агента від звичайного застосунку:

Тривалість виконання – задача агента може займати від секунд до годин, на відміну від HTTP-запиту який має відповісти за 100-500 мс
Стан між запусками – агент зберігає пам’ять, контекст розмов, результати попередніх кроків
Динамічне споживання ресурсів – під час inference пік CPU/RAM набагато вищий, ніж у режимі очікування
Виклики інструментів – агент запускає зовнішні API, бази даних, браузер, код-інтерпретатор
Паралелізм – багатоагентні системи запускають кілька агентів одночасно

Як це працює

Типовий AI-агент складається з кількох шарів, кожен з яких має свої вимоги до інфраструктури.

Шар моделі (LLM)

Мозок агента – мовна модель. Є два варіанти: API-виклик (OpenAI GPT-4, Anthropic Claude, Google Gemini) або локальна модель (Llama, Mistral, Qwen). API-виклик вимагає тільки мережевого з’єднання і не навантажує сервер. Локальна модель потребує GPU або потужного CPU + великого обсягу RAM. Вибір між ними – це компроміс між вартістю (API дорожчий при великому обсязі), приватністю (локальна модель – дані не залишають сервер) і продуктивністю.

Шар оркестрації

Фреймворк агента (LangChain, LlamaIndex, AutoGen, CrewAI, n8n) координує виклики моделі, інструментів і зберігання стану. Оркестратор – це відносно легкий Python/Node.js-процес. Його основна вимога – стабільна робота 24/7 або on-demand запуск без холодного старту. VPS достатньо для більшості оркестраторів.

Шар пам’яті та сховища

Агент зберігає стан у кількох місцях: векторна БД (Chroma, Qdrant, Weaviate, Pinecone) для семантичного пошуку по документах, реляційна БД (PostgreSQL) для структурованих даних і метаданих, Redis для короткочасної пам’яті і кешу, файлове сховище для артефактів (документи, зображення, результати).

Шар інструментів

Агент може запускати: браузер (Playwright, Selenium) для веб-серфінгу та скрейпінгу, код-інтерпретатор (Python sandbox) для обчислень, зовнішні API (calendar, email, CRM, databases), shell-команди для автоматизації системних задач. Кожен інструмент потребує власних ресурсів – особливо headless browser (100-500 МБ RAM на сесію).

Вимоги до інфраструктури

Компонент агента	CPU	RAM	GPU	Диск
Оркестратор (без локальної моделі)	2-4 vCPU	2-4 ГБ	Не потрібен	10-50 ГБ SSD
Локальна модель 7B (CPU inference)	8-16 vCPU	16-32 ГБ	Не потрібен	20 ГБ NVMe
Локальна модель 7B (GPU inference)	4-8 vCPU	16 ГБ	1x RTX 4090 (24 ГБ)	20 ГБ NVMe
Векторна БД (Qdrant/Chroma)	2-4 vCPU	4-16 ГБ	Не потрібен	50-500 ГБ NVMe
Headless browser (Playwright)	2-4 vCPU / браузер	1-2 ГБ / браузер	Не потрібен	10 ГБ SSD
Python sandbox (код-інтерпретатор)	2-4 vCPU	2-8 ГБ	Не потрібен	10 ГБ SSD
Повний стек (оркестратор + RAG + browser)	8-16 vCPU	16-32 ГБ	Опційно	100+ ГБ NVMe

Практична порада: починайте з мінімальної конфігурації і моніторте реальне споживання. AI-агенти мають дуже нерівномірне навантаження – пік під час inference і майже нульове споживання в очікуванні. Вертикальне масштабування VPS після запуску – простіша стратегія, ніж надмірне provisioning з початку.

VPS vs Виділений сервер для AI-агентів

Сценарій: стартап запускає першого AI-агента

Ситуація: команда розробників будує агента для автоматизації customer support. Агент використовує OpenAI API для генерації відповідей і Playwright для перевірки статусу замовлень. Очікуваний обсяг – 100-500 задач на добу.

VPS 4 vCPU / 8 ГБ RAM – оптимальний старт. Агент-оркестратор (LangChain) + Playwright – вкладається у 4-6 ГБ RAM під навантаженням. Вартість ~$30-60/міс. Виділений сервер тут надлишок – CPU і RAM не є вузьким місцем, вузьке місце – це latency OpenAI API (~200-500 мс на запит).

Сценарій: агент із локальною LLM для enterprise

Ситуація: фінансова компанія будує агента для аналізу документів. Дані не можуть залишати корпоративну мережу – тільки локальна модель. Вибір пав на Llama 3.1 70B.

Llama 3.1 70B у FP16 потребує ~140 ГБ VRAM. Мінімум – 2x A100 80GB (160 ГБ VRAM). Тут VPS не підходить взагалі – потрібен виділений GPU-сервер. Вартість – від $2000/міс. Альтернатива для менших вимог: Llama 3.1 8B у INT4 (~5 ГБ VRAM) – влазить у RTX 4090, вартість ~$350-450/міс.

Сценарій: платформа для багатоагентної автоматизації

Ситуація: SaaS-продукт де кожен клієнт отримує власного AI-агента для автоматизації workflow. 50 клієнтів, кожен агент виконує 10-50 задач на добу. Агенти використовують OpenAI API, мають власні векторні БД.

Виділений сервер із 16-32 ядрами і 64-128 ГБ RAM дозволяє упакувати всі агентські процеси на один вузол. Або – кілька менших VPS + балансувальник для ізоляції між клієнтами. Другий варіант дає кращу ізоляцію (збій одного VPS не впливає на інших), перший – простіше управління.

Критерій	VPS	Виділений сервер / AI hosting
Локальна LLM (7B+ моделі)	CPU inference: повільно, GPU: потрібен виділений	Оптимально з GPU
API-based агент (OpenAI, Anthropic)	Оптимально	Надлишок для одного агента
RAG із великою векторною БД (100+ ГБ)	Обмежено RAM	Оптимально
Багатоагентна платформа (50+ агентів)	Кілька VPS або великий VPS	Виділений сервер
Приватність (дані не залишають сервер)	Підходить при правильній конфігурації	Максимальна ізоляція
Вартість (один агент, API-based)	Найнижча ($20-80/міс)	Надлишок
Масштабування при зростанні	Вертикально або горизонтально	Вертикально або кластер

Сценарії використання

Customer support автоматизація. Агент обробляє вхідні тікети: класифікує, відповідає на типові питання, ескалює складні кейси. Потребує: LLM API або локальна модель, векторна БД з документацією продукту, інтеграція з helpdesk через API. Інфраструктура: VPS 4-8 vCPU / 8-16 ГБ RAM достатньо для 500-2000 тікетів/добу при API-based підході.

Дослідницький агент (web research). Агент шукає інформацію в інтернеті, аналізує сторінки, складає звіти. Playwright для браузерного доступу, LLM для аналізу і синтезу. Headless browser – найресурсомісткіший компонент: кожна паралельна сесія займає 200-500 МБ RAM. 10 паралельних браузерів = 2-5 ГБ тільки для них. VPS 8 ГБ RAM при активному веб-скрейпінгу заповнюється швидко.

Code generation та review агент. Агент аналізує код у репозиторії, пише тести, робить code review, пропонує рефакторинг. Integrations з GitHub/GitLab через webhook, запуск коду у sandbox. Потребує: LLM API (або локальна code-спеціалізована модель), sandbox-середовище для безпечного запуску коду. VPS із Docker і обмеженнями ресурсів для sandbox – стандартна конфігурація.

Data analysis агент. Агент отримує дані з різних джерел, очищає, аналізує, будує звіти. Python-interpreter для обчислень, підключення до БД, можливо ML-бібліотеки (pandas, scikit-learn). Потрібні: достатньо RAM для in-memory обробки датасетів (для великих датасетів – 32+ ГБ), потужний CPU для обчислень без GPU.

Для хостингу AI-агентів з оптимізованою AI-інфраструктурою: AI hosting Unihost. Для API-based агентів і оркестраторів підійде

Часті запитання

Як хостити AI-агента?

Залежить від архітектури агента. Якщо агент використовує зовнішні LLM API (OpenAI, Anthropic) – достатньо VPS з Python/Node.js середовищем, фреймворком агента (LangChain, AutoGen) і доступом до інтернету. Якщо агент запускає модель локально – потрібен або потужний CPU із великим RAM (для малих квантизованих моделей), або GPU-сервер (для моделей 7B+).

Який сервер потрібен для AI-агента?

Для оркестраційного агента без локальної моделі – VPS 2-4 vCPU / 4-8 ГБ RAM. Для агента з локальною 7B моделлю на CPU – 16-32 ГБ RAM, 8+ ядер. Для агента з локальною 7B+ моделлю на GPU – мінімум RTX 4090 (24 ГБ VRAM). Для 70B моделі – від 2x A100 80GB. Додайте RAM для векторної БД, браузера та інших інструментів залежно від задач агента.

Чи може AI працювати на VPS?

Так, з обмеженнями. Агент на основі API (без локальної моделі) чудово працює на стандартному VPS. Локальна модель до 7B у квантизованому форматі (INT4/INT8 через llama.cpp або Ollama) також може запускатися на VPS із 16-32 ГБ RAM – повільніше GPU, але функціонально. Для більших моделей або продакшн навантаження потрібен виділений GPU-сервер.

Скільки коштує хостинг AI-агента?

API-based агент на VPS: $20-80/міс за хостинг плюс вартість API-викликів (OpenAI GPT-4: $30/1M токенів input, $60/1M токенів output). При 100k задач/місяць з середнім контекстом 2k токенів – ~$12-20/міс тільки за API. Агент із локальною моделлю: $350-450/міс (1x RTX 4090) – без залежності від API-вартості. Для великих обсягів локальна модель дешевша вже від 500k-1M API-викликів/міс.

Наступний крок

Визначте архітектуру агента (API або локальна модель) і оберіть інфраструктуру. AI hosting для продакшн-агентів: Unihost AI hosting.