AI-агент – це автономна програма, яка виконує завдання без постійного втручання людини: аналізує дані, приймає рішення, викликає API, запускає інші інструменти. Для його роботи потрібна інфраструктура. Яка саме – залежить від того, що агент робить і наскільки інтенсивно.
Швидка відповідь: яка інфраструктура вам потрібна
| Ваш агент / сценарій | Мінімальна інфраструктура | Орієнт. вартість/міс |
| Агент-оркестратор (LangChain, AutoGPT) без локальної моделі | VPS 2-4 vCPU / 4-8 ГБ RAM | $20-60 |
| Агент з локальною моделлю до 7B (llama.cpp, Ollama) | VPS 4-8 vCPU / 16-32 ГБ RAM або 1x RTX 4090 | $60-450 |
| Агент з локальною моделлю 13B-70B | Виділений GPU: 1-4x A100 | $600-5000+ |
| RAG-агент (пошук по документах + LLM API) | VPS 4 vCPU / 8 ГБ RAM + векторна БД | $30-100 |
| Багатоагентний pipeline (кілька агентів паралельно) | VPS 8-16 vCPU / 16-32 ГБ RAM | $80-200 |
| Агент для автоматизації браузера (Playwright, Selenium) | VPS 4 vCPU / 8 ГБ RAM + headless Chromium | $30-80 |
| Продакшн AI-агент із 1000+ задач/добу | Виділений сервер або AI hosting | $200-2000+ |
Ключова розбивка: якщо агент викликає зовнішні LLM API (OpenAI, Anthropic, Gemini) – йому потрібен лише CPU і RAM для оркестрації. Якщо агент запускає модель локально – потрібен GPU або потужний CPU із великим обсягом RAM.
Що таке AI agent hosting
AI agent hosting – це надання серверної інфраструктури для запуску AI-агентів у безперервному або on-demand режимі. На відміну від звичайного вебхостингу, AI-агенти мають специфічні вимоги: тривалі процеси (агент може виконувати задачу годинами), великий обсяг RAM для контексту моделі, можливість викликати зовнішні API і зберігати стан між запусками.
Що відрізняє AI-агента від звичайного застосунку:
- Тривалість виконання – задача агента може займати від секунд до годин, на відміну від HTTP-запиту який має відповісти за 100-500 мс
- Стан між запусками – агент зберігає пам’ять, контекст розмов, результати попередніх кроків
- Динамічне споживання ресурсів – під час inference пік CPU/RAM набагато вищий, ніж у режимі очікування
- Виклики інструментів – агент запускає зовнішні API, бази даних, браузер, код-інтерпретатор
- Паралелізм – багатоагентні системи запускають кілька агентів одночасно
Як це працює
Типовий AI-агент складається з кількох шарів, кожен з яких має свої вимоги до інфраструктури.
Шар моделі (LLM)
Мозок агента – мовна модель. Є два варіанти: API-виклик (OpenAI GPT-4, Anthropic Claude, Google Gemini) або локальна модель (Llama, Mistral, Qwen). API-виклик вимагає тільки мережевого з’єднання і не навантажує сервер. Локальна модель потребує GPU або потужного CPU + великого обсягу RAM. Вибір між ними – це компроміс між вартістю (API дорожчий при великому обсязі), приватністю (локальна модель – дані не залишають сервер) і продуктивністю.
Шар оркестрації
Фреймворк агента (LangChain, LlamaIndex, AutoGen, CrewAI, n8n) координує виклики моделі, інструментів і зберігання стану. Оркестратор – це відносно легкий Python/Node.js-процес. Його основна вимога – стабільна робота 24/7 або on-demand запуск без холодного старту. VPS достатньо для більшості оркестраторів.
Шар пам’яті та сховища
Агент зберігає стан у кількох місцях: векторна БД (Chroma, Qdrant, Weaviate, Pinecone) для семантичного пошуку по документах, реляційна БД (PostgreSQL) для структурованих даних і метаданих, Redis для короткочасної пам’яті і кешу, файлове сховище для артефактів (документи, зображення, результати).
Шар інструментів
Агент може запускати: браузер (Playwright, Selenium) для веб-серфінгу та скрейпінгу, код-інтерпретатор (Python sandbox) для обчислень, зовнішні API (calendar, email, CRM, databases), shell-команди для автоматизації системних задач. Кожен інструмент потребує власних ресурсів – особливо headless browser (100-500 МБ RAM на сесію).
Вимоги до інфраструктури
| Компонент агента | CPU | RAM | GPU | Диск |
| Оркестратор (без локальної моделі) | 2-4 vCPU | 2-4 ГБ | Не потрібен | 10-50 ГБ SSD |
| Локальна модель 7B (CPU inference) | 8-16 vCPU | 16-32 ГБ | Не потрібен | 20 ГБ NVMe |
| Локальна модель 7B (GPU inference) | 4-8 vCPU | 16 ГБ | 1x RTX 4090 (24 ГБ) | 20 ГБ NVMe |
| Векторна БД (Qdrant/Chroma) | 2-4 vCPU | 4-16 ГБ | Не потрібен | 50-500 ГБ NVMe |
| Headless browser (Playwright) | 2-4 vCPU / браузер | 1-2 ГБ / браузер | Не потрібен | 10 ГБ SSD |
| Python sandbox (код-інтерпретатор) | 2-4 vCPU | 2-8 ГБ | Не потрібен | 10 ГБ SSD |
| Повний стек (оркестратор + RAG + browser) | 8-16 vCPU | 16-32 ГБ | Опційно | 100+ ГБ NVMe |
Практична порада: починайте з мінімальної конфігурації і моніторте реальне споживання. AI-агенти мають дуже нерівномірне навантаження – пік під час inference і майже нульове споживання в очікуванні. Вертикальне масштабування VPS після запуску – простіша стратегія, ніж надмірне provisioning з початку.
VPS vs Виділений сервер для AI-агентів
Сценарій: стартап запускає першого AI-агента
Ситуація: команда розробників будує агента для автоматизації customer support. Агент використовує OpenAI API для генерації відповідей і Playwright для перевірки статусу замовлень. Очікуваний обсяг – 100-500 задач на добу.
VPS 4 vCPU / 8 ГБ RAM – оптимальний старт. Агент-оркестратор (LangChain) + Playwright – вкладається у 4-6 ГБ RAM під навантаженням. Вартість ~$30-60/міс. Виділений сервер тут надлишок – CPU і RAM не є вузьким місцем, вузьке місце – це latency OpenAI API (~200-500 мс на запит).
Сценарій: агент із локальною LLM для enterprise
Ситуація: фінансова компанія будує агента для аналізу документів. Дані не можуть залишати корпоративну мережу – тільки локальна модель. Вибір пав на Llama 3.1 70B.
Llama 3.1 70B у FP16 потребує ~140 ГБ VRAM. Мінімум – 2x A100 80GB (160 ГБ VRAM). Тут VPS не підходить взагалі – потрібен виділений GPU-сервер. Вартість – від $2000/міс. Альтернатива для менших вимог: Llama 3.1 8B у INT4 (~5 ГБ VRAM) – влазить у RTX 4090, вартість ~$350-450/міс.
Сценарій: платформа для багатоагентної автоматизації
Ситуація: SaaS-продукт де кожен клієнт отримує власного AI-агента для автоматизації workflow. 50 клієнтів, кожен агент виконує 10-50 задач на добу. Агенти використовують OpenAI API, мають власні векторні БД.
Виділений сервер із 16-32 ядрами і 64-128 ГБ RAM дозволяє упакувати всі агентські процеси на один вузол. Або – кілька менших VPS + балансувальник для ізоляції між клієнтами. Другий варіант дає кращу ізоляцію (збій одного VPS не впливає на інших), перший – простіше управління.
| Критерій | VPS | Виділений сервер / AI hosting |
| Локальна LLM (7B+ моделі) | CPU inference: повільно, GPU: потрібен виділений | Оптимально з GPU |
| API-based агент (OpenAI, Anthropic) | Оптимально | Надлишок для одного агента |
| RAG із великою векторною БД (100+ ГБ) | Обмежено RAM | Оптимально |
| Багатоагентна платформа (50+ агентів) | Кілька VPS або великий VPS | Виділений сервер |
| Приватність (дані не залишають сервер) | Підходить при правильній конфігурації | Максимальна ізоляція |
| Вартість (один агент, API-based) | Найнижча ($20-80/міс) | Надлишок |
| Масштабування при зростанні | Вертикально або горизонтально | Вертикально або кластер |
Сценарії використання
Customer support автоматизація. Агент обробляє вхідні тікети: класифікує, відповідає на типові питання, ескалює складні кейси. Потребує: LLM API або локальна модель, векторна БД з документацією продукту, інтеграція з helpdesk через API. Інфраструктура: VPS 4-8 vCPU / 8-16 ГБ RAM достатньо для 500-2000 тікетів/добу при API-based підході.
Дослідницький агент (web research). Агент шукає інформацію в інтернеті, аналізує сторінки, складає звіти. Playwright для браузерного доступу, LLM для аналізу і синтезу. Headless browser – найресурсомісткіший компонент: кожна паралельна сесія займає 200-500 МБ RAM. 10 паралельних браузерів = 2-5 ГБ тільки для них. VPS 8 ГБ RAM при активному веб-скрейпінгу заповнюється швидко.
Code generation та review агент. Агент аналізує код у репозиторії, пише тести, робить code review, пропонує рефакторинг. Integrations з GitHub/GitLab через webhook, запуск коду у sandbox. Потребує: LLM API (або локальна code-спеціалізована модель), sandbox-середовище для безпечного запуску коду. VPS із Docker і обмеженнями ресурсів для sandbox – стандартна конфігурація.
Data analysis агент. Агент отримує дані з різних джерел, очищає, аналізує, будує звіти. Python-interpreter для обчислень, підключення до БД, можливо ML-бібліотеки (pandas, scikit-learn). Потрібні: достатньо RAM для in-memory обробки датасетів (для великих датасетів – 32+ ГБ), потужний CPU для обчислень без GPU.
Для хостингу AI-агентів з оптимізованою AI-інфраструктурою: AI hosting Unihost. Для API-based агентів і оркестраторів підійде
Часті запитання
Як хостити AI-агента?
Залежить від архітектури агента. Якщо агент використовує зовнішні LLM API (OpenAI, Anthropic) – достатньо VPS з Python/Node.js середовищем, фреймворком агента (LangChain, AutoGen) і доступом до інтернету. Якщо агент запускає модель локально – потрібен або потужний CPU із великим RAM (для малих квантизованих моделей), або GPU-сервер (для моделей 7B+).
Який сервер потрібен для AI-агента?
Для оркестраційного агента без локальної моделі – VPS 2-4 vCPU / 4-8 ГБ RAM. Для агента з локальною 7B моделлю на CPU – 16-32 ГБ RAM, 8+ ядер. Для агента з локальною 7B+ моделлю на GPU – мінімум RTX 4090 (24 ГБ VRAM). Для 70B моделі – від 2x A100 80GB. Додайте RAM для векторної БД, браузера та інших інструментів залежно від задач агента.
Чи може AI працювати на VPS?
Так, з обмеженнями. Агент на основі API (без локальної моделі) чудово працює на стандартному VPS. Локальна модель до 7B у квантизованому форматі (INT4/INT8 через llama.cpp або Ollama) також може запускатися на VPS із 16-32 ГБ RAM – повільніше GPU, але функціонально. Для більших моделей або продакшн навантаження потрібен виділений GPU-сервер.
Скільки коштує хостинг AI-агента?
API-based агент на VPS: $20-80/міс за хостинг плюс вартість API-викликів (OpenAI GPT-4: $30/1M токенів input, $60/1M токенів output). При 100k задач/місяць з середнім контекстом 2k токенів – ~$12-20/міс тільки за API. Агент із локальною моделлю: $350-450/міс (1x RTX 4090) – без залежності від API-вартості. Для великих обсягів локальна модель дешевша вже від 500k-1M API-викликів/міс.
Наступний крок
Визначте архітектуру агента (API або локальна модель) і оберіть інфраструктуру. AI hosting для продакшн-агентів: Unihost AI hosting.