Четыре слоя вокруг модели: tool, MCP, skill и agent

В материале https://dev.to/mininglamp/agent-vs-skill-vs-mcp-vs-tool-the-4-layer-stack-every-ai-developer-should-know-17no разобрана схема AI automation из четырёх уровней — tool, MCP, skill и agent — от атомарного вызова до автономного решателя. Публикация от 14 мая 2026 года на платформе указана примерно как семь минут чтения; для инженеров ценность в отдельном выделении транспорта (MCP), многошаговых сценариев (skills) и автономного агента без сведения всего к одному монолитному промпту.
Зачем разводить термины по слоям
Коллизию терминов между экосистемами иллюстрируют отсылки к LangChain, AutoGPT и документации function calling у Claude, а Model Context Protocol там же отнесён к появлению примерно в конце 2024 года. Суть разбора — не сравнение брендов, а инженерная сетка: где заканчивается «просто вызов функции» и начинается оркестрация, которую разумнее вынести за пределы одного промпта.
Если границы слоёв размыты, проще получить «запахи» архитектуры: состояние внутри tools, избыточный MCP в одном процессе или вся оркестрация в одном prompt агента без явных skills.
Tool и MCP: атомарность против транспорта
Tool задаётся как одна атомарная операция без памяти и планирования: «single, stateless function», одна детерминированная операция. Среди примеров — screenshot(), click(x, y), read_file(path) и http_get(url).
MCP фигурирует как стандартизованный транспорт для обнаружения инструментов и вызова через границы процессов: discovery, schema и transport; к вариантам транспорта относят stdio, HTTP и WebSocket. Ограничение сформулировано жёстко: MCP не решает, какие tools задействовать — это зона вызывающей стороны, обычно агента.
- Tool отвечает на вопрос «что именно выполнить один раз».
- MCP отвечает на вопрос «как безопасно и предсказуемо достучаться до tools из другого процесса или машины».
Skill и agent: сценарий против автономии
По тексту источника skill — многошаговая переиспользуемая процедура, «playbook», комбинирующая tools под одну задачу; приводится аналогия со слоем сервисов в веб-приложении, где сценарий вроде оформления заказа распадается на несколько шагов.
Agent — уровень, который сам распределяет работу: декомпозирует цель, выбирает skill, восстанавливается после ошибок, держит память сессии и критерий завершения.
Коротко: skill упаковывает повторяемый многошаговый сценарий, агент выбирает, когда какой skill уместен, и как реагировать на сбои в среде.
Композиция: agent → skill → MCP → tool
В посте дана схема цепочки; ниже — компактная выжимка формы и смысла без вторичных деталей оформления оригинала.
Agent → selects → Skill → invokes via → MCP → calls → Tool
Из заявленных следствий — сменяемость модели, переносимость skills, изолированное тестирование tools и межпроцессная совместимость через MCP. Это практика сборки контуров вокруг модели: те же уровни, что обсуждаются в связке IDE-агентов, внешних серверов capabilities и локальных рантаймов.
Когда что использовать и типовые ошибки
Блок «When to Use What» сводит выбор к вопросам: достаточно ли фиксированной последовательности, нужен ли общий каталог tools между клиентами, появляются ли многошаговые workflows и требуется ли автономная адаптация в динамической среде.
«Common Architecture Smells» перечисляет типовые промахи: монолитный prompt со смешением слоёв, «tools» со state, избыточный MCP внутри одного процесса, платформенная логика в skills и отсутствие skills при переносе всей оркестрации в prompt агента.
Пример Mano-P: локальный GUI-агент на macOS
В качестве иллюстрации Agent / Skill / Tool в том же материале приводится Mano-P: on-device GUI agent для macOS, vision-driven (экран читается через скриншоты), без опоры на DOM, accessibility или HTML-scraping. Для локальной модели указаны 4B параметров и цикл inference на устройстве.
На Apple M4 с 32 GB RAM указан ориентир 76 tok/s с Cider SDK (MLX, W8A8 на активациях). Для OSWorld названы #1 в категории proprietary model и 58.2% accuracy. Лицензия — Apache 2.0. Установка через Homebrew:
brew tap Mininglamp-AI/tap && brew install mano-cua
Формат mano-skill и внешние оркестраторы вроде Claude Code и OpenClaw agents упоминаются как часть примера; репозиторий обозначен как Mininglamp-AI/Mano-P. Отдельно зафиксирован тезис, что скриншоты и логи нажатий не покидают устройство.
Источники
- Mininglamp. Agent vs Skill vs MCP vs Tool: The 4-Layer Stack Every AI Developer Should Know. Dev.to, материал по адресу Dev.to (дата обращения: 2026-05-15 UTC).