Claude skill-creator: эвалы, бенчмарки и тесты без кода

В skill-creator для Agent Skills появились инструменты, которые помогают проверять работу скиллов, ловить регрессии и улучшать описания — всё без написания кода. Обновления доступны в Claude.ai, Cowork, в плагине для Claude Code и в репозитории.

Большинство авторов скиллов — эксперты в предметной области, а не разработчики. Они хорошо знают свои процессы, но раньше не могли проверить, работает ли скилл с новой моделью, срабатывает ли в нужный момент и стал ли лучше после правки. Теперь в скилл-креатор перенесены подходы из разработки: тестирование, бенчмарки и итеративное улучшение — без необходимости писать код.

Скиллы делятся на два типа. Capability uplift помогают Claude делать то, что базовая модель не умеет или делает нестабильно — например, создание документов по заданным шаблонам. Encoded preference фиксируют рабочие процессы, где каждый шаг уже умеет модель, а скилл задаёт порядок и критерии — например, проверка NDA или еженедельные отчёты по данным из MCP. Для первых важны эвалы: они показывают, когда модель «догнала» скилл и он стал лишним. Для вторых — соответствие реальному workflow команды.

Источник: Improving skill-creator: Test, measure, and refine Agent Skills