
Пять LLM против adversarial eval: лучший результат — 62,5%
Пять LLM через Groq API прошли adversarial eval агентского цикла с mock-инструментами — ни одна не набрала больше 63%, лидер Llama 3.3 70B остановился на 62,5%. отчёт автора на Dev.to Для…
Источник:Dev.to








