AI Vibe Craft
← Назад к AI Vibe News

Редакция 17 июня 2026 г.

Обновлено 18 июня 2026

Новости

LifeSciBench от OpenAI: 750 задач и rubric на 19 020 критериев

Учёные оценивают ответы ИИ на задачи drug discovery по детальным rubric — от интерпретации данных до регуляторных выводов.

LifeSciBench включает 750 экспертных задач в семи workflow и семи биологических доменах — OpenAI представила бенчмарк 17 июня 2026 года, чтобы проверить, как ИИ справляется с реальными решениями в drug discovery и смежных областях. Задачи писали 173 учёных с Ph.D. и опытом в biotech и pharma; 453 независимых рецензента подтвердили, что задания отражают прикладную работу.

Формат ближе к запросу коллеге, чем к тесту на один факт: научный промпт, контекст, артефакты и свободный ответ оцениваются по task-specific rubric — всего 19 020 критериев, в среднем 25 на задачу. 79% заданий требуют нескольких шагов рассуждения (в среднем четыре), 53% заставляют модель интерпретировать приложенные файлы — фигуры, PDF, таблицы, sequence files, структуры и химические данные. К бенчмарку приложено 1 062 артефакта.

Семь workflow из опроса учёных

  • Evidence handling — извлечение и сверка данных из статей, фигур и экспериментальных записей
  • Analysis
  • Design and optimization
  • Scientific reasoning
  • Validation and operations
  • Translation — связь доклинических данных с клиническими решениями
  • Scientific communication

Первые результаты на GPT-Rosalind

OpenAI сравнила GPT-Rosalind и GPT-5.5 по двум метрикам: pass rate при пороге 70% и средний rubric reward с частичными баллами. Общий pass rate вырос с 25,7% до 36,1%; на задачах, где нужен actionable output для эксперта, GPT-Rosalind набирает 44,7% против 29,1% у GPT-5.5. Но на artifact-heavy заданиях показатель падает с 45,1% до 28,1% — модели всё ещё слабы в чтении сложных фигур и крупных sequence files. Самые трудные workflow — Design, Optimization & Prediction (30,7% pass rate) и Analysis (30,3%).

Сильный результат на LifeSciBench — признак task-level навыка, а не гарантия ускорения живых R&D-программ. Следующий шаг — deployment studies в реальных лабораторных процессах с итерациями, обратной связью и новыми экспериментами.

Источник: Introducing LifeSciBench.