Tax AI за сезон: 7 000 деклараций и цикл самоулучшения на Codex

За налоговый сезон пилотный Tax AI обработал 7 000 форм 1040 и 1041 в сети более 30 бухгалтерских фирм Crete, при этом команды OpenAI и Thrive на этом кейсе разложили, как замкнуть обратную связь практиков, production traces и итерации Codex в измеримый цикл самоулучшения вместо бесконечного ручного патча после релиза.
Три опоры цикла
- Близость к практикам: их правки задают приоритеты и отделяют реальные сбои от ожидаемого шума в filing workflow.
- Продакшн как источник доказательств: сквозные product traces от сырых пакетов документов до подачи в tax engine фиксируют, где рвётся цепочка extraction → mapper → submission.
- Цикл на Codex: повторяющиеся field-level корректировки группируются в eval targets, после чего агент расследует trace и код, валидирует правки на таргетных и регрессионных evals и выносит кандидат PR на ревью.
Цифры и динамика
На запуске четверть возвратов достигала хотя бы 75% корректно заполненных полей без последующих правок; через шесть недель этот барьер брали уже 86% отскоренных файлов. Черновики держат заявленные до 97% точности, пропускная способность выросла на 50%, а система через три месяца в проде измеримо сильнее первой выкладки.
От корректировки к задаче для Codex
Строки ревью сравнивают ожидаемое значение из финальной декларации с предсказанием Tax AI; похожие расхождения кластеризуют, чтобы вынести повторяющиеся product failures — например пропуски fair rental days на Schedule E или путаницу между несколькими объектами в одном пакете — и превратить их в таргетные eval suites. Уже упакованный finding превращается в scoped engineering task: чтение production trace, AGENTS.md, датасетов под evals/ и кандидат изменений после прогона регрессии.
У одного старшего бухгалтера подготовка налогов заняла 180 часов в прошлом сезоне и 15 часов в этом; высвободившееся время ушло в созвоны с клиентами по возвратам и расширение клиентской базы.
Источник: Building self-improving tax agents with Codex.