В середине мая в Беркли, Калифорния, прошла закрытая встреча математиков со всего мира. Тридцать выдающихся учёных, включая тех, кто прилетел из Великобритании, собрались, чтобы испытать ИИ-чат-бот нового поколения. Бот должен был решать сложные задачи, подготовленные самими математиками.
После двух дней работы участники были поражены
нейросеть успешно справилась с рядом самых трудных задач современной математики. «Некоторые мои коллеги говорят, что эти модели близки к математическому гению», — отметил Кен Оно, математик из Университета Вирджинии и один из организаторов встречи.
За этим ИИ стоит другой(пока "слабый") ИИ o4-mini от небезызвестной OpenAI. Это языковая модель для логических рассуждений, обученная на сложных цепочках выводов, а не просто на тексте. Аналогичные возможности имеют модели Gemini 2.5 Flash от Google и новейший ИИ DeepSeek-Prover-V2. Как и более ранние версии ИИ "рода" GPT, o4-mini предсказывает следующее слово в тексте. Однако она работает быстрее, занимает меньше места и обучалась на специализированных данных с усиленной корректировкой от людей, что позволило ей глубже решать математические задачи.
Чтобы оценить прогресс o4-mini, OpenAI поручила некоммерческой организации Epoch AI создать 300 математических задач, решения которых ещё не опубликованы. Даже традиционные LLM могут решать сложные задачи, но на новых примерах они справились лишь с 2% задач. Это показало их ограниченные способности к логическим рассуждениям. Но с ИИ o4-mini всё было иначе.
В сентябре прошлого года к проекту FrontierMath присоединился Эллиот Глейзер, недавно защитивший докторскую по математике. Проект включал задачи трёх уровней сложности: от бакалаврских до исследовательских. К февралю 2025 года Глейзер выяснил, что o4-mini успешно решает около 20% этих задач. Затем он перешёл к четвёртому уровню — 100 заданий, которые даже для профессионалов представляют серьёзную трудность. Но o4-mini справился очень даже хорошо,
Для обеспечения конфиденциальности участникам проекта пришлось подписать соглашение о неразглашении и общаться через весьма защищенный мессенджер Signal. Электронная почта и другие каналы могли быть просмотрены ИИ, что поставило бы под угрозу результаты эксперимента.
Подбор задач шёл медленно
Чтобы ускорить процесс, люди из Epoch AI организовали очную встречу 17 и 18 мая. Тогда участники должны были окончательно утвердить последний набор заданий. Кен Оно разделил математиков на команды по шесть человек.
В течение двух дней они соревновались, придумывая задачи, которые могли бы решить сами, но которые были бы сложны для ИИ. За каждую невыполненную o4-mini задачу автор получал вознаграждение в 7500 долларов(593 тыс руб).