Создан ИИ за 6$?

Новая работа от английского и китайских ученых, опубликованная на сайте arxiv

Новость о том, что нашумевший и весьма умный ИИ DepSeek был создан всего за 5 миллионов долларов, похоже, оказалась лишь мифом. Реальные затраты оказались в 400 раз выше — 1,59 миллиарда на оборудование и 944 миллиона на операционные расходы.

Однако появился первый ИИ, который не требует миллиардных бюджетов. Новая работа от английского и китайских ученых, опубликованная в пятницу на сайте arxiv, привлекла внимание не столько своей моделью, сколько демонстрацией того, насколько близки великие прорывы. Представленный в ней ИИ S1 не превосходит современные нейросети, но не сильно им уступает. И что самое главное — он способен работать на обычном ноутбуке! Кроме того, он раскрывает механизмы работы ИИ, которые, как оказалось, не так сложны.

OpenAI первыми описали масштабируемость моделей при увеличении времени размышления перед ответом. Однако вопрос о том, как именно заставить ИИ "думать" дольше, оставался без подробностей. S1 впервые даёт конкретное объяснение. Например, во время работы модель использует специальные теги для генерации размышлений. Как только нейросеть достигает закрывающего тега, её тон сменяется на уверенный, и она формулирует финальный ответ.

Разработчики S1 нашли хитрый способ контролировать продолжительность этого процесса: когда модель хочет завершить размышления, ей вместо подставляют слово "Wait", заставляя её пересматривать выводы. Этот приём оказался простым и действенным способом увеличивать или сокращать время размышления.

Одним из самых удивительных аспектов S1 стала стоимость обучения: всего $6 или 588 рублей! Такой результат достигнут за счёт минимизации объёма данных. Исходный набор из 56 000 примеров был отфильтрован до тысячи самых информативных, чего оказалось достаточно для достижения производительности на уровне OpenAI o1-preview, в котором содержится 32 тысячи данных и стоит намного дороже S1.

Модель обучалась всего 26 минут на 16 GPU H100, что позволило авторам провести множество экспериментов. 

Они проверяли каждую гипотезу с помощью абляционного анализа — повторных запусков с небольшими изменениями. Например, слово "Wait" оказалось более эффективным, чем "Hmm", что было доказано эмпирическим путём.

Такие малозатратные эксперименты ускоряют развитие ИИ, делая исследования доступными не только крупным корпорациям, но и независимым группам.

Инновации, снижающие стоимость обучения, поднимают вопросы о роли больших игроков, таких как OpenAI и Anthropic, которые тратят миллиарды на суперкомпьютеры и мощные сервера. Можно предположить, что огромные вычислительные мощности избыточны, однако количество возможных экспериментов возрастает пропорционально ресурсам.

В статье также поднимается вопрос о незаконном копировании данных. S1 использует информацию, созданную моделью Qwen2.5, а OpenAI обвиняет DeepSeek в незаконном использовании модели O1. С другой стороны, как ещё искусственный интеллект может приобретать новые знания и навыки, если не от других систем? Это поднимает вопрос о том, насколько возможно контролировать распространение знаний в ИИ, если для обучения новых моделей достаточно небольшого количества примеров.

S1 показывает, что прорывы в области ИИ происходят не только благодаря огромным вычислительным мощностям, но и благодаря недорогим, но тщательно спланированным экспериментам. Кроме того, работа демонстрирует, что традиционное обучение может быть столь же эффективным, как и методы обучения с подкреплением.

Темпы развития технологий в 2025 году могут быть ошеломляющими. 

Мы только в начале февраля, а некоторые ИИ уже превзошли средний IQ человека, и очевидно, что впереди нас ждут новые открытия.

06.02.2025 | Размышлять | Просмотры: 40