GPT-5.2
3 автора упоминают этот инструмент
Валерий Бабушкин — OpenClaw, Moltbook и почему деньги всё ещё в ML
В этом выпуске подкаста поговорили с мощнейшним Валерием Бабушкиным про:
— что такое OpenClaw и зачем вообще нужны автономные агенты — эксперимент с Moltbook и системами, которые могут работать неделями без постоянного контроля — GPT-5.2, Codex, Claude Opus и Gemini — где какая модель реально удобнее — синтетических пользователей и ограничения такого подхода — почему большинство ML-пилотов не доходят до продакшена — и почему деньги до сих пор в классическом ML, а не только в LLM
Залетайте: Ютуб ВК
это выглядит интересно. > On 19 established benchmarks, it demonstrates performance comparable to leading models such as GPT-5.2-Thinking, Claude-Opus-4.5, and Gemini 3 Pro.
(вышел Qwen3 Max Thinking)
https://qwen.ai/blog?id=qwen3-max-thinking
Сегодняшний апдейт лидерборда swe-rebench мне кажется одним из самых интересных за все время, по нескольким причинам:
1. Добавили целый ряд моделей: gpt-5.2, gpt-5.1-codex-max, Gemini 3 Pro, DeepSeek-v3.2, Devstral2. Все модели от openai теперь прогоняются через responses API с сохранением ризонинг блоков. И все модели по-своему интересны: – gpt-5.2 прыгнула на самый верх и теперь соревнуется с Sonnet/Opus 4.5. А главное посмотрите на кол-ве потраченных токенов в среднем на задачу – почти как gpt5-minimal. – gpt-5.1-codex-max сильно лучше gpt5-codex, но на фоне других моделей от openai не так уж выделяется. – Gemini 3 Pro – огромный скачок в агентских задачах по сравнению с 2.5 Pro. Оффтоп, но это моя любимая модель на текущий момент в бытовом пользовании, не могу народоваться фиче с нативной обработкой видео. – DeepSeek-v3.2 – новая сота в open-source, но также и сота по потреблению токенов 💀 – Devstral2 выглядит очень неплохо. Вроде как незаметный релиз от Mistral врывается в топ open-source моделей. – Не забывайте, что к ранжированию нужно относиться осторожно, задач не так много и доля случайности все еще большая, даже несмотря на усреднение по 5 ранам. Но общая картина думаю понятна хорошо. 2. Добавили Claude Code как reference сота агента 🎉 Режим запуска указан в инсайтах. 3. Для прозрачности Cost per Problem, добавили колонку Cached Tokens, как минимум для понимания, включен у модели кэшинг или нет.
из интересного: openai пишут, что у большинства их девов процесс разработки полностью перешел на ai-кодинг 2 месяца назад. тайминг идеально совпадает с релизом gpt-5.2
тут я полностью согласен. gpt-5.2 и opus-4.5 хоть формально и минорные релизы, но по факту пробили какой-то качественный потолок в разработке. не только я так думаю, но и многие уважаемые мною разрабы
экономического смысла сидеть и тыкать кнопки на ноуте скоро не останется вовсе. так что наслаждаемся последними годами, когда еще можно что-то нахаслить в мире битов. дальше придется идти хаслить в мир атомов 🕶
тем временем gpt-5.2-high появилась на арене на (!) 27 месте (!)
wtf?
начал общаться с агентами на русском. раньше я все промты писал на английском. мне субъективно казалось, что так и результат лучше + токенов тратится меньше
может, это и было правдой для прошлых моделей, но для gpt-5.2 и opus-4.5 - вообще не вижу разницы, на каком языке писать команды
зато вылез неявный бонус: на русском я думаю быстрее и формулирую точнее. в каких-то малочастотных словечках, кмк, реально упаковано много смысла. а такие тонкие выразительные слова на английском я знаю плохо - и пока их подберешь, уже половину мысли теряешь
про токены: да, русский обычно разбивается на большее число токенов. но для кодинг-агентов это не проблема, потому что на русском у тебя только инпут и чат-аутпут. все остальное (контекст, thinking, аутпут-код, tool calls, системные промпты) делается на английском - и именно эти части сжирают подавляющую долю токенов