GPT-5.2

3 автора упоминают этот инструмент

@elkornacioРазработчик

@karfly_livestreamФаундер

@r77_aiФаундер

R77 AI | Кейсы в ИИ (от выпускников МФТИ)11 февраля 2026 г.17K просмотров

Валерий Бабушкин — OpenClaw, Moltbook и почему деньги всё ещё в ML

В этом выпуске подкаста поговорили с мощнейшним Валерием Бабушкиным про:

— что такое OpenClaw и зачем вообще нужны автономные агенты — эксперимент с Moltbook и системами, которые могут работать неделями без постоянного контроля — GPT-5.2, Codex, Claude Opus и Gemini — где какая модель реально удобнее — синтетических пользователей и ограничения такого подхода — почему большинство ML-пилотов не доходят до продакшена — и почему деньги до сих пор в классическом ML, а не только в LLM

Залетайте: Ютуб ВК

ElKornacio26 января 2026 г.7.0K просмотров

это выглядит интересно. > On 19 established benchmarks, it demonstrates performance comparable to leading models such as GPT-5.2-Thinking, Claude-Opus-4.5, and Gemini 3 Pro.

(вышел Qwen3 Max Thinking)

https://qwen.ai/blog?id=qwen3-max-thinking

ElKornacio17 декабря 2025 г.5.7K просмотров

Сегодняшний апдейт лидерборда swe-rebench мне кажется одним из самых интересных за все время, по нескольким причинам:

1. Добавили целый ряд моделей: gpt-5.2, gpt-5.1-codex-max, Gemini 3 Pro, DeepSeek-v3.2, Devstral2. Все модели от openai теперь прогоняются через responses API с сохранением ризонинг блоков. И все модели по-своему интересны: – gpt-5.2 прыгнула на самый верх и теперь соревнуется с Sonnet/Opus 4.5. А главное посмотрите на кол-ве потраченных токенов в среднем на задачу – почти как gpt5-minimal. – gpt-5.1-codex-max сильно лучше gpt5-codex, но на фоне других моделей от openai не так уж выделяется. – Gemini 3 Pro – огромный скачок в агентских задачах по сравнению с 2.5 Pro. Оффтоп, но это моя любимая модель на текущий момент в бытовом пользовании, не могу народоваться фиче с нативной обработкой видео. – DeepSeek-v3.2 – новая сота в open-source, но также и сота по потреблению токенов 💀 – Devstral2 выглядит очень неплохо. Вроде как незаметный релиз от Mistral врывается в топ open-source моделей. – Не забывайте, что к ранжированию нужно относиться осторожно, задач не так много и доля случайности все еще большая, даже несмотря на усреднение по 5 ранам. Но общая картина думаю понятна хорошо. 2. Добавили Claude Code как reference сота агента 🎉 Режим запуска указан в инсайтах. 3. Для прозрачности Cost per Problem, добавили колонку Cached Tokens, как минимум для понимания, включен у модели кэшинг или нет.

karfly_livestream5 февраля 2026 г.981 просмотров

из интересного: openai пишут, что у большинства их девов процесс разработки полностью перешел на ai-кодинг 2 месяца назад. тайминг идеально совпадает с релизом gpt-5.2

тут я полностью согласен. gpt-5.2 и opus-4.5 хоть формально и минорные релизы, но по факту пробили какой-то качественный потолок в разработке. не только я так думаю, но и многие уважаемые мною разрабы

экономического смысла сидеть и тыкать кнопки на ноуте скоро не останется вовсе. так что наслаждаемся последними годами, когда еще можно что-то нахаслить в мире битов. дальше придется идти хаслить в мир атомов 🕶

karfly_livestream17 декабря 2025 г.907 просмотров

тем временем gpt-5.2-high появилась на арене на (!) 27 месте (!)

wtf?

karfly_livestream26 января 2026 г.683 просмотров

начал общаться с агентами на русском. раньше я все промты писал на английском. мне субъективно казалось, что так и результат лучше + токенов тратится меньше

может, это и было правдой для прошлых моделей, но для gpt-5.2 и opus-4.5 - вообще не вижу разницы, на каком языке писать команды

зато вылез неявный бонус: на русском я думаю быстрее и формулирую точнее. в каких-то малочастотных словечках, кмк, реально упаковано много смысла. а такие тонкие выразительные слова на английском я знаю плохо - и пока их подберешь, уже половину мысли теряешь

про токены: да, русский обычно разбивается на большее число токенов. но для кодинг-агентов это не проблема, потому что на русском у тебя только инпут и чат-аутпут. все остальное (контекст, thinking, аутпут-код, tool calls, системные промпты) делается на английском - и именно эти части сжирают подавляющую долю токенов

Часто упоминают вместе с GPT-5.2

ChatGPT87%Claude66%Codex23%Cursor69%Gemini43%MCP46%