Codex
14 авторов упоминают этот инструмент
Валерий Бабушкин — OpenClaw, Moltbook и почему деньги всё ещё в ML
В этом выпуске подкаста поговорили с мощнейшним Валерием Бабушкиным про:
— что такое OpenClaw и зачем вообще нужны автономные агенты — эксперимент с Moltbook и системами, которые могут работать неделями без постоянного контроля — GPT-5.2, Codex, Claude Opus и Gemini — где какая модель реально удобнее — синтетических пользователей и ограничения такого подхода — почему большинство ML-пилотов не доходят до продакшена — и почему деньги до сих пор в классическом ML, а не только в LLM
Залетайте: Ютуб ВК
что-то неделька безумная, режим сломался полностью, навалилась тонна бюрократических задач, вообще выпал из жизни. микро-новости, оч коротко: 1. оч много стал юзать claude code / codex, даже проплатил тарифы побольше. 3-4 потока стабильно 2. я был не прав, когда говорил, что Opus > gpt-5.2. прям очень не прав. разница между ними как между Sonnet 4 (не 4.5) и Opus 4.5. GPT-5.2 xhigh через codex cli прям безумная машина - компактизация бесшовная настолько, что я даже не замечаю её (в случае Claude Code компактизация - это практически лоботомия чату, приходится всё объяснять сначала) 3. гораздо больше юзаю Antigravity, browser-harness у него прям хороший, хоть и очень медленный 4. ни секунды не сомневаюсь, что Anthropic бенчмаксит бенчи по долгой автономной работе через завышение таймаутов / sleep'ов 5. не, ну вы прям не представляете, насколько 5.2 лучше Opus. либо после проплаты подписки Anthropic мне занерфил опус (потому что он прям как будто заметно тупее стал), либо меня реально сломал тот факт, что 5.2 _реально_ следует инструкциям.
вторая штука, про которую очень хочется написать что-то вдумчиво философское, это то, что если раньше всякие тейки про AGI 2027 мне казались преувеличенными, и 2030 выглядел реалистичнее, то в последние недели я задаюсь двумя вопросами: 1. а почему мы вообще считаем, что то, что у нас есть сейчас - ещё не AGI? 2. мне кажется, что ASI 2027-2028 даже более реалистичный горизонт, чем AGI
--
а ещё, хочу повторить тейк из предыдущего поста: если ИИ сейчас не может справляться с вашей задачей - вы плохо его настроили. не дали хороший цикл для автономного тестирования, не подготовили док по дебагу, не прописали важные ньюансы, etc. я не могу пошерить ЧТО сейчас у меня делает gpt-5.2, но мягко говоря - на такое его точно не обучали, и даже 3-4 месяца назад мне казалось абсолютной фантастикой, что модель справится с такой задачей вообще.
я вот собрал себе скилл, который довольно неплохо настраивает автономный фидбек-луп агенту в репозиториях - он обычно даёт на 80-90% готовый результат, дальше чутка подпилить, причесать избыточность в DEBUG.md, и можно отлично юзать. сейчас все проекты инициализирую через него обязательно.
скилл в аттаче, надеюсь пригодится 🙂
меня не отпускает ощущение, что хвальбы Codex 5.2 в куче около-ИИ чатов - это какой-то пранк да, модель сильная, но по шизофазии и рядом не стояла с Anthropic.
писать код в совершенно отличном от кода проекта стиле, генерировать какие-то абсолютно неуместные (тонны typeof-валидаций в strict TS файле - что это?) и местами даже совершенно бессмысленные вещи (пустой цикл. типа, цикл вообще без тела. wtf?) - вообще запросто. и я не понимаю, на кой чёрт у неё такой длинный exploration phase, если она один хрен всё равно потом дублирует тонны кода. написать функцию, в которой 9 строк из 10 полностью совпадают с уже существующей в том же файле - вообще легко.
стал в последние дни частенько упираться в лимиты по CC/Курсору, и пытаюсь использовать Codex. в большинстве случаев он справляется лучше всего со следующей задачей: развлечь меня до момента, пока у CC не сбросится лимит, после чего я с лёгким сердцем делаю git reset, и передаю задачу в Sonnet.
в один вечер, лол 🙂
⚡️ Opus 4.6 https://www.anthropic.com/news/claude-opus-4-6
⚡️ GPT-5.3-codex https://openai.com/index/introducing-gpt-5-3-codex/
P.S. для контекста - Opus 4.6 проигрывает в SWE Verified Opus 4.5, но побеждает в Terminal Bench с лёгким отрывом (65.4% против 59.8%). В то же время GPT-5.3-codex доминирует и там и там, причем в terminal bench с диким отрывом - 77.3%
Последние несколько недель баловался с разными консольными кодинг агентами. Claude Code все еще остается моим фаворитом, но смотреть по сторонам полезно, тем более когда что-то про agentic devex написано в моих рабочих задачах.
Клиенты
Попробовал Opencode, Gemini CLI, Github Copilot CLI, Codex. Раз речь про вайбкодинг, то и оценивать буду по вайбам: - Gemini и Copilot - клиенты сыроваты, работать можно, но не хочется. - Codex созрел и стал вполне юзабельным. - Opencode прям хорош, UX отполированный, полностью опенсорсный, есть плагины, развивается очень быстро.
Еще одна фича Opencode: можно не только использовать провайдеров с оплатой по токенам, но и переиспользовать подписки. Серая зона: одни провайдеры (Anthropic) явно запрещают использовать сторонние клиенты, некоторые (Copilot, Minimax, Z.ai) разрешают, так что где-то приходится действовать на свой страх и риск.
Модели
Попробовал и разные модели в Opencode: - minimax 2.1, GLM 4.7 - похожи на sonnet предыдущего поколения, дешевые рабочие лошадки для простых задач - GPT Codex 5.2 - задает очень много вопросов, вкапывается в детали - иногда в лишние, а потом уходит работать на пару часов с достойным качеством - Gemini 3 Pro - на первый взгляд все классно, может предложить нетривиальные идеи или быстро решить сложную задачу... но потом оказывается, что где-то с высокой вероятностью подложена свинья. Например, переписываю большой кусок с питона на раст, агент пишет гору правдоподобного кода и бодро отчитывается, что все проверено и идеально матчится, но в итоге окажется, что 10% функций цинично проигнорировано. Они не просто где-то выпали из контекста, а нагло возвращают константу с комментарием в коде типа "а это делать не буду, и так норм". Что-нибудь молча удалить или наоборот попытаться закоммитить - тоже нередкая ситуация. - Gemini Flash 3 - аналогично, только быстрее и тупее.
Воскрешение года
Повод удивиться: внезапно подписка Copilot выглядит наиболее выгодной в категории "топ за свои деньги". Copilot можно использовать в стороннем клиенте (включая и вышеупомянутый Opencode, и мой любимый Zed), можно переключаться между моделями (есть все основные провайдеры, и новые модели доезжают довольно быстро).
Кто бы мог подумать: еще год назад, когда я в каком-то разговоре упомянул Copilot, мой собеседник посмотрел на меня с ноткой презрения - мол, ты чего, все пацаны сидят на Cursor/Windsurf, зачем ты вообще помнишь про это старье.
я знаю, что уже нахваливал gpt-5.2-codex-xhigh/codex-cli выше, но накину ещё: это единственная связка, которая сейчас умеет сама идентифицировать зоны рефакторинга, предлагать действительно адекватные рефакторинги и изоляции сущностей, с семантическим разделением, и так далее, и полностью автономно выполнять.
я прям смотрю на свои прошлые workflow вокруг opus, которые я юзал для plan-implement-refactor, и мне прям угарно от того, сколько у меня там всяких guardrails: "проверь, не нарушил ли ты А", "проверь, соответствует ли это паттерну Б", "убедись, что С", и так далее, ито они не всегда спасали. здесь (gpt-5.2) в 99% процентов случаев: 1. "вот проблемные зоны, собери план рефакторинга" 2. вношу 2-3 правки в план, уточняю бизнес-логику 3. "имплементируй"
сейчас постараюсь сделать аккуратное утверждение, но тем не менее: кажется, наклёвывается scaling law в ИИ-кодинге. все предыдущие полностью автономные ИИ-кодинг решения не способны в самолечение технического долга, как не обмазывайся промптами, через некоторое время наступает конец. надо либо очень тщательно дробить проект, либо, если ты сам разраб, обязательно вносить архитектурные коррективы.
gpt-5.2-codex заставляет меня верить в возможность фактически бесконечной разработки проекта только через ИИ-кодинг и без заглядывания в код - он умеет (если попросить) идентифицировать зоны с тех. долгом, и самостоятельно их чинить так, что проект остаётся расширяем, поддерживаем и работоспособен.
чет неделя философских дум, посты в голову не идут, так что пока в режиме тишины. по Codex app - nice, чутка сыровато, но юзабельно. хотя принципиальных причин пересесть в него с cli я назвать не могу - но, думаю, через 1-2 месяца это точно станет более стандартным способом юзать codex, чем cli.
btw, из недавно прочитанного и сочного, рекомендую: https://www.astralcodexten.com/p/sota-on-bay-area-house-party
ладно-ладно, уговорили, попробую именно в codex-cli его поюзать. за использование cli вместо gui молоко должны за вредность давать 😕
https://openai.com/codex/
пока бегло потестил, в течение 1-2 дней дам более подробное ревью. главный волнующий меня вопрос - работал ли так же хорошо, как и Codex CLI (причин сомневаться особо нет, но вдруг). в общем, эксперементирую, и вам советую
не, говорите что хотите, но gpt-5.1-codex-max-high слабее sonnet-4.5-thinking 🙂 её плюсы заканчиваются на том, что она сейчас бесплатна в Курсоре.
привет, ребята. на всякий случай решил напомнить, ато вдруг вы забыли или упустили.
конфа "ИИтоге 2025" уже завтра, я там выступаю с оч сочной темой: "AI в разработке: эволюция ИИ-агентов (CC/Codex/Gemini) в экосистемы, Context Engineering, и как ИИ влияет на метрики разработчиков" 🙂
напомню, в программе: - Сдвиг парадигмы в управлении процессами, который все пропустили - Как в 2026 бизнесу отличить: где ИИ-фанатизм со сливом бюджета, а где ИИ-инструменты с реальной ценностью? - Почему одних разрабов ИИ бустит, а другие плюются от багов? Как укротить агентов и получать production-ready код от ИИ? - RAG мертв? Почему enterprise уходит от векторных баз к агентам, куда движется индустрия LLM-провайдеров и какое место у локальных AI-решений? - Кого и как нанимать в 2026 году? И, самое главное, что изучать, чтобы не уволили вас?
в общем, шикарная солянка контента от экспертных спикеров: парочка Head of AI, руководитель AI R&D-института, фаундеры и ко-фаундеры AI-first компаний: самый лучший состав, чтобы рассказать про ИИ со всех ракурсов.
⚡️ вот ссылка для записи на предновогодний эфир (все еще можно бесплатно!)
чисто чтобы вы не думали что я совсем умер, напишу хоть что-то полезное
в Кодекс завезли субагентов: https://developers.openai.com/codex/subagents/
вообще, завезли их давно - просто сейчас выпустили в общий доступ из под беты. я их много успел потестить за время беты, и... мне не очень понравилось. реализация у Claude Code как будто дотюнена получше.
с точки зрения идеи - мне понравилось, что субагенты полностью асинхронные, основной агент (оркестратор) взаимодействует с ними так же как вы - может им написать сообщение, задать вопрос. по началу мне это показалось крутым - в отличие от CC, где 99% взаимодействий с субагентами - синхронное, когда основной поток тупо ждёт, пока работа завершиться, это выглядело мощно.
беда в том, что хоть написать субагенту сообщение оркестратор и может, но ответ увидит только в конце работы субагента, ТОЛЬКО когда его финальное сообщение написано... и модели совершенно не вдупляют, как с этим взаимодействовать. то есть, пока субагент полностью не закончил свою задачу - оркестратор думает, что он молчит, и игнорирует его.
и это очень тупо: оркестратор даёт субагенту задачу, ждёт 15 секунд, и пишет "чета он молчит, видимо, ещё работает". ждёт ещё 15 сек, пишет "чёт всё ещё молчит, спрошу, как он там))", пишет субагенту типа "Ты там как? Сообщи мне результаты выполнения задачи". прикол в том, что субагент не может ничего сообщить "в процессе" - у него нет никакого тула типа "ответить оркестратору", он думает, что его сиюминутный текстовый ответ будет виден оркестратору, и он пишет "Всё хорошо, продолжаю работу!", и собственно, продолжает работу. т.к. это не финальное сообщение, то оркестратор его не видит, и начинает паниковать, типа "чёта этот крендель молчит в ответ уже на 5 сообщение. кажется, он завис - запущу нового". ну и история повторяется.
в общем, пока как-то так. надеюсь поправят, не выглядит, как сложная проблема.
решил пошерить пачку небольших лайфхаков в работе с агентами, в основном про скрипты. думаю, опытным чувакам 90% из этого покажется прописными истинами, но, возможно, кто-то почерпнёт что-то полезное для себя. сохраняйте, шерьте, кайфуйте 🙂
1. не юзайте TUI в VSCode/Cursor для Claude Code / Codex / etc. мерцания интерфейса и проблемы со вставкой текста (в том числе из голосового ввода) - это не баги самих приложений, а баги tty-среды в VSCode. юзайте нативный терминал.
2. если вы хотите, чтобы агент выполнял одну и ту же цепочку действий - вместо описания цепочки в глобальных правилах лучше просто упакуйте её в bash-скрипт. чем писать "ты всегда должен сделать тайп-чек, билд, прогнать тесты, и потом деплойнуть скрипт", просто попросите агента создать ./check-build-test-deploy.sh, и пропишите этот скрипт в правилах. да, современные агенты неплохо следуют инструкциям, но рандома оч много. иногда агент воспринимает "прогони тесты" как pnpm run test, а иногда он по хардкору начинает писать конструкции типа npx ./node_modules/.bin/jest ... --runInBand ..., и спотыкается. скрипты - гарантия повторяемости (это супер-очевидная штука для вещей, которые приходится делать руками самому, но при этом я часто вижу, что люди не заботятся о том, чтобы обеспечить удобство работы агентам).
3. если вы хотите, чтобы агент после какой-то операции анализировал её результат - прокиньте логи/данные сразу в stdout этой операции. это рифмуется и дополняет предыдущий пункт, если вы юзаете конструкции типа "выполни этот скрипт, после чего прочитай логи в ./abc.log", то поставьте tail -n 50 ... прям в конец скрипта. когда я дебажил ESP-плату, у меня билд-деплой кода были на одном скрипте, а чтение serial monitor - на другом. объединение этого в один скрипт аля "залей новый код, сними логи в течение 15 секунд и верни в stdout" улучшило мою жизнь кратно.
4. правило "агент должен иметь возможность самостоятельно проверить результаты своей работы" известно, наверное, уже всем, но как же часто я вижу нарушения этого принципа с отмазками "ну, у нас такая среда, что не автоматизируешь". классические примеры: - tauri/electron-приложение: "мы не можем запустить фронт в playwright/встроенном-браузере, надо руками" - react-native / flutter: "ну, оно в эмуляторе / на телефоне гоняется, надо руками" - любительский embedded, etc
давайте честно: вам просто влом. за 20 минут работы агента (https://t.me/elkornacio/505) собирается элементарный runtime-eval-debug сервер, который для веб-приложений позволяет агенту кидать команды напрямую в любую среду (и можно ещё и ключевые части приложения прям в window прокинуть, для удобства). логи из фронта в tauri / electron / react-native / flutter тоже прокидываются минут за 5 (можно связкой "фронт шлёт логи на бек, бек пишет в файл"), без особых проблем. embedded прекрасно умеет слать данные датчиков и дебаг-инфу в serial, а оттуда агент умеет читать. в общем, не убеждайте себя, чтобы ваша среда уникальная: если действие происходит на вашем компе, и не связано с физическим миром, то автоматизировать можно всё.
5. "ой, я же сказал агенту, что после билда надо перезагрузить страницу, а он забыл, и тестировал старую версию, вот дурашка" - дурашка не он. если надо рестартить что-то после билда - (снова пункт 2) - добавьте это прям в скрипт билда. убирайте все места, где агент может выстрелить себе в ногу: если что-то не может работать без какого-нибудь сервера - вновь же, добавьте проверку на "запущенность сервера" прямо в скрипт. это 1 строчка, и сэкономленные часы.
6. пишите советы агенту прямо в stdout ваших скриптов. скрипт обнаружил, что отсутствует важный файл, необходимый для работы? выведите в stdout не только ошибку, но и информацию о том, что нужно сделать, чтобы этот файл появился. исключайте ситуации, когда агент не понимает, что делать дальше, и должен рисерчить кодовую базу в поисках ответа.
—
кидайте ваши лайфаки в комментах, буду рад что-то для себя почерпнуть 🙂
⚡️ https://openai.com/index/introducing-gpt-5-3-codex-spark/
ну и ещё одна сочная новость как результат коллабы OpenAI и Cerebras: новая модель на базе 5.3-Codex, > 1000 токенов в секунду (примерно в 5 раз быстрее классической).
контекст - 128k, пока только текст.
на SWE-Bench Pro и Terminal-Bench 2.0 показывает сильные результаты (заметно слабее флагманских моделей, заметно сильнее мини-моделей), но при этом ппц быстрее: улучшена вся latency-цепочка: −80% roundtrip overhead, −30% per-token overhead, −50% time-to-first-token (для WebSocket).
пока превью только для ChatGPT Pro (та, которая 200 баксов).
P.S. у меня пока доступа в Pro нет(
сегодня встретился с прикольным багом в Codex, которому, кмк могут быть подвержены и прочие агентные системы, в которых компакт не прерывает диалог.
закидываешь задачу, которая для решения требует больше инфы чем влезает в контекст. и дальше цикл: 1. агент читает инфу 2. контекст забился, срабатывает автокомпакт 3. агент замечает, что инфы для решения задачи не хватает, начинает дочитывать 4. снова автокомпакт, и так по кругу 🙂
на 10 автокомпакте пришлось остановить. с момента как я залип в gpt-5.2/codex-cli это чуть ли не первый кейс, когда задача оказалась принципиально не решаемой "в лоб", и агент само-рефлексией не справлялся. пришлось самому нарезать на подзадачи.
оцифровал все анализы за 10 лет в json, потом его же попросил привести все названия и единицы измерения к одному виду
давняя мечта была достигнута за час работы с codex
сейчас конвертну в markdown, зашвырну в ChatGPT Pro, и попрошу подобрать мне идеальное ширево под моё состояние 🙂
мой предварительный вердикт - интеллектом не блещет, но как prompt-to-action модель - кайф, если затащить ей какой-нибудь риалтайм режим, чтобы прям без хоткеев голосом ей команды закидывать беспрерывно, прямо во время чтения кода - то это очень удобно было бы.
но очень поверхностные решения, какие-то костыльные workaround'ы, и всё такое. при этом, контекст жрёт как не в себя, субъективно - раза в 3-4 больше файлов читает чем 5.3-codex. казалось бы, вся инфа об архитектуре есть, данных для нормальных решений, а не workaround'ов, более чем достаточно.
но давайте пока не сильно спешить с выводами - пару деньков погоняю, на разных тасках пощупаю, потом более детальный ревью закину.
хотите обзор самого главного в ИИ за этот год?
вот прям всю мякотку: от хардкорного ML / ИИ в разработке до взгляда на ИИ от бизнеса.
к тому же я там выступаю 🙂 с оч сочной темой: "AI в разработке: эволюция ИИ-агентов (CC/Codex/Gemini) в экосистемы, Context Engineering, и как ИИ влияет на метрики разработчиков".
конфа от тех же ребят, что делали AI Dev Live (напомню, одна из крупнейших ИИ-конф, 3к+ участников, я там на панельке был).
в программе: - Сдвиг парадигмы в управлении процессами, который все пропустили - Как в 2026 бизнесу отличить: где ИИ-фанатизм со сливом бюджета, а где ИИ-инструменты с реальной ценностью? - Почему одних разрабов ИИ бустит, а другие плюются от багов? Как укротить агентов и получать production-ready код от ИИ? - RAG мертв? Почему enterprise уходит от векторных баз к агентам, куда движется индустрия LLM-провайдеров и какое место у локальных AI-решений? - Кого и как нанимать в 2026 году? И, самое главное, что изучать, чтобы не уволили вас?
в общем, шикарная солянка контента от экспертных спикеров: парочка Head of AI, руководитель AI R&D-института, фаундеры и ко-фаундеры AI-first компаний: самый лучший состав, чтобы рассказать про ИИ со всех ракурсов.
⚡️ вот ссылка для записи на предновогодний эфир (все еще можно бесплатно!)
⚡️ ох, а что это у нас тут вышло
Claude Opus 4.5 - в 3 раза дешевле 4.1 (и этого уже было бы достаточно для вау), но это ещё и SWE Bench Verified SOTA (80% против 74% у Оpus 4.1 и 78% у GPT-5.1-Сodex-Max)
🙂
если что - Spark уже доступен в Pro, наслаждаюсь всё утро. скорость и правда имбовая + multiple tool calls тоже завезли (на видео хорошо видно, как он по 3 файла за раз вычитывает)