Codex

14 авторов упоминают этот инструмент

@atlfreedomРазработчик

@bearlogin_devРазработчик

@bogdanisssimoФаундер

@elkornacioРазработчик

@eugene_ridФаундер

ElKornacio20 февраля 2026 г.5.9K просмотров

заметил, что даже в около-ИИ тусах не все шарят за разницу между UI/harness/model. мне кажется, ситуация ещё усугубляется дегенеративным неймингом (Composer в Composer, Codex в Codex в Codex, вот этот вот весь адок).

оч коротко, и с упрощением (опустим мультимодальности, и прочие ньюансы): модель - это буквально LLM, "провайдер интеллекта", вы ей на вход даёте текст, она вам в ответ тоже даёт какой-то текст (вызов инструмента - это тоже текст, просто оформленный по особым правилам) harness - это "среда" вокруг модели: набор инструментов, который модели предоставляется (чтение/редактирование файлов/веб-поиск/etc), управление окном контекста (компактизация, сжатие) и вся низкоуровневая работа с моделью - прокидывание вспомогательной информации и правил в контекст модели, парсинг её текстовых ответов, etc. UI - это UI. ну то есть то, что вы видите на экране: интерфейс чата, кнопочки, diff views, и прочее.

скажем, у Cursor - своё harness и UI, но чужие модели (есть пара своих - Composer 1 / 1.5, но 90% трафика на модели Anthropic/OpenAI) а вот у Anthropic всё - модели (Sonnet/Opus), нативный harness (Claude Agent SDK), несколько UI (extensions для VSCode-like редакторов, Claude Code, Claude Desktop, etc) и у OpenAI тоже есть всё своё: Codex, Codex, Codex и Codex. ну ладно, если серьёзно: модели (gpt-5.2/gpt-5.2-codex/gpt-5.3-codex/etc), harness (codex app server), UI (extensions и Codex App под мак). OpenCode - нет своих моделей, но зато свой harness и UI (OpenCode CLI / OpenCode Desktop app).

при этом, есть примеры UI-only: скажем, Conductor (чистый UI, использует нативный harness codex app server/claude agent sdk), или JetBrains умеют в UI-only (тоже юзают нативные harness codex app server/claude agent sdk, но при этом умеют ещё и с собственным harness Junie работать).

почему это всё должно быть вам важно? rule of thumb: нативный harness (то есть когда вы используете модель компании X в harness компании X) в 99% случаев лучше любого не-нативного (то есть модель компании X, а harness компании Y). говорят, что OpenAI буквально до-тренировывает свои модели под их server-side compact-алгоритм, который использует codex-harness (app server). Anthropic затачивает тулы в Claude Code под то, на что они тренировали свои модели (то как происходит редактирование файлов), ну и так далее.

ну и хорошая иллюстрация по этой теме - уже ставший классическим пост, где Cursor оправдываются за то, почему в их harness модели OpenAI плохо работали, и как они стараются это исправить.

в общем, старайтесь использовать модели конкретного провайдера в harness от этого же провайдера, а UI выбирайте по вкусу и фичам. и будет вам счастье.

ElKornacio17 декабря 2025 г.5.7K просмотров

Сегодняшний апдейт лидерборда swe-rebench мне кажется одним из самых интересных за все время, по нескольким причинам:

1. Добавили целый ряд моделей: gpt-5.2, gpt-5.1-codex-max, Gemini 3 Pro, DeepSeek-v3.2, Devstral2. Все модели от openai теперь прогоняются через responses API с сохранением ризонинг блоков. И все модели по-своему интересны: – gpt-5.2 прыгнула на самый верх и теперь соревнуется с Sonnet/Opus 4.5. А главное посмотрите на кол-ве потраченных токенов в среднем на задачу – почти как gpt5-minimal. – gpt-5.1-codex-max сильно лучше gpt5-codex, но на фоне других моделей от openai не так уж выделяется. – Gemini 3 Pro – огромный скачок в агентских задачах по сравнению с 2.5 Pro. Оффтоп, но это моя любимая модель на текущий момент в бытовом пользовании, не могу народоваться фиче с нативной обработкой видео. – DeepSeek-v3.2 – новая сота в open-source, но также и сота по потреблению токенов 💀 – Devstral2 выглядит очень неплохо. Вроде как незаметный релиз от Mistral врывается в топ open-source моделей. – Не забывайте, что к ранжированию нужно относиться осторожно, задач не так много и доля случайности все еще большая, даже несмотря на усреднение по 5 ранам. Но общая картина думаю понятна хорошо. 2. Добавили Claude Code как reference сота агента 🎉 Режим запуска указан в инсайтах. 3. Для прозрачности Cost per Problem, добавили колонку Cached Tokens, как минимум для понимания, включен у модели кэшинг или нет.

EDU19 января 2026 г.5.4K просмотров

Claude, Codex и Gemini CLI заходят в бар...

На выходных работал с дружбанами над качеством принимаемых нами решений и сделал небольшую утилиту, которая в лучших традициях мульти-модельного мышления делает следующее: 1) На стриме я говорил, что codex зачастую ревьюит работу claude code, и наоборот. И что я делаю это руками - копипастю одно другому, и так пока не устану дойдем до совершенства

2) Собственно это и решил автоматизировать —> вместо того, чтобы самому переключаться между CC/codex/gemini cli решил скоординировать их - пусть сами обсуждают задачу и приходят к консенсусу. Убрал человека из уравнения ахахах

3) сделал 3 режима: - Deliberation: один агент генерит, другой ревьюит. Итерируют, пока не договорятся. - Council: все отвечают параллельно, потом анонимно оценивают ответы друг друга, председатель синтезирует. Похоже на Карпатовский llm council - Debate: два агента спорят (аргументы за/против), а судья - 3я модель - выносит вердикт.

Эдакое новое прочтение rubber duck debugging —> "уточек" три и они спорят между собой.

В аттаче скриншоты с примером работы —> помогло лучше спланировать архитектуру и MVP для одного проекта .

К чему я это? Как я говорил на стриме, у каждой модели свой характер, свои сильные и слабые стороны, и поэтому "триангулировать" между ними порой очень полезно.

Поэтому рекомендую брать на вооружение 🤖🤖🤖

P.S. Открыл набор на 2ю когорту AI Productivity - там мы на 4й встрече как раз разбираем принцип мульти-модельного мышления

EDU21 января 2026 г.4.8K просмотров

Retain - архив ваших чатиков с AI

Иногда, хочешь найти переписку с дружбаном, но не помнишь, где именно ее делал: то ли в claude, или в claude code, а может в codex, или chatgpt.

Чтобы решить это сделал небольшую программку для Мака: импортирует все ваши чатики из Claude Code/Codex/ChatGPT/Claude.ai и дает поисковик по ним - см картинки в аттаче.

В будущем, будет еще предлагать как автоматизировать повторяющиеся паттерны-задачи, что вы им даете, какие скиллы создать или скачать. Де-факто это эволюция Claude Reflect

https://github.com/BayramAnnakov/retain

enjoy! если будут пожелания - лучше создавать github issue.

EDU22 декабря 2025 г.4.3K просмотров

Скилл для создания chatGPT аппов

Помните, я писал про свой первый ChatGPT апп? На днях OpenAI анонсировали-таки свой магазин приложений и теперь можно сабмитить свои аппы.

Чтобы помочь вам в этом я сделал Claude/Agent Skill, который: 1. Помогает оценить, подходит ли ваш продукт для ChatGPT Apps (Know/Do/Show фреймворк, описанном в этом гайде от OpenAI) 2. Генерирует MCP сервер на Node.js/TypeScript с готовыми шаблонами 3. Создает React виджеты с поддержкой тем ChatGPT 4. Настраивает OAuth 2.1 аутентификацию (включая self-hosted вариант!) 5. Готовит к деплою на Fly.io и сабмишену в стор

Скилл соответствует теперь уже открытому стандарту AgentSkills и провалидирован через skills-ref.

Использовать лучше с Claude Code или Codex, потому что он не просто помогает продумать приложение, но и закодить его. Просто попросите его

use the chatgpt-app-builder skill to evaluate if my product should become a ChatGPT App and actually build it

Enjoy!

EDU4 марта 2026 г.4.1K просмотров

Чему AI-агенты могут научиться у C++

Мы недавно поняли, что давая агенту слишком много инструкций, мы его "тупим": буквально ограничиваем, а не помогаем. И недавно Jeff Dean, Chief Scientist в Гугле, запостил их гайд по оптимизации C++ и там несколько забавных параллелей c AI агентами (в том числе на тему "делать тупее"):

1) Оптимизации, потерявшие актуальность В C++ оптимизации под старое железо начинают вредить на новом. Inline assembly из 2008 года сегодня медленнее нативного кода, потому что компилятор стал умнее.

В агентах имхо похожее. К примеру, системный промпт Codex сократился на 66% при переходе с o3 на GPT-5: убрали инструкции как планировать, как работать с гитом, как валидировать, поскольку модель уже это знает.

В ту же тему Anthropic в гайде по eval-ам пишет, что лучше оценивать, достиг ли агент цели, а не конкретный путь, которым он шёл. Цели > пошаговые инструкции.

Кстати, сегодня выложили классный скилл по эвалам - рекомендую!

2) Односторонние двери решения Безос разделяет решения на обратимые и необратимые ("односторонние двери"). Jeff Dean упоминает эту же идею в контексте разработки.

В уже упомянутом гайде от Anthropic выделяется 2 типа эвалов: - pass@k (хотя бы одна из k попыток успешна —> как генерация кода пока тесты не пройдут) - pass^k (каждая из k попыток должна быть успешной —> как отправка писем клиентам).

Пример: агент шлёт 5 холодных сообщений, каждое с 90% шансом быть адекватным. Вероятность, что ВСЕ 5 ок: 0.9⁵ = 59%, то есть надёжность падает экспоненциально.

Отсюда правило: необратимое действие (email, перевод денег) должно проверяться или человеком (human-in-the-loop) или детерминистически. Обратимое (черновик, анализ) - можно особо не париться, пусть фейлит тесты, пока не справится.

3) Агент "падает" до уровня своего harness-а Помните James Clear: "Вы не поднимаетесь до уровня своих целей. Вы падаете до уровня своих систем."

В C++ совет звучит так: не полагайтесь на чеклисты, закодируйте проверки в автоматизацию. Проверки до запуска (compile-time) > проверки после (runtime).

По аналогии, агент не поднимается до уровня своего системного промпта, он падает до уровня своих "подпорок" (harness-а). В условном Claude Code можно настроить хуки - детерминистические проверки до и после каждого tool call:

pre_tool_call: if tool == "send_email" and not draft_mode: reject("Requires human approval")

Это compile-time проверки для агентов, которые не зависят от их "настроения" сегодня.

4) Numbers Every AI Engineer Should Know Jeff Dean когда-то составил таблицу временных затрат "Numbers Every Programmer Should Know". Я подумал, что прикольно будет ее адаптировать для AI агентов, что-то в стиле:

Локальная БД: ~10 мс Чтение файла: ~50 мс Поиск по коду (grep): ~100 мс Vector/embedding поиск: ~100 мс Облачная БД: ~100 мс LLM (Haiku/Flash): ~1 с / ~$0.001 LLM (Sonnet 4.6 / GPT-5.2): ~3 с / ~$0.005 Web search API: ~2 с / ~$0.005 Web page fetch: ~3 с / ~$0.01 LLM (Opus 4.6): ~4 с / ~$0.01 LLM (Sonnet 4.6 + reasoning): ~15-30 с / ~$0.03 LLM (Opus 4.6 + extended thinking): ~30-60 с / ~$0.10 Мульти-агент (10 turns, Sonnet 4.6): ~3 мин / ~$0.50 Ревью человеком: минуты-часы / $$

Диапазон: от 10мс до часов ~6 порядков. И тот же вывод, что у Dean-а: знай, где твоё узкое место: если агент делает 10 вызовов Opus, когда хватило бы 1 Opus + 9 Haiku — ты переплачиваешь 10x и по времени, и по деньгам. Особенно, если ретрай допустим (см. pass@k пункт выше)

===

Итого: - С каждым апгрейдом модели - (потенциально) подчищаем промпты - Выделяем действия агента на обратимые vs необратимые, ставим human in the loop в последних - Добавляем детерминистические проверки, чтобы не дать агенту делать ненужные ошибки - В голове и на бумажке прикидываем стоимость операций - не используем ли мы условный Opus там, где хватит Haiku? Кстати, надо сделать skill на эту тему наверное, м?

Миша Наер25 января 2026 г.4.1K просмотров

С осени 2025 года (и особенно в январе) начался дикий хайп вокруг Claude Code.

Не хочу показаться дедом и хейтером, просто напомню:

1. Чтобы нормально вайбкодить и не упираться в лимиты на Claude, нужно покупать подписку Max за 100 баксов в месяц 2. Если вы платите за ChatGPT Plus, то у вас там из коробки идет OpenAI Codex (аналог Claude Code) 3. По лимитам Codex на подписке Plus гораздо щедрее Claude на подписке Pro 4. По бенчмаркам gpt 5.2 и opus 4.5 выдают примерно одинаковый результат

Получается, если вы платите за ChatGPT, то получаете из коробки Codex за 0 долларов против Claude Code за 100 долларов в месяц.

Про то, как поставить себе Codex писал тут

dev.insuline.eth16 марта 2026 г.4.0K просмотров

insuline – 2 agen.ts (ft claude & codex)

https://youtu.be/F5KQUr6oj4g

трек в комментариях ↓

Миша Наер3 февраля 2026 г.3.6K просмотров

В Xcode 26.3 завезли полноценный agentic coding

Раньше поддержка LLM была кастрированной, а теперь подрубаешь Codex/Claude и модель получает полный доступ к архитектуре проекта, снэпшотам, логами и тд. Здорово

Пресс релиз: https://www.apple.com/newsroom/2026/02/xcode-26-point-3-unlocks-the-power-of-agentic-coding/

Демо: https://developer.apple.com/videos/play/tech-talks/111428/

рис. AI18 марта 2026 г.2.3K просмотров

🧙‍♂️ Мой AI стек в марте 2026 года (или AGI у нас дома)

В прошлой жизни... Год назад снял видео про лучший флоу тогда — перекидываем контекст между o3 и Claude 3.7 через repoprompt. о3 - пишет план, а Клодик делает.

После появился Опус, в Клод Код добавил exa с superpowers и больше ничего не надо было.

В последние две недели рабочая схема моего личного AGI выглядит вот так: 1. Claude Code + Claude Opus 4.6 → предпроектная подготовка → промпты + спека 2. GPT-5.4 Pro (веб) → рисеч + (ux / prd / контракты) 3. Клодик →План имплементации → Codex (GPT-5.4)

✏️ гайд:

Этап 1. Требования. Claude Code + Claude Opus 4.6 (1M, effort: max) + Superpowers

Общение похоже на общение с человеком (продактом). Почти всегда свои запросы заканчиваю /brainstorm — это вызов скилла из пака Superpowers. Не дают агенту ничего делать, пока не уточнит, что ты хочешь.

Если нужен анализ (а он часто нужен) — прошу запустить 10 субагентов для сбора контекста на локальной тачке и прогнать через триаж. Это как совет директоров: несколько агентов собирают всю информацию которую только можно собрать и бьют по идее с разных сторон, подсвечивая слепы зоны.

Выход этапа: промпты + спецификация в папку под гитом + пуш (новый ишью + ветка если это фича для проекта) .

Если нет выхода этапа — зря потратил время.

Этап 2. Оракул. GPT-5.4 Pro

Доступ к гению + суперкомпьютеру за 200 баксов в месяц, использовать можно только в вебе по подписке ChatGPT Pro. Может скушать 1м контекста (это много) на вход прямов веб интерфейсе.

Содержимое первого этапа (промпты + спека + контекст) перекидываю через repoprompt: открываю проект, выбираю файлы, получаю их содержимое в в один промпт в буфер обмена.

Дальше в веб → CTR.. CMD + V + история что делаешь и что хочешь

За 15-30 минут прогоняет тысячи источников и дотошно перепровряет перед тем как выплюнуть ответ.

Промпт: проблема + результат + формат (UX / контракты / PRD / промпт для агента-кодера).

Поддерживает стиринг докидываешь мысли в процессе после отправки, и они будут учтены — мастхев фича, потому, что ответ генерируется 30 минут.

Ссылку на чат сохраняю — это теперь наш CTO + COO проекта, добро пожаловать в команду.

Этап 3. Имплементация → Claude Code + Codex (GPT-5.4 xhigh fast)

Обратно в Claude, в ту же папку. Результат второго этапа + /writing-plans в конце, это ещё один Superpowers-скилл: план имплементации, TDD.

Для уточнения иногда ухожу обратно за консультацией к суперкомпьютеру.

Готовый план → Codex (GPT-5.4, reasoning: xhigh) + скилл $justdoit, он собирает контракты на проверку + собирает файл agents.md для Кодекса.

Суперсила кодекса в этом флоу — автономная работа с e2e тестированием, агент сам открывает браузер или телеграм и проверяет, что все работает как надо или уходить чинить пока не заработает (MCP Devtools для браузера если это веб и Telethon если продукт живет в Телеграмме)

Ухожу варить борщ, как кодекс сделает — напишет в скайп... телеграмм

Стоимость сетапа (март 2026) : 200$ GPT PRO + 200$ MAX x20 + $15 Repo prompt

dev.insuline.eth2 марта 2026 г.2.1K просмотров

Мой AI-сетап FW2026

Claude Code за $100. Планирование и agentic таски: перс ассистент, сетап VDS, всё что требует контекст и рассуждение. Планирование через superpowers

Codex за $200. Чисто code execution. Все матёрые OG разрабы пишут на нём. Плох в планировании и вайб-кодинге, когда не знаешь чего хочешь. Но если знаешь — улетает.

Ещё один трюк — cross-review. Задачу оформляю в Claude Code через брейншторминг, собираем план и финал скидываю кодексу на проверку. Кодекс доточенный к деталям: хорошо ловит ситуации когда хотим реализовать функцию, но забыли поддержку в другом месте или тест не написали. Клод чаще соглашается. Кодекс ищет.

IDEшка Zed, но в 90% случаев хватает Ghostty. Ещё понравился Codex App: удобный интерфейс для ревью изменённых файлов, работает быстро. Жду T3Code от Theo.

Был бы broke – оставил только кодекс. Токенов в разы больше, модели с контекстом работают лучше. Клод даже за один небольшой промпт у меня 30-40к контекста съедает при отсутствии system prompts и mcp. При этом работаю часто в 2-3 потока одновременно и на кодексе до 50% лимита ни разу не добирался, а клод периодически отлетает.

Antigravity не пробовал, как и курсор. Не очень понимаю как посредники работают с моделями.

Gemini пока не тестировал, но хочу скоро потестить с Pi agent. Модель вроде до сих пор плохо работает с tool calling.

BOGDANISSSIMO9 марта 2026 г.2.1K просмотров

Работать надо не 8 часов в сутки, а Codex'-ом

BOGDANISSSIMO27 января 2026 г.1.9K просмотров

Осенью Andrej Karpathy, ко-фаундер OpenAI, Director of AI в Tesla и человек, на Стенфордских курсах которого выросли многие специалисты, ходил на подкаст, где рассказал про свой опыт работы с кодинг агнетами. Он говорил, что вот в его задачах шаг влево шаг вправо — и работает плохо, делает не то, что хочет автор, а то, как это делают обычно.

Скептики (к которым на тот момент наверное можно было отнести и самого Karpathy?) сразу же пользовались этим как примером того, что ни в какой реальной работе никакие агенты не помогают, что это всё слоп, и ни для чего серьёзного не годится.

Прошло 3 месяца, вышли GPT-5.2 и Opus 4.5, и... дед Andrej развернулся на 180 градусов 😏 описав свой опыт в длинном твиттер посте. Весь пост переводить не буду, тезисно:

— Возможности LLM-агентов (особенно Claude и Codex) примерно в декабре 2025 года перешагнули некий порог связности, вызвав фазовый сдвиг в разработке ПО и смежных сферах.

— Учитывая этот скачок, я, как и многие другие, стремительно перешел от режима «80% ручного кода и 20% агентов» в ноябре к «80% кода от агентов и 20% правок и доработок» в декабре. То есть теперь я действительно программирую преимущественно на английском языке.

— Это, безусловно, самое масштабное изменение в моем базовом рабочем процессе за ~20 лет программирования, и произошло оно всего за несколько недель. Полагаю, что нечто подобное происходит уже у значительной части инженеров (двузначный процент), в то время как осведомленность широкой публики об этом явлении находится где-то на уровне малых единиц процентов.

— Самая распространенная категория ошибок агентов заключается в том, что модели делают за вас неверные допущения и просто продолжают работать на их основе, ничего не перепроверяя и не уточняя у вас.

— Несмотря на все проблемы, в сухом остатке это колоссальный шаг вперед, и очень трудно представить себе возвращение к ручному написанию кода.

— Очень интересно наблюдать, как агент упорно работает над задачей. Они никогда не устают, не падают духом, они просто продолжают перебирать варианты там, где человек уже давно бы сдался, отложив проблему на завтра. Наблюдать, как агент долгое время бьется над чем-то и спустя 30 минут выходит победителем — это тот самый момент, когда «чувствуешь присутствие AGI».

— Непонятно, как измерить «ускорение» от помощи LLM. Безусловно, я чувствую, что справляюсь с запланированными задачами намного быстрее, но главный эффект заключается в том, что я делаю гораздо больше, чем собирался. Во-первых, я могу реализовать множество вещей, на которые раньше просто не стоило тратить время, а во-вторых, я могу браться за код, к которому раньше не мог подступиться из-за нехватки знаний или навыков.

— Написание кода с помощью LLM разделит инженеров на тех, кто больше любил сам процесс кодинга, и тех, кому больше нравилось создавать (строить) продукты.

— Я уже заметил, что моя способность писать код вручную начинает потихоньку атрофироваться.

— Что станет с понятием «10-кратного инженера» (соотношением продуктивности между средним и топовым специалистом)? Вполне возможно, что этот разрыв СИЛЬНО увеличится.

— Как будет ощущаться программирование с LLM в будущем? Как игра в StarCraft? Как игра в Factorio? Или как исполнение музыки?

dev.insuline.eth3 марта 2026 г.1.8K просмотров

проснулся. @ gm @ чекнул whoop - recovery 98% @ выпил литр кофе @ закинул 10 ноотропов @ прыснул в нос ещё ноотропов и пептиды @ проглотил 40 витаминов @ мухомор, ежовик и теанин по маркаряну @ открыл энергетик @ "скучаю но работаю" на репит @ 8 часов смотрел как опус кодит @ с кодексом обсуждаем со стороны @ ни с кем не поговорил. @ лёг спать.

Life is good 🥰

BOGDANISSSIMO8 марта 2026 г.1.8K просмотров

Небольшой лайфак как повысить эффективность кодинга у OpenClaw

Вместо того чтобы говорить ему сделать Х в репозитории Y, я говорю ему запускать сессию Codex CLI и выступать не исполнителем, а заказчиком. То есть Openclaw сам не кодит, а только промптит в Сodex CLI.

Профит: 1. Не раздуваем контекст основного агента 2. Даем GPT модельке пользоваться инструментами из интерфейса, под который она изначально заточена

Все это заворачиваем в SKILL, добавляем всякие доп инструкции (в каких ветках работать, как тестировать и т.д.). Получается вполне рабочий инструмент, через который удаленно внедрять небольшие фиксы в пет-проектах.

Полный текст скилла (разумеется, вместо Codex можно использовать Claude или другие аналоги): --- name: codex-interactive-defaults description: Standard launch and delivery policy for interactive Codex CLI sessions in OpenClaw. Use whenever running Codex interactively (single task or multi-turn coding), to keep output compact, force GPT-5.4 with high reasoning effort, and default repository work to dedicated branch plus final PR. ---

# Codex Interactive Defaults

## Launch Policy (Always Apply)

For every **interactive** Codex run, launch Codex with this baseline:

```bash codex --no-alt-screen --model gpt-5.4 \ -c model_reasoning_effort="high" \ -c hide_agent_reasoning=true \ -c model_reasoning_summary="none" \ -c model_verbosity="low" ```

## Required Constraints

- Pin model to `gpt-5.4` by default. - Set `model_reasoning_effort="high"` by default (highest documented effort level). - Override model/reasoning only when the user explicitly asks for a different setup. - Keep `pty:true` when starting Codex from OpenClaw `exec`.

## Git Workflow Defaults (Branch + PR)

For repository-backed coding tasks, use this as default workflow unless the user explicitly says otherwise:

1. Create/switch to a dedicated branch **before** implementing changes. 2. Do not implement changes directly on `main`/`master`. 3. Implement and commit changes on that branch. 4. Push branch and open a PR. 5. Report the PR URL in the final update.

If branch push/PR creation is blocked by missing remote/auth/permissions, still complete branch + commits and report the exact next commands needed to open the PR.

## Prompting Rule (Mandatory)

When sending a coding prompt to Codex for repository-backed work, explicitly include both instructions below in the prompt text:

1. **Start on a new branch first** (create/switch branch before any edits). 2. **Finish with a PR** (push branch and return PR URL, or provide exact next commands if PR cannot be opened automatically).

Use explicit wording in the prompt (do not assume defaults are enough). Example phrase to include:

- "Before making any code changes, create and switch to a new branch for this task. Do not work on main/master. After implementing, push the branch and open a PR, then return the PR URL."

## OpenClaw Execution Pattern

1. Prepare working directory (often temp + `git init` for scratch work). 2. For repo-backed tasks, create/switch to a dedicated working branch. 3. Start interactive Codex with `pty:true` and the baseline flags above. 4. Use `process` actions (`submit`, `paste`, `send-keys`) for follow-up turns. 5. Finish with pushed branch + PR when repository context allows. 6. Kill/exit session when task is finished.

## Command Templates

### Start session in target directory

```bash # via OpenClaw exec tool command: codex --no-alt-screen --model gpt-5.4 -c model_reasoning_effort="high" -c hide_agent_reasoning=true -c model_reasoning_summary="none" -c model_verbosity="low" pty: true workdir: <target-dir> background: true ```

### Start temp scratch session

```bash TMPDIR=$(mktemp -d /tmp/codex-demo-XXXXXX) cd "$TMPDIR" git init -q codex --no-alt-screen --model gpt-5.4 -c model_reasoning_effort="high" -c hide_agent_reasoning=true -c model_reasoning_summary="none" -c model_verbosity="low" ```

Мысли Рвачева5 марта 2026 г.1.7K просмотров

⚡️⚡️⚡️ OpenAI выпустили GPT-5.4 - новая топовая модель уже доступна в ChatGPT, API и Codex.

GPT-5.4 объединяет в одной модели advances в reasoning, coding и agentic workflows. Доступно две версии: GPT-5.4 Thinking (с расширенным режимом "размышления") и GPT-5.4 Pro.

Из того, что известно: контекстное окно выросло до 1М+ токенов (у GPT-5.3 было 400K), появился "extreme" thinking mode, который выделяет значительно больше вычислительных ресурсов на сложные задачи. Модель лучше справляется с длительными задачами на несколько часов и делает меньше ошибок в многошаговых воркфлоу.

https://openai.com/index/introducing-gpt-5-4/

#openai #gpt #ai #llm #coding

————————— Мысли Рвачева —————————

рис. AI13 марта 2026 г.1.7K просмотров

ДЖАСТДУИТ — скилл для Кодекса который закрывает задачи с первого раза.

$justdoit помогает превратить ЛЮБУЮ задачу в план для автономной работы

Сначала скилл смотрит, что уже есть в проекте, чтобы не придумывать работу в отрыве от реальности.

После вызова скилл генерирует три опорных документа: 😥 план работ по шагам (plans.md) 😥 текущий статус, чтобы можно было продолжить позже (status.md) 😥 список проверок, чтобы было понятно, как убедиться, что результат реально работает (test-plan.md)

После одобрения плана агент переходит в режим исполнения: 🏹 идёт по шагам, проверяет результат после каждого этапа, фиксирует статус и продолжает работу, пока не завершит задачу.

использование в Codex: твоя идея + $justdoit

🖱 https://github.com/serejaris/justdoit 🖱

BOGDANISSSIMO27 февраля 2026 г.1.6K просмотров

Как известно, «Sam has a superpower: recruiting and raising money. That's what he's like a God at».

Сегодня OpenAI объявляют о привлечении 110 миллиардов долларов в качестве инвестиций.

30 от SoftBank, 30 от Nvidia (как пишут в онлайн-газетах — это взамен 100 миллиардов, объявленных в прошлом году и привязанных к постройке ДЦ), и 50 — от Amazon.

15 миллиардов от Amazon будут доступны сразу же, оставшиеся 35 после выполнения некоторых условий. Официальные источники не говорят, что это за условия, но TheInformation на днях писали про ранние этапы обсуждений: выход на IPO или создание AGI 😳

Кроме этого, OpenAI теперь будет использовать чипы от Amazon — Trainium (Anthropic уже давно на них сидят). Будет использоваться чипов как минимум на 2 ГигаВатта энергии.

Также в анонсе говорится, что недельная аудитория Codex увеличилась в 3 раза с начала года и достигла 1.6 миллионов пользователей. Всего за ChatGPT платит более 50 миллионов человек, а общая аудитория превышает 900 миллионов в неделю — компания снова вернулась к росту после спада в ноябре-декабре.

Оценка компании ннаходится где-то около $800B, что делает её 15-16 самой крупной в мире.

рис. AI6 октября 2025 г.1.5K просмотров

OpenAI DevDay 2025 — что ждём сегодня, 20:00 МСК

Шорт-лист ожиданий: — Замена n8n от OpenAI — Sora 2 / 2 Pro в API — обновления Codex — Kanzi Studio (эволюция Canvas) — Agent v2 + Browser — апдейты Custom GPTs и GPT Store — апдейты GPT-Image, включая GPT-Image Mini

Стримлю через 25 минут, смотрим вместе и разбираем всё по делу. Подключайся: https://youtube.com/live/O8mxG58VEds

Мысли Рвачева6 марта 2026 г.1.5K просмотров

🛡🛡🛡 OpenAI запускает Codex Security - набор инструментов для автоматического поиска уязвимостей в коде.

GPT-5.3-Codex стала первой моделью, которую OpenAI классифицировала как "High capability" для задач кибербезопасности. Это первая модель, которую целенаправленно обучали находить уязвимости в софте. При тестировании на внешних репозиториях она нашла около 800 критических и более 10 500 высокоприоритетных проблем.

Главный продукт линейки - агент Aardvark. Он автономно анализирует репозиторий, строит threat model проекта, сканирует каждый коммит на уязвимости и пытается эксплуатировать найденные баги в изолированной среде. Если уязвимость подтверждается - генерирует патч через Codex. За время бета-тестирования Aardvark нашел уязвимости, которым присвоили 10 CVE-идентификаторов. Теперь OpenAI расширяет бету и предлагает бесплатное сканирование для популярных open-source проектов, включая Next.js.

Отдельная история - Trusted Access for Cyber. Это программа контролируемого доступа к кибер-возможностям модели. Запросы с повышенным риском автоматически перенаправляются на менее способную GPT-5.2. Для легитимных исследователей безопасности есть отдельная заявка на полный доступ. Плюс OpenAI выделяет $10M в API-кредитах на защиту open-source и критической инфраструктуры.

Интересный кейс: в декабре 2025 инженер из Privy (компания Stripe) за одну неделю с помощью GPT-5.1-Codex-Max нашел несколько ранее неизвестных уязвимостей в React Server Components, которые были ответственно раскрыты команде React.

https://openai.com/index/codex-security-now-in-research-preview/

#openai #codex #cybersecurity #ai #aardvark

————————— Мысли Рвачева —————————

Часто упоминают вместе с Codex

ChatGPT87%Claude66%Cursor69%MCP46%Gemini43%Copilot13%