ElKornacio
@elkornacio·Разработчик
AI-саммари
Провозгласил смерть ownership кода раньше, чем это стало мейнстримом — и теперь подкрепил аналогией: жаловаться на то, что «ИИ пишет не так» — всё равно что возмущаться ассемблером, в который компилируется JavaScript. Пересоздал SaaS за $17 вместо $20 в месяц подписки, MCP разнёс как «бессмысленное решение собственноручно созданной проблемы», compound-стартап с масштабированием обсуждает всерьёз — и тут же добавляет «не получится конечно, лол». AGI к 2027 уже не маркетинг, ASI к 2027–2028 — вполне реалистичный горизонт; дилемма монорепо vs. раздельные репы для параллельных агентов — живая боль. Разносит нарратив про AI-слоп: наблюдая ~20 команд, видит обратное — с агентами тесты, CI, линтинг и рефакторинг становятся нормой, недоступной раньше даже top-1% команд. Гоняет Codex CLI с gpt-5.2 и Claude Code в 3–4 параллельных потока; workflow пакует в bash-скрипты ради гарантированной повторяемости. Потестил subagents в Codex в бете — нашёл реализацию слабее, чем у Claude Code. Rule of thumb не меняется: нативный harness (модель компании X в harness компании X) в 99% случаев лучше любого стороннего.
а вот и релиз бенчей, и карточка модели подъехали (GLM-5).
в целом - сравнима с Opus 4.5 (не путать с 4.6). где-то чуть ниже, где-то чуть выше, в целом - рядышком.
между тем, зайки тихо дропнули GLM-5. бенчей никаких пока недоступно, да и ещё даже карточку модели на HF залить не успели, поэтому вот хотя бы параметры можете посмотреть.
как только будут независимые бенчи (в идеале хочу дождаться artificial analysis) - пошерю тут.
https://cursor.com/blog/composer-1-5
мдааааааа, ни одного норм бенча, цена выше соннета, и, похоже, в щедрые лимиты «авто» не попадает.
чтож Курсор-то так сдаёт, а…
сегодня встретился с прикольным багом в Codex, которому, кмк могут быть подвержены и прочие агентные системы, в которых компакт не прерывает диалог.
закидываешь задачу, которая для решения требует больше инфы чем влезает в контекст. и дальше цикл: 1. агент читает инфу 2. контекст забился, срабатывает автокомпакт 3. агент замечает, что инфы для решения задачи не хватает, начинает дочитывать 4. снова автокомпакт, и так по кругу 🙂
на 10 автокомпакте пришлось остановить. с момента как я залип в gpt-5.2/codex-cli это чуть ли не первый кейс, когда задача оказалась принципиально не решаемой "в лоб", и агент само-рефлексией не справлялся. пришлось самому нарезать на подзадачи.
вы не поверите, но чатгпт объяснил мне, что сидеть на диване с тахикардией после 2 банок редбулла - это не кардио-тренировка 😼
но в целом - вайб "раньше консультации такого уровня стоили 20-30к в EMC, а сейчас я получаю их аналог быстрее, дешевле и даже с большей внимательностью к деталям". к примеру, расследуя гормональный сбой (штука, которую я пытаюсь расследовать уже ~10 лет), он заметил, что у меня вообще-то недалеко преддиабет (2 диабета в семейном анамнезе, и инсулин 12-16 последние 4 года).
в целом, если вы ипохондрическая булочка или у вас нет хоть какого-нибудь самого начального био/мед бекграунда - лучше читать все рекомендации chatgpt with a huge grain of salt, и лучше пропускать их все через адекватного врача в адекватной клинике (привет, Чайка/Скандинавия).
но в остальном: ~80 анализов крови с ~500-600 data point'ами умещаются в < 10% контекста ChatGPT, и получить такой уровень внимания сразу ко всем деталям одновременно - это очень сочный юзкейс, который с трудом достижим для обычного человека.
P.S. ChatGPT Pro - мне прям нравится. хороший аналог deep research, только по ощущениям - чекает больше источников, и вместо полотен текста выдаёт довольно упакованные блоки информации.
оцифровал все анализы за 10 лет в json, потом его же попросил привести все названия и единицы измерения к одному виду
давняя мечта была достигнута за час работы с codex
сейчас конвертну в markdown, зашвырну в ChatGPT Pro, и попрошу подобрать мне идеальное ширево под моё состояние 🙂
в один вечер, лол 🙂
⚡️ Opus 4.6 https://www.anthropic.com/news/claude-opus-4-6
⚡️ GPT-5.3-codex https://openai.com/index/introducing-gpt-5-3-codex/
P.S. для контекста - Opus 4.6 проигрывает в SWE Verified Opus 4.5, но побеждает в Terminal Bench с лёгким отрывом (65.4% против 59.8%). В то же время GPT-5.3-codex доминирует и там и там, причем в terminal bench с диким отрывом - 77.3%
чет неделя философских дум, посты в голову не идут, так что пока в режиме тишины. по Codex app - nice, чутка сыровато, но юзабельно. хотя принципиальных причин пересесть в него с cli я назвать не могу - но, думаю, через 1-2 месяца это точно станет более стандартным способом юзать codex, чем cli.
btw, из недавно прочитанного и сочного, рекомендую: https://www.astralcodexten.com/p/sota-on-bay-area-house-party
https://openai.com/codex/
пока бегло потестил, в течение 1-2 дней дам более подробное ревью. главный волнующий меня вопрос - работал ли так же хорошо, как и Codex CLI (причин сомневаться особо нет, но вдруг). в общем, эксперементирую, и вам советую
давно я не смеялся от ответа ИИ в голос вот с этого "если честно"
в последние дни часто кручу в голове одну и ту же мысль.
в контексте ИИ-кодинга и вайб-кодинга из каждого утюга звучат насмешки про то, какого качества код получается. кеки про "профессию разгребателя вайб-кода", уже до ужаса заезженные шутки аля "зацените мой сайт: [ссылка на локалхост]" и всё такое. многоголосый нарратив как будто един: софта станет больше, но его качество заметно снизится. в этих шутках есть смысл: кодовые базы не-разработчиков и правда пока что ещё сильно деградируют со временем под грузом технического долга. но я часто вижу это же мнение и про ИИ в руках разрабов - мол, идёт штамповка AI-слопа, который потом умудрённые седовласые старцы на этапе ревью должны брезгливо разгребать.
так вот: я вижу прямо противоположенное. за прошлый год я послеживал за использованием агентов в ~20 командах и обсуждал опыт с кучей разрабов, и если в каких-то вещах и есть различия, то вот в культуре разработки сценарий почти всегда один: с агентами она радикально развивается.
ИИ отлично пишет тесты, и этим пользуются все. иногда он упускает какие-то edge-кейсы - но это вопрос одного уточнения, и получить 90%+ coverage на проекте - практически бесплатная по ресурсам задача. с ИИ сделать github workflow который будет гонять post-commit проверки - элементарно, дополнительных знаний не нужно. причесать докерфайлы до good practice? one-shot. можно словами описать примерный набор enforced правил, которые хочется иметь в линтере, и получить идеально настроенные линтинги за минуту. хочется большего? ИИ безошибочно пишет кастомные линтинг-правила за секунды. многие из вас когда-то вручную писали собственные линтинг-правила? это не просто высокая культура качества кода - это уровень top-1% команд, который теперь доступен всем. разбить модуль на семантические составляющие? провести рефакторинг куска кодовой базы, выделив новую абстракцию? plan-and-implement, в 90% случаев - one-shot. многие из вас без шпаргалки легко напишут пачку bash-скриптов, качественно подтюнят nginx-конфиг, закроют в ufw лишние порты, и причешут доступы к серверу? ИИ без малейших усилий всё настроит по best praсtice.
причем, все эти вещи происходят органично - когда агент штампует код как ненормальный, иметь автоматические проверки, тесты, статические анализаторы - это практически необходимость, а иметь нормальную бранчинг модель - ключ к параллельным агентам.
на всех проектах, где я видел серьёзное внедрение агентов в процесс, культура качества не просто не деградировала - она улучшалась кратно.
вообще забавно, вайб начала 2025, только на лютых стероидах.
наблюдаю, как небольшое отличие в тулинге или настройке среды буквально отличает x1.5-x2-x3 результат от x5-x8-x10. чуть более причесанная автономность агента, чуть лучшая архитектура проекта для расширяемости, чуть лучшая структура тестов, и каждые -10% бебиситтинга приводят к дополнительным иксам. тут бы самое место какой-нибудь курс вам продать, но увы 🙂
—
вообще у меня какой-то сильный тектонический сдвиг в сознании в последние дни происходит, в каком-то экзистенциально-философском смысле. меня тяжело уличить в ИИ-отрицании, скорее наоборот, но я всё таки смотрел последние пару лет на ИИ как на очень удобный инструмент, снимающий рутину, ускоряющий определенные части работы, в общем - тулинг.
я верил, что AGI-like истории с оооочень высокими уровнями автономности - это достижимо, но я скорее был адептом идеи "пока ещё это не та архитектура, мы увидим ещё пару сильных революций в архитектуре моделей, и вот там уже да", и мысленно смотрел на это как на "2030-2033", с лёгким скепсисом относился к post-human labor дискуссиям и так далее.
а тут чет всё иначе. предсказания, которые я воспринимал с ощущением "тут сильное маркетинговое преувеличение" - сбылись. разговоры про "замкнутый цикл обратной связи в не-деградирующей агентской среде даст экспоненту" - повседневность. дискуссии про post-human labor - не абстракция, а политические позиции, которые, кажется, важно отстаивать уже сегодня. AI-думинг тоже теперь не выглядит иронично и гиперболизированно, в последние дни несколько раз довольно серьёзно задумывался о том, а понимаем ли мы, на какой скорости летим по железной дороге, в которой управление стрелками на развилке - это попадание в крайне небольшую мишень.
короче, всё ещё "в интересное время живём", но краски как будто становятся чуть ярче, и саспенс-музыка на фоне играет чуть тревожнее
я знаю, что уже нахваливал gpt-5.2-codex-xhigh/codex-cli выше, но накину ещё: это единственная связка, которая сейчас умеет сама идентифицировать зоны рефакторинга, предлагать действительно адекватные рефакторинги и изоляции сущностей, с семантическим разделением, и так далее, и полностью автономно выполнять.
я прям смотрю на свои прошлые workflow вокруг opus, которые я юзал для plan-implement-refactor, и мне прям угарно от того, сколько у меня там всяких guardrails: "проверь, не нарушил ли ты А", "проверь, соответствует ли это паттерну Б", "убедись, что С", и так далее, ито они не всегда спасали. здесь (gpt-5.2) в 99% процентов случаев: 1. "вот проблемные зоны, собери план рефакторинга" 2. вношу 2-3 правки в план, уточняю бизнес-логику 3. "имплементируй"
сейчас постараюсь сделать аккуратное утверждение, но тем не менее: кажется, наклёвывается scaling law в ИИ-кодинге. все предыдущие полностью автономные ИИ-кодинг решения не способны в самолечение технического долга, как не обмазывайся промптами, через некоторое время наступает конец. надо либо очень тщательно дробить проект, либо, если ты сам разраб, обязательно вносить архитектурные коррективы.
gpt-5.2-codex заставляет меня верить в возможность фактически бесконечной разработки проекта только через ИИ-кодинг и без заглядывания в код - он умеет (если попросить) идентифицировать зоны с тех. долгом, и самостоятельно их чинить так, что проект остаётся расширяем, поддерживаем и работоспособен.
давайте коротко пробежимся по новостям 😼
1. https://www.kimi.com/blog/kimi-k2-5.html Kimi K2.5 с заточкой на "рои агентов" aka "натренировали запускать параллельных агентов на каждый чих" aka "agent swarm". по бенчам лучше Opus 4.5, хуже GPT-5.2-xhigh, кроме кодинга - там хуже и тот и того (правда, отрыв не радикально большой). Swarm - это интересно, и потенциально многообещающе, но думаю сильно будет упираться в тулинг ещё несколько месяцев. посмотрим, как стрельнёт на практике.
2. https://openai.com/index/introducing-prism/ OpenAI выкатили веб-апп Prism - редактор научных текстов с поддержкой LaTeX из коробки. UI чем-то напоминает Cursor-like приложения - диффы, где вы можете принимать/откатывать отдельные правки, возможность сразу смотреть отрендеренный документ, доступ к поиску и так далее. выглядит приятно, но я совсем не ЦА.
3. https://huggingface.co/deepseek-ai/DeepSeek-OCR-2 DeepSeek выкатили модель OCR-2. вместо CLIP юзают Qwen2 как Vision Encoder. у меня нет особых сомнений, что с задачами OCR оно будет справляться отлично (современные multi-modal модели это доказывают), но у меня большие сомнения, как оно будет справляться с visual prompt injections - кажется, что использование LM под капотом может быть к таким штукам очень уязвимо. энивей, интересно - несмотря на то, что у крупных моделей уже очень хорошее зрение и распознавание текста, юзать многие из них в проде из-за инъекций страшновато, поэтому появление новых моделей на эту тему выглядит как минимум интересно.
-- хорошего вечерочка! а я снова прибаливаю - никогда не целуйте людей с гастро-вирусами, даже если они очень соблазнительные 🙂
это выглядит интересно. > On 19 established benchmarks, it demonstrates performance comparable to leading models such as GPT-5.2-Thinking, Claude-Opus-4.5, and Gemini 3 Pro.
(вышел Qwen3 Max Thinking)
https://qwen.ai/blog?id=qwen3-max-thinking
и сейчас ещё будет очень смелый прогноз: думаю, в этом году мы можем увидеть как Anthropic значительно просядут. Google - доминация за счёт полностью интегрированного вертикального стека OpenAI - очень быстро наверстали и обогнали в кодинге + доминирующий игрок на рынке
Anthropic тащил за счёт instruction-following в моделях, которому не было равных, а теперь это не так. не очень понятно, чем они будут побеждать в этом году и дальше.
что-то неделька безумная, режим сломался полностью, навалилась тонна бюрократических задач, вообще выпал из жизни. микро-новости, оч коротко: 1. оч много стал юзать claude code / codex, даже проплатил тарифы побольше. 3-4 потока стабильно 2. я был не прав, когда говорил, что Opus > gpt-5.2. прям очень не прав. разница между ними как между Sonnet 4 (не 4.5) и Opus 4.5. GPT-5.2 xhigh через codex cli прям безумная машина - компактизация бесшовная настолько, что я даже не замечаю её (в случае Claude Code компактизация - это практически лоботомия чату, приходится всё объяснять сначала) 3. гораздо больше юзаю Antigravity, browser-harness у него прям хороший, хоть и очень медленный 4. ни секунды не сомневаюсь, что Anthropic бенчмаксит бенчи по долгой автономной работе через завышение таймаутов / sleep'ов 5. не, ну вы прям не представляете, насколько 5.2 лучше Opus. либо после проплаты подписки Anthropic мне занерфил опус (потому что он прям как будто заметно тупее стал), либо меня реально сломал тот факт, что 5.2 _реально_ следует инструкциям.
вторая штука, про которую очень хочется написать что-то вдумчиво философское, это то, что если раньше всякие тейки про AGI 2027 мне казались преувеличенными, и 2030 выглядел реалистичнее, то в последние недели я задаюсь двумя вопросами: 1. а почему мы вообще считаем, что то, что у нас есть сейчас - ещё не AGI? 2. мне кажется, что ASI 2027-2028 даже более реалистичный горизонт, чем AGI
--
а ещё, хочу повторить тейк из предыдущего поста: если ИИ сейчас не может справляться с вашей задачей - вы плохо его настроили. не дали хороший цикл для автономного тестирования, не подготовили док по дебагу, не прописали важные ньюансы, etc. я не могу пошерить ЧТО сейчас у меня делает gpt-5.2, но мягко говоря - на такое его точно не обучали, и даже 3-4 месяца назад мне казалось абсолютной фантастикой, что модель справится с такой задачей вообще.
я вот собрал себе скилл, который довольно неплохо настраивает автономный фидбек-луп агенту в репозиториях - он обычно даёт на 80-90% готовый результат, дальше чутка подпилить, причесать избыточность в DEBUG.md, и можно отлично юзать. сейчас все проекты инициализирую через него обязательно.
скилл в аттаче, надеюсь пригодится 🙂
сорри, чёт я то болел, то был в завале, всё ещё не вернулся в стабильный ритм шитпостинга в канал.
поймал себя сегодня на мысли: а ведь Дарио Амодей оказался прав?
да, может не 100%, но 99% же точно рядом. если осенью 2025 ещё были задачи, которые ИИ фундаментально не мог взять, сколько ты ему гайдлайны не пиши, и как пайплайн не настраивай, то за последние 1.5-2 месяца я таких задач не видел: всё решается через доки / workflows, ситуаций, когда я кому-то бы говорил "не, это лучше не давать агенту, сделай руками" давно не было, почти всегда это "поправь доки" или "разбей на шаги и упакуй в воркфлоу".
что думаете?
безумие? да что ты знаешь о том, что такое безумие?
P.S. оч жду фичу, чтоб агент кидал смешные рилсы в чат
P.P.S. если что - это не нативный курсор, это я на суперкодовские воркфлоу поставил data-uri gif иконки с дискорда
всё ещё не выздоровел, но эту новость не могу обойти стороной. я очень люблю Cerebras - и про Cerebras Code писал, и много их юзал через Cline, и в целом, это мой самый популярный провайдер на OpenRouter. и вот, сегодня OpenAI объявили о партнерстве с ними. анонс очень расплывчатый, "какую-то часть каких-то фаз инференса" переведут на Cerebras, и это будет идти по-тихоньку, вплоть до 2028. и что именно переведут - не очень понятно, одна из проблем (и основа их преимуществ) Cerebras, это то, что они делают огромные монолитные чипы (aka гипер-вафли), и модели помещаются на эти чипы целиком.
беда в том, что иногда Cerebras приходится квантовать даже условно-небольшие модели (~500b) ради того, чтобы они влезли на вафлю, а флагманские модели OpenAI - это триллионы параметров.
но мне очень легко поверить в то, что какие-нибудь gpt-5-nano/gpt-5-mini могут туда улететь, хотя бы потому, что gpt-120b-oss Cerebras гоняют давно на безумных 1000-2000 токенах в секунду (скрин приложен).
(btw, GLM-4.6 на Cerebras тоже есть, правда, уже deprecated, видимо, переходят на 4.7).