Gemini vs Claude

Страница 2 из 29

Миша Наер24 марта 2026 г.13K просмотров

Наверняка вы уже увидели во всех каналах, что теперь можно рисовать дизайн в фигме с помощью кодинг агентов типа Claude/Codex.

Так вот, я попробовал. Дал задачу пронумеровать презу, перевести ее на русский и перекрасить из темной темы в светлую (смотрите скриншот)

Opus 4.6 справился за 5 минут. Фигму не могу показать, но результат прям супер — процентов на 90 справился без ошибок.

Давно такого не было, но я почувствовал прям щенячий восторг, когда видел как моделька ходит по фигме и обновляет дизайны) По сути, завел себе карманного джуна.

Чтобы попробовать, закиньте в своего кодинг агента ссылку на статью и скажите чтобы начал делать то же самое:

www.figma.com/blog/the-figma-canvas-is-now-open-to-agents/

e/acc11 февраля 2026 г.13K просмотров

Harness Saw-Tooth theory

Возникла идея что эволюция агентов идет в форме пилы. Sawtooth это известный алгоритм в TCP, который снижает перегруженность каналов в интернете. Скорость соединения растет, пока количество потерь пакетов не превысит порог, и затем скорость резко падает в два раза, затем снова растет, как на картинке.

То же самое происходит с агентами: 1. Лабы релизят новую модель, например GPT-4 или Opus 4.5 2. Харнессы позволяют стоить более продвинутых агентов и постепенно добавляют кучи логики в себя. В 2023 это был Auto-GPT, в 2025 Clawdbot. 3. Лабы тренируют новую модель (подозреваю, активно RL’я трейсы агентских харнесов)

И дальше все повторяется по кругу.

Почему это происходит? Агенты создают очень классный синтетический датасет, а сложность харнесов всегда упирается в надежность самой модели, поэтому они никогда не могут перейти определенный порог. Если твой харнесс имеет много кастомной логики, то его надежность падает с каждой новой фичей. С другой стороны, повышение надежности модели в агентских задачах делает доступным новые юзкейсы: например, факт что Opus 4.5 научился супер долго работать в баше и писать скрипты проверяя самого себя сделали его полезным для долгосрочных задач кодинга.

e/acc20 марта 2026 г.12K просмотров

За последнюю неделю феномен клешни ушел в массы.

На GTC Дженсен (с клешнями вместо рук) представил NemoClaw — open source продукт от NVIDIA, который по сути является безопасной и (хоть немного) ориентированной на использование в суровом Энтерпрайзе версию openclaw.

А вчера Anthropic добавили каналы и управление с телефона в Claude code. Например, вы можете управлять любыми задачами агента через телеграм или дискорд.

У каждого человека на планете будут агенты, а во многих компаниях их будут миллионы.

partially unsupervised20 марта 2025 г.12K просмотров

По аналогии с афоризмом “в ходе следствия главное - не выйти на самих себя”, могу сказать, что в ходе разработки фреймворка для AI кодогенерации удалось сделать сам фреймворк совершенно непригодным для генерации. Например, вчера Claude предложил дописать примерно такое: with HandlerTestTaskNode.run(**params) as ctx: result = solve(lambda ctx: type('TypeContext', (), {'compiler': ctx.compiler})())

e/acc7 февраля 2026 г.12K просмотров

Собственно, кибернетические самоулучшающиеся процессы в организациях — это не фантастика, это не про завтра и это не требует каких-то инноваций.

Это требует две вещи: 1. смелость чтобы перестроить многие процессы (в первую очередь, хранение и обмен информацией в компании) с нуля 2. готовность итерировать и понимание, что первая версия не будет идеальной

Самый простой способ стать киборгом уже сегодня - написать /insights в вашей клод-коде. Он сгенерирует страничку, в которой подробно расскажет: - все что вы делали в клоде за последнее время - все проблемы, которые возникали - как вам улучшить процесс использования - как ваш продукт/система может улучшить сама себя, чтобы проблемы не возникали - как оптимизировать рабочий процесс

Плюс, он даст вам конкретные промты для самого себя, в которых детально описано как именно нужно переделать ту или иную фичу.

Например, в моём случае клод увидел, что значительная часть моей работы это ведение CRM компаний, в которые мы инвестируем и анализ/рисерч новых. Он предложил улучшение этих фич, например, ипользование автоматизации браузера для проверки LinkedIn фаундеров и сделал промт, который эту фичу реализует. Хотите создать такую кибернетическую систему обратной связи для своего бизнеса?

partially unsupervised4 марта 2024 г.12K просмотров

Я редко пишу здесь про новости, но про очередной релиз нового семейства LLM - на этот раз Claude 3 от Anthropic - напишу.

Дело даже не в том, что они утверждают, что побили GPT-4 по метрикам. Это первая модель, которая с первой попытки правильно ответила на вопрос, которым я люблю тестировать LLM-ки: "what manhattan project participant invented the dolphin kick for swimming?" 🐬. Остальные популярные модели (GPT-4, Mistral Large, Llama 2 70B...) или скатываются в галлюцинации (обычно про Фейнмана), или отвечают в духе "уважаемый, там физики работали, какое еще плавание".

Вопрос, конечно, вдохновлен этой книгой. На более нормальные промпты, которые я успел прогнать, кажется, отвечает +- на уровне GPT.

e/acc25 марта 2026 г.11K просмотров

Если у вас есть стартап / компания / продукт, то брендинг и позиционирование очень важная часть успеха. Я сделал скилл для Клода / Кодекса, который помогает создать позиционирование с нуля (или улучшить текущее). Это 10-минутное упражнение, которое нужно делать всей командой и потом объединить результаты.

Что он делает? - Собирает контекст компании - Проводит параллельное конкурентное исследование (прямые + смежные конкуренты) - Задаёт стратегические вопросы, используя реальные названия конкурентов - Генерирует готовую анкету для команды для независимых ответов - Синтезирует ответы команды (согласованность, противоречия, неожиданные инсайты) - Выдаёт позиционирование

Скачать или установить напрямую через маркетплейс: https://github.com/Gerstep/positioning-plugin

🙏 Буду благодарен фидбек после использования (или PR/issue на GitHub), звездочка тоже будет приятна 🙏

Ночной Писаревский30 апреля 2026 г.11K просмотров

Мы привыкли платить за курсы, но не привыкли платить за токены

Это прям инсайт.

Если подумать, что такое $100/mo за подписку на Claude Max?

Это просто ничего по сравнению с тем, сколько стоит разработчик или любой другой сотрудник.

А эта подписка заменяет вам сразу нескольких сотрудников.

Но мы не привыкли платить за токены

Это новая статья в нашем бюджете, поэтому нам непривычно.

Уже не первый раз на наших курсах по вайбкодингу вижу такой паттерн: люди очень много внимания уделяют тому, как не сжечь много токенов.

Вместо того чтобы просто оформить подписку Max и кайфовать (конечно, и в Max вполне можно дойти до лимитов, но все-таки их там намного больше)

Получается, что одна из важных ролей нашего курса — снять барьер. Сказать: ребята, не бойтесь, покупайте себе подписку Max за $100, она окупится у вас многократно.

Из этого два вывода:

• Расходы на AI-подписки будут у всех нас в бюджете обязательной строчкой, примерно как сейчас такси и Netflix

• Компании, которые не оплачивают своим сотрудникам подписки на Claude — отстают нещадно

partially unsupervised2 ноября 2025 г.10K просмотров

Если вы отбитый вайбкодер, стремительно выжирающий лимиты подписки, или просто любите китайские подделки, посмотрите на z.ai.

Их флагманская модель GLM 4.6 сейчас даже не лучшая среди open weights моделей, но у нее есть два преимущества: - их самый дорогой тариф сейчас стоит 360 баксов в год (а самый дешевый - в десять раз меньше); - они не постеснялись из коробки обеспечить совместимость c Claude Code до такой степени, что на вопрос "what model is under your hood?", он отвечает "Sonnet 4.5".

Конечно, никакие серьезно приватные данные я бы этой штукой не трогал, но для всякой фигни работает. Например, я недавно хотел натравить Клода привести в порядок файлопомойку - обновить систему, разобраться, почему иногда шара отваливается, почистить остатки плохо удалившихся экспериментально установленных пакетов и так далее. Но теперь вместо Клода этим занимается его младший брат Злод.

ElKornacio24 января 2026 г.9.5K просмотров

что-то неделька безумная, режим сломался полностью, навалилась тонна бюрократических задач, вообще выпал из жизни. микро-новости, оч коротко: 1. оч много стал юзать claude code / codex, даже проплатил тарифы побольше. 3-4 потока стабильно 2. я был не прав, когда говорил, что Opus > gpt-5.2. прям очень не прав. разница между ними как между Sonnet 4 (не 4.5) и Opus 4.5. GPT-5.2 xhigh через codex cli прям безумная машина - компактизация бесшовная настолько, что я даже не замечаю её (в случае Claude Code компактизация - это практически лоботомия чату, приходится всё объяснять сначала) 3. гораздо больше юзаю Antigravity, browser-harness у него прям хороший, хоть и очень медленный 4. ни секунды не сомневаюсь, что Anthropic бенчмаксит бенчи по долгой автономной работе через завышение таймаутов / sleep'ов 5. не, ну вы прям не представляете, насколько 5.2 лучше Opus. либо после проплаты подписки Anthropic мне занерфил опус (потому что он прям как будто заметно тупее стал), либо меня реально сломал тот факт, что 5.2 _реально_ следует инструкциям.

вторая штука, про которую очень хочется написать что-то вдумчиво философское, это то, что если раньше всякие тейки про AGI 2027 мне казались преувеличенными, и 2030 выглядел реалистичнее, то в последние недели я задаюсь двумя вопросами: 1. а почему мы вообще считаем, что то, что у нас есть сейчас - ещё не AGI? 2. мне кажется, что ASI 2027-2028 даже более реалистичный горизонт, чем AGI

а ещё, хочу повторить тейк из предыдущего поста: если ИИ сейчас не может справляться с вашей задачей - вы плохо его настроили. не дали хороший цикл для автономного тестирования, не подготовили док по дебагу, не прописали важные ньюансы, etc. я не могу пошерить ЧТО сейчас у меня делает gpt-5.2, но мягко говоря - на такое его точно не обучали, и даже 3-4 месяца назад мне казалось абсолютной фантастикой, что модель справится с такой задачей вообще.

я вот собрал себе скилл, который довольно неплохо настраивает автономный фидбек-луп агенту в репозиториях - он обычно даёт на 80-90% готовый результат, дальше чутка подпилить, причесать избыточность в DEBUG.md, и можно отлично юзать. сейчас все проекты инициализирую через него обязательно.

скилл в аттаче, надеюсь пригодится 🙂

partially unsupervised1 марта 2025 г.9.3K просмотров

Пару дней программировал с Claude Code - это приложение-агент для терминала, которое умеет не только просто писать код, но и планировать, адаптироваться и выполнять команды локально. Весь инференс идет через Anthropic API, так что нужно подключить ключ и готовиться к затратам. Из коробки доступны базовые команды - view, edit, replace, glob, grep, выполнить произвольный баш, но можно и подключить свой MCP и адаптировать под себя. Сколько-то похоже на agent mode в Cursor, с которым я как-то не очень поладил (хотя inline автодополнение там клевое), а из опенсорсных решений напоминает Aider.

Я пробовал работать в двух проектах: один небольшой, но начат умными людьми и потому обладает некоторой структурой, второй я делал прям с нуля в режиме "вайб-кодинга". В обоих случаях у меня уходило что-то около 10 баксов в час, причем я старался вовремя сбрасывать контекст, чтобы счет меня не разорил. Когда осознаешь, что команда "run tests" стоит три цента, это вызывает странные незнакомые эмоции. Помимо денег, есть вопросы и к скорости: например, вчера перед сном я оставил агенту одну задачу и ушел, не закрывая ноутбук. Утром глянул результат - total cost: $5.90, total duration (API): 37m 11s.

Впрочем, скорость инференса - не единственный боттлнек. Пару раз ловил себя на мысли, что хочется печатать быстрее (или даже попробовать голосовой ввод) - обычно я думал медленнее, чем писал код, а тут хочется быстро командовать "эй, почини такой-то баг и прогони тесты".

Скучный бойлерплейт-код пишет отлично (в разы быстрее, чем я бы писал в редакторе даже с копайлотом или аналогом), дебажит неплохо, но, как и все LLM, может пойти по неправильному пути и нахерачить много дичи, надо вовремя останавливать и быть очень конкретным (например, жестко определять стек). Если не влезать в детали и давать недостаточно конкретные указания, будет так: "Бесконечная бессвязность за кажущимся смыслом, абсолютная неконсистентность, скачки мыслей и стилей между разными частями проекта. Полнейший ужас и хаос за кажущимся порядком".

Короче, пока немного сыровато, но буду иногда использовать. Хочется быстрее и дешевле; думаю, еще увидим в этом году. See also: отзыв от Антона.

P.S. нашел пасхалку: через claude code можно заказать себе стикеры anthropic, но доставка только в 🇺🇸

partially unsupervised2 марта 2025 г.9.3K просмотров

Вдохновился постом о том, как использовать Claude Code для анализа структуры Claude Code и пошел по тому же рекурсивному пути: сгенерил при помощи Claude Code утилиту, чтобы логировать его же запросы. На первый взгляд, магии там мало - системный промпт, две базовые модели (sonnet 3.7 + haiku) и набор тулов.

Если хотите поковыряться своими руками, выложил результат на github. Думаю, следующим шагом было бы интересно попробовать подменить базовые модели на что-то локальное.

ElKornacio8 января 2026 г.9.2K просмотров

меня не отпускает ощущение, что хвальбы Codex 5.2 в куче около-ИИ чатов - это какой-то пранк да, модель сильная, но по шизофазии и рядом не стояла с Anthropic.

писать код в совершенно отличном от кода проекта стиле, генерировать какие-то абсолютно неуместные (тонны typeof-валидаций в strict TS файле - что это?) и местами даже совершенно бессмысленные вещи (пустой цикл. типа, цикл вообще без тела. wtf?) - вообще запросто. и я не понимаю, на кой чёрт у неё такой длинный exploration phase, если она один хрен всё равно потом дублирует тонны кода. написать функцию, в которой 9 строк из 10 полностью совпадают с уже существующей в том же файле - вообще легко.

стал в последние дни частенько упираться в лимиты по CC/Курсору, и пытаюсь использовать Codex. в большинстве случаев он справляется лучше всего со следующей задачей: развлечь меня до момента, пока у CC не сбросится лимит, после чего я с лёгким сердцем делаю git reset, и передаю задачу в Sonnet.

ElKornacio5 февраля 2026 г.8.8K просмотров

в один вечер, лол 🙂

⚡️ Opus 4.6 https://www.anthropic.com/news/claude-opus-4-6

⚡️ GPT-5.3-codex https://openai.com/index/introducing-gpt-5-3-codex/

P.S. для контекста - Opus 4.6 проигрывает в SWE Verified Opus 4.5, но побеждает в Terminal Bench с лёгким отрывом (65.4% против 59.8%). В то же время GPT-5.3-codex доминирует и там и там, причем в terminal bench с диким отрывом - 77.3%

melikhov.dev5 ноября 2025 г.8.7K просмотров

ACP в zed оказался не так хорош, как я думал

Ну ладно, пока буду делать claude -r

https://github.com/zed-industries/zed/issues/37481

Ночной Писаревский18 марта 2026 г.8.4K просмотров

Знакомый работает разработчиком в Perplexity

Ну, как разработчиком. Код пишет Клод, естественно, а он говорит ему, что писать.

И вот на его примере интересно заметить, как изменился мир.

Года полтора назад он менял работу и говорил, что не уверен, что хочет продолжать карьеру разработчика, а хочет больше быть продактом/менеджером

А сегодня даже вопрос так не стоит: ты и разработчик и продакт одновременно, по-другому уже просто невозможно

EDU4 февраля 2026 г.8.4K просмотров

Как Anthropic проехался по OpenAI

Помните в посте про исследование OpenAI я пошутил, что оно выглядит как проспект для рекламодателей? Не могу не пройти мимо этой рекламы Anthropic, где они проехались по OpenAI и их решению сделать рекламу. Посмотрите, очень качественно проехались

А мне очень зашёл анализ, которая сделала Наиля - причём, для этого она запилила agent skill, который помогает ей быстро сделать аналогичный анализ для любого кейса. Прикольно, что там и анализ реакций, и паттерны для использования в своих кампаниях, и разбор по PESTEL, и тп.

Вот отрывок из анализа: "Паттерн 1: «Конкурентное дзюдо»

Описание: Превратить слабость конкурента в свою силу через прямой контраст. Конкурент делает непопулярный шаг → вы громко заявляете, что делаете противоположное.

Почему сработало: OpenAI сама создала повод, объявив о рекламе в ChatGPT. Sam Altman ранее (май 2024) говорил, что реклама — «последний ресурс». Менее чем через 2 года — разворот. Anthropic атаковала в момент максимальной уязвимости.

Где применимо: Любая ситуация, где конкурент принял непопулярное решение (повышение цен, ухудшение условий, сокращение сервиса). Особенно эффективно в B2B, где доверие — ключевой фактор выбора.

Условия переноса: (а) Конкурент действительно сделал непопулярный шаг, (б) у вас есть экономическая возможность не делать то же самое, (в) тайминг — атаковать нужно в момент объявления, а не через полгода."

и вот это

Escape clause (важная деталь)

В блоге есть оговорка: «Should we need to revisit this approach, we'll be transparent about any changes.» Это сохраняет гибкость на будущее, но преподнесено как элемент честности, а не как лазейка.

я не из мира рекламы и пиар, но мне такой анализ дал системность для взгляда на этот кейс: знаете, как когда думаешь, что что-то "искусство", но поговорив с экспертом, начинаешь замечать и "науку" в оном.

https://www.youtube.com/watch?v=De-_wQpKw0s&list=PLf2m23nhTg1OW258b3XBiJME7tgrRk-KI&index=1

partially unsupervised17 января 2026 г.8.3K просмотров

Последние несколько недель баловался с разными консольными кодинг агентами. Claude Code все еще остается моим фаворитом, но смотреть по сторонам полезно, тем более когда что-то про agentic devex написано в моих рабочих задачах.

Клиенты

Попробовал Opencode, Gemini CLI, Github Copilot CLI, Codex. Раз речь про вайбкодинг, то и оценивать буду по вайбам: - Gemini и Copilot - клиенты сыроваты, работать можно, но не хочется. - Codex созрел и стал вполне юзабельным. - Opencode прям хорош, UX отполированный, полностью опенсорсный, есть плагины, развивается очень быстро.

Еще одна фича Opencode: можно не только использовать провайдеров с оплатой по токенам, но и переиспользовать подписки. Серая зона: одни провайдеры (Anthropic) явно запрещают использовать сторонние клиенты, некоторые (Copilot, Minimax, Z.ai) разрешают, так что где-то приходится действовать на свой страх и риск.

Модели

Попробовал и разные модели в Opencode: - minimax 2.1, GLM 4.7 - похожи на sonnet предыдущего поколения, дешевые рабочие лошадки для простых задач - GPT Codex 5.2 - задает очень много вопросов, вкапывается в детали - иногда в лишние, а потом уходит работать на пару часов с достойным качеством - Gemini 3 Pro - на первый взгляд все классно, может предложить нетривиальные идеи или быстро решить сложную задачу... но потом оказывается, что где-то с высокой вероятностью подложена свинья. Например, переписываю большой кусок с питона на раст, агент пишет гору правдоподобного кода и бодро отчитывается, что все проверено и идеально матчится, но в итоге окажется, что 10% функций цинично проигнорировано. Они не просто где-то выпали из контекста, а нагло возвращают константу с комментарием в коде типа "а это делать не буду, и так норм". Что-нибудь молча удалить или наоборот попытаться закоммитить - тоже нередкая ситуация. - Gemini Flash 3 - аналогично, только быстрее и тупее.

Воскрешение года

Повод удивиться: внезапно подписка Copilot выглядит наиболее выгодной в категории "топ за свои деньги". Copilot можно использовать в стороннем клиенте (включая и вышеупомянутый Opencode, и мой любимый Zed), можно переключаться между моделями (есть все основные провайдеры, и новые модели доезжают довольно быстро).

Кто бы мог подумать: еще год назад, когда я в каком-то разговоре упомянул Copilot, мой собеседник посмотрел на меня с ноткой презрения - мол, ты чего, все пацаны сидят на Cursor/Windsurf, зачем ты вообще помнишь про это старье.

melikhov.dev18 октября 2025 г.8.2K просмотров

Насколько всегда с отвращением пользовался Курсором, настолько же (но в положительную сторону) с удовольствием запускаю задачи в Claude Code. Сложно объяснить это ощущение, но как-то там более лампово и уютно что ли. И результат сильно лучше, особенно после нескольких итераций с ревью в Copilot.

А главное — нет причин менять IDE/редактор. С zed так вообще нативная интеграция из коробки, но всегда можно открыть терминал и сделать там всё.

Удивительно, что пока экстеншены затаскивали векторный поиск и наворачиваи UI, оказалось, что агенту достаточно grep для того, чтобы собрать хороший контекст и sed чтобы поправить код.

melikhov.dev28 августа 2025 г.7.9K просмотров

Если первые впечатления от того же Cursor были отвратительными, то сейчас он уже как-то подуспокоился в своём стремлении делать YOLO и может предоставить сравнимый с Roo опыт постепенного продвижения по задаче. При этом, конечно, в более приятном интерфейсе (те же диффы изменений выглядят гораздо наглядней, чем в Roo).

И значительный плюс, что можно вносить правки в диффы налету — Roo от такого с ума сходит и пытается вернуть файл в то состояние, в котором он его запомнил. Понятное ограничение экстеншена, но всё же. Нам же код писать, а не экстеншены прощать.

В целом и там, и там можно работать с одинаковой эффективностью. А вот вопрос стоимости сложный, понятно, что в чистом виде Cursor будет дешевле, но кто ж знает, к каким моделям у вас есть доступ? У меня вот Roo смотрит в «бесплатный» развёрнутый внутри DeepSeek и платный Claude. Щёлкаю под задачу и наличие денег на счету.

Сама по себе работа в паре с AI (то, что пытались зафорсить как DeepCoding в противовес VibeCoding, но, кажется, не прижилось) неплохо так прокачивает скиллы код-ревью. Я (как типичный IC) редко работаю над кодом в команде, и вот тут второй пилот вернул забытые ощущения и позволяет держать ритм.

Продолжаю радоваться, что дожил до такого.