Gemini vs Claude
Страница 12 из 22
В то время как Илон Маск говорит о том, что к концу года «код будет не нужен», становится понятно: от простого кодирования важно переходить к ясному формулированию задач и процедур. Что всегда было непросто.
И OpenAI, и Anthropic публикуют руководства о том, как правильно думать о скиллах — как их описывать, структурировать и создавать.
Ключевые рекомендации:
Структура скилла: • Описание должно содержать ЧТО делает скилл + КОГДА его использовать • Добавляйте негативные примеры ("НЕ используй когда...") — это улучшает точность на ~20% • Встраивайте шаблоны и примеры прямо в скилл, а не в системный промпт
Как писать инструкции: • Конкретика вместо абстракций: не "валидируй данные", а "запусти python scripts/validate.py --input {filename}" • Документируйте обработку ошибок явно • Держите основной файл компактным — детали выносите в отдельные файлы
Тестирование: • Скилл должен срабатывать на 90% релевантных запросов • Не должен срабатывать на нерелевантные • Итерируйте на сложной задаче пока не заработает, потом извлекайте подход в скилл
Главная мысль: самое время учиться автоматизировать нетривиальные процессы. Тривиальные будут автоматизированы без вас уже завтра.
Рекомендую изучить подробные инструкции от обеих компаний: • OpenAI: developers.openai.com/blog/skills-shell-tips/ • Anthropic: claude.com/blog/complete-guide-to-building-skills-for-claude
#ai #skills #automation #openai #anthropic
————————— Мысли Рвачева —————————
🤖🤖🤖 В Claude Code появились Agent Teams - рои агентов
Теперь вместо одного агента можно запустить целую команду. Один агент-лидер координирует работу, остальные работают параллельно и общаются друг с другом напрямую.
Когда это полезно: - Research: несколько агентов исследуют разные аспекты проблемы одновременно - Debugging: каждый агент тестирует свою гипотезу параллельно - Новые фичи: каждый агент владеет своим модулем - Code review: один смотрит security, другой - performance, третий - тесты
Отличие от subagents: там воркеры только возвращают результат главному агенту. В Teams агенты общаются друг с другом, спорят, челленджат выводы друг друга.
Функционал был доступен и раньше, но скрыт - энтузиасты его нашли. Теперь официально для всех.
Пока experimental и жрет много токенов. Включается через settings.json.
🔗 code.claude.com/docs/en/agent-teams
#claude #claudecode #ai #agents
————————— Мысли Рвачева —————————
[2/2] В Loki за 3 дня
День 1 (пт). Я конечно иду на радикальные меры, говорю давайте вам оба 3000-строчные JSON-ны по самым дорогим дашбордам переведу с CloudWatch на Loki (они покрывали 97% коста, готорый генерила Grafana). Запросил себе админский доступ к Grafana, чтобы была возможность завести API токен и пустить туда Claude Code шаманить по каждому дашборду. Перевёл за вечер пятницы, понадобилось буквально пару часов, и то большую часть на дебаг.
Валидируем с оунером дашбордов. Всё совпадает, но супер медленно, некоторые метрики не прогружаются вообще (да, Loki не такой шустрый для больших интервалов времени как CloudWatch).
DevOps команда говорят что вообще-то не одобряют считать метрики напрямую из Loki, тем более на большие окна. Тем временем наш самый дорогой наш дашборд в соседней вкладке: 30 дней… 60 дней…
День 2 (пн). Кинули гайд, как это нужно делать по уму: через recording rules. Завёл их на все метрики с клодом. Recording rules сохраняют метрики в Mimir – кластер из инстансов Prometheus. Prometheus – это сервис для записи и хранения метрик (например, счётчиков). И тут самая жопа: они доступны только с того времени, когда создано правило. Причем ты даже переименование делаешь – нужно заново ждать. Конечно переезжать на дашборд через 30-60 дней, ждать пока накопятся все метрики, мы совсем не хотим. Я говорю девопсам “а можем сделать бекфилл?” (записать историю задним числом) они такие: не, это невозможно. Я говорю буквально с недоумевающим выражением лица Патрика Бейтмана из “Американского Психопата”, why is it impossible? - it’s just not - why not, you st…? Сказали, есть API по которому в Mimir можно закидывать метрики напрямую, но он их фильтрует, чтобы они были свежие, не старее чем 2 часа назад или около того.
Не стал их слушать, натравил Claude Code на документацию, смотрим, есть в mimirtools прям метод backfill. Мне говорят, мол, у нас backfill выключен и вообще это для миграций с одного Prometheus на другой (при переездах). Мол, если ты хочешь пойти нужно собирать полноценные прометей-блоки и заливать (некий сложный правильный формат приёмки данных внутрь). Я говорю ну и что, я соберу не вопрос. Они такие буквально "ну удачи чувак". Говорят можешь локально поднять Mimir, если соберешь блоки, не вопрос включим. Я конечно: challenge accepted – и ушел в туман. День 3 (вт). Утром с клодом подняли Mimir в докере, поднял Grafana. Я буквально не открывал код или консоль (кроме клода), просто декларировал что мне надо. Клод, умничка, сам всё настроил, связал, завёл, закинул ретроспективные данные, всё отображается в локальной Grafana. Показываю им, они охуели. Кидаю сгенеренный технический репорт со всей инструкцией как собирать эти магические Prometheus-блоки. Они такие, ну ладно флаг тебе в руки. Получил бонусом админские юзеры-пароли от всех их сервисов (Loki, Mimir и т.д.), чтобы можно было в Mimir API стрелять (Grafana сама их знает, но даже с API токеном не можешь подсмотреть). Клод быстренько на одну из метрик нагенерил блоков из Loki, закинул, пережевались с горем пополам. Первые блоки обработались медленно.
Говорю, а давай посмотрим в код, это же всё open-source стек, мы же можешь проследить весь путь от запроса до обработки блока, компакции, индексирования. Угадайте, что Клод нашёл? Surprise motherfucka. Оказывается, по дефолту Mimir делает --sleep-time=20 на каждый блок. Для понимания, залить 7 дней – это порядка 100 блоков (каждый блок покрывает ровно 2 часа). А теперь самое интересное: это 95% времени обработки 1 блока. Просто. Пауза. На 20 секунд.
И кто бы мог подумать, прям в POST-запрос можно пробросить --sleep-time=1, и это сокращает время обработки каждого блока с 20 сек до... в среднем, 2.5 сек. Вжух! Короче к концу 3 дня все метрики успешно загрузились в Mimir и отрисовываются в Grafana, притом намного быстрее чем в CloudWatch (даже на 60 дней) + ещё и бесплатные.
Я доволен как слон, дальше план на ближайшие 1-2 месяца масштабировать подход на все остальные команды, спидранить переезд на Loki по самым дорогим дашбордам уже там. А это ещё в 5-10 раз больше денег.
Занавес
проснулся. @ gm @ чекнул whoop - recovery 98% @ выпил литр кофе @ закинул 10 ноотропов @ прыснул в нос ещё ноотропов и пептиды @ проглотил 40 витаминов @ мухомор, ежовик и теанин по маркаряну @ открыл энергетик @ "скучаю но работаю" на репит @ 8 часов смотрел как опус кодит @ с кодексом обсуждаем со стороны @ ни с кем не поговорил. @ лёг спать.
Life is good 🥰
🍌 Nano Banana Pro, Gemini 3, Jules
Стрим через 5 минут!
Жду всех тут: https://youtube.com/live/jFfmEQJJKUU?feature=share
Тестирую промпты в комментах 👇
Полностью разделяю, как только у ChatGPT выйдет подписка за $100, даунгрейднуюсь в первый день
Небольшой лайфак как повысить эффективность кодинга у OpenClaw
Вместо того чтобы говорить ему сделать Х в репозитории Y, я говорю ему запускать сессию Codex CLI и выступать не исполнителем, а заказчиком. То есть Openclaw сам не кодит, а только промптит в Сodex CLI.
Профит: 1. Не раздуваем контекст основного агента 2. Даем GPT модельке пользоваться инструментами из интерфейса, под который она изначально заточена
Все это заворачиваем в SKILL, добавляем всякие доп инструкции (в каких ветках работать, как тестировать и т.д.). Получается вполне рабочий инструмент, через который удаленно внедрять небольшие фиксы в пет-проектах.
Полный текст скилла (разумеется, вместо Codex можно использовать Claude или другие аналоги): --- name: codex-interactive-defaults description: Standard launch and delivery policy for interactive Codex CLI sessions in OpenClaw. Use whenever running Codex interactively (single task or multi-turn coding), to keep output compact, force GPT-5.4 with high reasoning effort, and default repository work to dedicated branch plus final PR. ---
# Codex Interactive Defaults
## Launch Policy (Always Apply)
For every **interactive** Codex run, launch Codex with this baseline:
```bash codex --no-alt-screen --model gpt-5.4 \ -c model_reasoning_effort="high" \ -c hide_agent_reasoning=true \ -c model_reasoning_summary="none" \ -c model_verbosity="low" ```
## Required Constraints
- Pin model to `gpt-5.4` by default. - Set `model_reasoning_effort="high"` by default (highest documented effort level). - Override model/reasoning only when the user explicitly asks for a different setup. - Keep `pty:true` when starting Codex from OpenClaw `exec`.
## Git Workflow Defaults (Branch + PR)
For repository-backed coding tasks, use this as default workflow unless the user explicitly says otherwise:
1. Create/switch to a dedicated branch **before** implementing changes. 2. Do not implement changes directly on `main`/`master`. 3. Implement and commit changes on that branch. 4. Push branch and open a PR. 5. Report the PR URL in the final update.
If branch push/PR creation is blocked by missing remote/auth/permissions, still complete branch + commits and report the exact next commands needed to open the PR.
## Prompting Rule (Mandatory)
When sending a coding prompt to Codex for repository-backed work, explicitly include both instructions below in the prompt text:
1. **Start on a new branch first** (create/switch branch before any edits). 2. **Finish with a PR** (push branch and return PR URL, or provide exact next commands if PR cannot be opened automatically).
Use explicit wording in the prompt (do not assume defaults are enough). Example phrase to include:
- "Before making any code changes, create and switch to a new branch for this task. Do not work on main/master. After implementing, push the branch and open a PR, then return the PR URL."
## OpenClaw Execution Pattern
1. Prepare working directory (often temp + `git init` for scratch work). 2. For repo-backed tasks, create/switch to a dedicated working branch. 3. Start interactive Codex with `pty:true` and the baseline flags above. 4. Use `process` actions (`submit`, `paste`, `send-keys`) for follow-up turns. 5. Finish with pushed branch + PR when repository context allows. 6. Kill/exit session when task is finished.
## Command Templates
### Start session in target directory
```bash # via OpenClaw exec tool command: codex --no-alt-screen --model gpt-5.4 -c model_reasoning_effort="high" -c hide_agent_reasoning=true -c model_reasoning_summary="none" -c model_verbosity="low" pty: true workdir: <target-dir> background: true ```
### Start temp scratch session
```bash TMPDIR=$(mktemp -d /tmp/codex-demo-XXXXXX) cd "$TMPDIR" git init -q codex --no-alt-screen --model gpt-5.4 -c model_reasoning_effort="high" -c hide_agent_reasoning=true -c model_reasoning_summary="none" -c model_verbosity="low" ```
Я ленивый, поэтому настроил себе Todoist MCP с user scope (чтобы Claude Code видел его, независимо от репозитория). Супер интересный экспириенс. Надо будет весь мой #LifeOps переводить на MCP-шки
https://github.com.mcas.ms/greirson/mcp-todoist
P.S. За ссылку большое спасибо Стасу @FactoryDS
P.P.S. Чтобы установить, достаточно клоду кинуть ссылку на репо + токен Todoist, дальше он сам
P.P.P.S. Очевидно, тоже самое можно сделать с любым инструментом для трекинга задач, которым вы пользуетесь, Linear, Jira, Asana, you name it
Если вам приходится делать несколько итераций, чтобы AI выполнил задачу так, как вы хотите — это сигнал улучшить скилл.
Бывает так: вы используете скилл, но всё равно приходится уточнять, дополнять, объяснять как именно нужно выполнить задачу. Несколько итераций — и наконец результат вас устраивает.
Самое полезное, что можно сделать в этот момент: попросить AI посмотреть на вашу переписку, на текущее описание скилла, и предложить изменения, чтобы в следующий раз задача выполнялась с первой попытки.
Вы удивитесь, насколько хорошие предложения он даст. Часть из них (или все) стоит попросить его сразу внести в скилл.
К скиллам вообще нужно относиться как к чему-то живому — даже если вы его скачали откуда-то. Это не статичный файл, а что-то, что должно улучшаться со временем под ваши задачи.
#ai #claude #productivity
————————— Мысли Рвачева —————————
Вышло новое интервью с CEO Anthropic Dario Amodei у Dwarkesh Patel.
Такие интервью обязательно нужно смотреть — это люди, которые создают эту индустрию.
https://youtu.be/n1E9IZfvGMA?si=kRnFSJx4G7WYGolt
Интересно наблюдать, как CEO Anthropic уверенно говорит, что AGI уже практически за углом (2-3 года), в то время как Dwarkesh ставит это под сомнение. Аргументы с обеих сторон — стоит послушать.
Но ещё интереснее — исследование, на которое они ссылаются:
https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/
Разработчики были уверены, что AI увеличивает их продуктивность на ~24%. После эксперимента они по-прежнему считали, что AI помог им на ~20%.
Реальность: продуктивность снизилась на 19%.
Парадокс знакомый. Я тоже уверен, что делаю больше с AI. Но за компьютером сижу не меньше, а больше — как наркоман. Возможности делать что-то быстрее превращаются в возможности делать больше, а не работать меньше.
#ai #anthropic #productivity
————————— Мысли Рвачева —————————
🤗Claude Opus 4.5
Вайбкодинг-стрим через 20 минут
https://youtube.com/live/mSzIeF8rr3c
👇 По традиции, промпты и вопросы в комментарии
Интерфейс, которого не существует
✏️ Jakob Nielsen и Nielsen Norman Group уже несколько лет пишут о концепции Generative UI. Их тезис: современный интерфейс устарел, потому что он статичен.
Дизайнеры рисуют одни и те же экраны для всех, а пользователям приходится продираться через меню, чтобы найти нужное.
Идеальный интерфейс по версии NN/g не существует до момента запроса. Он создается под задачу и исчезает после её решения.
⚡️ ГУГЛ ЗАРЕЛИЗИЛ И ЭТО ТОЖЕ:
Dynamic View в Gemini: нейросеть верстает микро-приложение прямо в чате под конкретный запрос. Аналитика: Просишь сравнить данные — нейросеть кодит дашборд с фильтрами и зумом. Утилиты: Считаешь ипотеку — она собирает калькулятор вместо текстового ответа.
🧙♂️ Протестировал механику и 👉 записал разбор нового UX.
⚡️GEMINI 3.0: СТРИМ
Тестируем лучшую модель для фронтенда (внутри Antigravity, а также внутри Canvas в Gemini и V0).
🤯 ГЛАВНОЕ: Google Antigravity IDE
Протестировали новый ИИ редактор. Понравилось, что Antigravity умеет полностью управлять браузером: сам кликает, ждет загрузки, делает скриншоты ошибок и чинит код.
В перспективе замена Курсору, пока сыроват и есть проблемы с доступом.
👇 Смотреть запись и забирать артефакты:
📺 Стрим: YouTube
Артефакты: • Minecraft • Warcraft 1 RTS • Prince of Persia • Трекер (React) • TRT.OS
Запись на хакатон: @hashslash_bot
Очередная новость из мира вайб-кодинга, которая каким-то образом проходила мимо меня последние две недели.
Некий Сэмми скучал дома и решил в качестве эксперимента подключить контроллер от PS5 к своему роботу-пылесосу DJI Romo. Как любой уважающий себя современный инженер, разбираться с подключением он не стал и поручил это Клоду. Клод попыхтел-попыхтел и отчитался, что работа выполнена — Сэмми теперь может управлять своим пылесосом.
Своим и ещё примерно семью тысячами чужих.
В процессе выяснилось, что подключение к облаку DJI устроено так, что один валидный токен от своего устройства мог давать доступ к чужим: управлению, карте дома, телеметрии и видео/аудио с камер и микрофонов. По заявлению DJI, это была ошибка проверки прав в MQTT-коммуникации между устройством и сервером (видимо, сервер проверял только наличие валидного токена, а не то, для какого устройства этот токен выдан). Так что история, скорее, не про хакерские способности Клода, а про уровень надёжности всех этих ваших умных домов.
Сэмми оперативно сообщил об этом в DJI (а заодно и паре журналистов) — дыру, как утверждают, сразу закрыли.
Сэмми-то молодец и уязвимостью во вред не воспользовался, но интересно, сколько таких случаев будет в ближайшие месяцы и годы, когда “повезёт” людям менее обременённым моралью. Вспоминается цитата из “Дозоров” Лукьяненко: — Если все люди станут магами… Сегодня тебе в трамвае нахамят, а завтра — испепелят на месте. Сегодня неприятному соседу дверь гвоздиком поцарапают или анонимку в налоговую напишут, а завтра порчу напустят или кровь высосут.
Ну а на свой собственный пылесос я теперь, конечно, с опаской поглядывать буду.
Люблю периодически у Claude Code запрашивать фидбек о наших сессиях через команду /insights. Кстати, это очень крутая фича, которая позволяет качественно улучшить процесс вайб-кодинга.
Жду, пока там появится пункт о том, чтобы я его меньше оскорбляла и материла. Стоп мне неприятно 😨
мне надоело платить 200$/мес за gpt pro и я построил своего агента для deep research (делюсь с вами кодом)
gpt pro даёт мощную глубину — модель реально копает тему заходами по 30 минут. но ты не контролируешь сам рисёрч: откуда она берёт данные, как фильтрует источники, почему решила что этот сайт достоверный. она постоянно тащит SEO-мусор и AI-слоп, но на это трудно повлиять
стандартная история — это репорты, где он пишет про «самые актуальные модели — sonnet 3.5 и gpt-4o», хотя к тому моменту модели сменились раз 5. в современном мире это непозволительно. я собрал вместо этого свой дип рисерч над claude code
мой пайплайн — 5 шагов: — декомпозиция темы на ~8 аспектов через разные призмы (who, what, so what, avoid) — параллельный рисёрч каждого аспекта агентами — синтез находок — red team — а что если всё это буллшит? проверка предположений с обратной стороны — упаковка финальный отчёт
оркестрацией шагов занимается мой фреймворк — claude-pipe. плюс у меня есть мой личный slop-checker skill, который фильтрует источники по критериям.
каждый шаг — отдельный агент со своими инструкциями. не один промпт на всё, а конвейер где каждый этап проверяет предыдущий. одно исследование обходится в ~$1 через exa. значительно шире и глубже, чем gpt pro
выложил на гитхаб, просто дайте ссылку на него своему claude code / openclaw: github.com/bluzir/claude-pipe/tree/master/examples/research-pipeline
настоящий рисёрч — это система которую ты контролируешь. знаешь откуда данные, можешь поменять критерии, перезапустить один кусок не переделывая всё. я убежден, что в 2026 такая должна быть у каждого. с вас звездочки на гитхабе!
🔍 В Claude Code появилась команда /insights
Новая команда анализирует историю твоих сообщений за последний месяц и выдает: - Саммари проектов над которыми работал - Как ты используешь Claude Code - Предложения по улучшению workflow
По сути - персональная аналитика твоей работы с AI-ассистентом.
#claude #claudecode #ai
————————— Мысли Рвачева —————————
В поисках самого лучшего эмулятора терминала
Как подметил Тонский, пока мы пытались сделать хорошие интерфейсы — зумеры ушли в консоль. А для консоли нужен эмулятор терминала, чтобы вывозить все эти реакт-приложения (что? да!)
Сначала немного теории.
Что такое эмулятор терминала? Это программа, которая эмулирует древнюю железку — терминал. Например вот VT100. То, что в обиходе называет терминалом, на самом деле эмулятор такой железки.
Что такое эскейп последовательности? Нам нужно отправить в шелл или в программу, запущенную в консоли комбинацию клавиш, которую мы нажали. Но у нас нет никакой возможности, кроме как закодировать это набором символов. Как-то так `^[b` для option + left. Попробуйте сами — нажимаем `ctrl + v` и дальше нажимаем нужную нам комбинацию клавиш.
Проблема в том, что нет нормального стандарта на эскейп последовательности. Если в базовых option+left и т.д. все ещё более менее совпадают, то shift+enter кто во что горазд кодирует. Как система понимает, с каким эмулятором она работает? Знание об этом храниться в $TERM. Например, для terminal и item2 это будет `xterm-256color`. Для других терминало может быть другое значение. В системе есть целый справочник `/usr/lib/terminfo` где сказано, как читать эскейп последовательности для вашего эмулятора терминала.
Родной эмулятора терминала macOS — отлетает сразу, у него нет эскейп-последовательностей на shift + enter (а нам надо! мы же хотим в клод коде промпты писать!). И не круто же, из коробки белый фон. Мы такое не уважаем, эмулятор терминала должен всем показать, что ты крутой хакер.
iterm2 дефолт, но конечно достал. Не быстрый, из коробки пользовать им невозможно (ну реально раздражает каждый раз после установки идти проходить квест по настройке эскейп последовательностей в диких менюшках). Ну и просто старый. Фу. Но куда бежать?
Ghostty. Быстрый (написан на zig), нативный, с простым конфигом. Ну просто лепота. Но есть одно но, большинство линуксов ничего о нём не знает. И когда вы подключитесь по ssh и откроете клод код — shift + enter работать не будет. В ghostty это понимают и предлагают автоматический режим для закидывания terminfo на любую машинку куда вы подключаетесь. Даже два режима: прокидывай terminfo, либо автоматически подменяй $TERM на xterm-256color (нам не катит, мы же ищем shift + enter). Если вы готовы немножко помусорить на удалённых машинках, то всё ок.
Kitty Тоже быстрый, но не такой нативный и красивый как Ghostty. Супер конфигурируемый, мощь. Проблема с terminfo присутствует.
Warp. AI во все поля. Чтобы зайти — нужно создать в облаке учётку и залогиниться. Это я не понял и не уважаю. Не по нашему это, не по хакерски. Дизлайк, отписка.
Пока остановился на Ghostty за красоту. Но релизы там какие-то ну совсем редкие. Наверное дальше пойду на Kitty
🧠 Anthropic добавил авто-память в Claude Code
Теперь Claude Code запоминает контекст проекта между сессиями - паттерны отладки, предпочтения в коде, архитектурные решения - и подтягивает это в следующей сессии автоматически.
Как работает: - Claude сам записывает заметки в директорию ~/.claude/projects/<project>/memory/ - Главный файл MEMORY.md (первые 200 строк) загружается в каждую сессию - Детальные заметки хранятся в отдельных файлах (debugging.md, api-conventions.md) и читаются по запросу - Можно сказать "запомни, что мы используем pnpm" - и он сохранит
Что запоминает: - Команды сборки, тестов, линтера - Стиль кода и naming conventions - Решения сложных багов - Ключевые файлы и связи между модулями
Помимо авто-памяти есть иерархия CLAUDE.md файлов - от организационного уровня до личных настроек на проект. Можно даже создавать модульные правила в .claude/rules/ с привязкой к конкретным путям через glob-паттерны.
Документация: code.claude.com/docs/en/memory
#anthropic #claude_code #ai
————————— Мысли Рвачева —————————
Дневник экспериментов
Некий новый паттерн работы, который я взял на вооружение с Claude Code - это просить его писать отчеты / срезы по времени с промежуточными результатами наблюдений / прогрессом / ход проверки гипотезы / читаемый лог эксперимента
Помогает отслеживать прогресс по всем фронтам, освобождать свою оперативку в голове (помнить важное), не терять LLM контекст (сокращаемый Клодом за счет саммаризации), держать руку на пульсе, вспоминать на следующий день где вы остановились, да и вообще понимать как поживают те или иные гипотезы/эксперименты/проблемы
Кроме того, можешь поделиться инсайтами с коллегами при необходимости, сгенерив мета-ревью хода эксперимента