EDU
@productsandstartups·Фаундер
AI-саммари
Добавил агентам self-review и обнаружил, что сама инструкция «проверь работу перед отправкой» улучшает качество ещё до ревью — называет это «эффектом Хоторна для AI». Строит агентов для B2B продаж в onsa.ai, параллельно выкладывает инструменты в открытый доступ: от скилла квалификации лидов до autoresearcher-паттерна для тестирования голосового агента. Убеждён, что системное мышление становится главным дифференциатором в мире, где исполнение обходится дёшево, — и запускает об этом курс. Claude Code — его основная рабочая среда, где создаёт скиллы для всего: Remotion-видео, вайб-аналитика канала, Telegram MCP setup. Для критических решений запускает Claude, Codex и Gemini CLI в режимах «дебаты» и «совет», чтобы триангулировать между моделями.
Машины учатся платить
С интернетом для AI агентов мы разобрались - а что там с платежами? Stripe запустил Machine Payments Protocol - открытый стандарт для автономных платежей AI-агентов. HTTP 402 Payment Required, который 30+ лет пылился в спецификации как «reserved for future use», наконец заработал (упоминал про него тут).
Получил доступ и затестил - вот как это работает: 1) Агент запрашивает платный ресурс 2) Сервер: HTTP 402 + «вот сколько стоит» 3) Агент авторизует платёж через токен, привязанный к карте пользователя (или крипту) 4) Повторяет запрос - получает доступ + чек
Ключевое: агенту не нужен крипто-кошелёк. Shared Payment Token (SPT) — одноразовый токен с лимитами (сумма, срок), привязанный к обычной карте через Stripe. Вы контролируете, сколько агент может потратить.
Кстати, если захотите получить фасттрек на доступ: напишите на machine-payments@stripe.com с вашим US Stripe account ID и парой предложений о юзкейсе.
Кто уже принимает оплату от агентов: - Browserbase - headless-браузер сессии (кстати, норм обходят каптчу) - PostalForm - печать и отправка физических писем, ждите спама и писем счастья от агентов :) - Prospect Butcher - сэндвичи с доставкой в Нью-Йорке o__O
Даже рассрочка платежа поддерживается.
Интересно, какой он будет апстор для агентов? top grossing ресурсы для агентов, i.e. что агенты покупают чаще всего? система репутации? Какая она экономика агентов? Вообще, сегодня разгоняли на тему: как выглядит agent-native GTM (go-to-market) motion? То есть как продвинуть сервис, ориентированный на агентов? Вот я сдуру поставил firecrawl skill себе и теперь, в каждый непредвиденный момент, мой claude code юзает его вместо родного webfetch, и довольно тратит мои кредиты. Очевидно, что это growth hack.
А вы что планируете дать агенту возможность покупать?
Вайб-аналитика прижилась. Знакомьтесь, Клавдия
В прошлом году я ввёл термин «вайб-аналитика» и написал, что AI-агент вполне может заменить дата аналитика. В феврале показал, как за пару минут собрать дашборд. Вчера, Андрей И. (развивает мобильное приложение), один из участников 3го потока AI Product Engineer, прислал такой кейс:
В ходе прохождения курса я сделал через Claude desktop скилл работы с аналитикой и был безумно счастлив. За прошедшие два месяца пошел дальше и сделал в slack бота Claudia, которая отправляет headless запрос в Claude code на vps, которую мы подняли вместе с Claude code. У Клавдии есть доступы в Clickhouse, PostgreSQL, Redash, Growthbook, Notion, Trello, Google таблицы, Zoom... и теперь это наш супер мега сотрудник живущий в слаке который очень много чего полезного нам делает. Прикольно то что первую рабочую версию я сделал в аэропорту за два часа в ожидании самолета.
Что Клавдия умеет: - Аналитические запросы: retention, воронки, когорты - Анализ A/B-экспериментов - Ежедневный дайджест в 6 утра: баги, отзывы из App Store/Google Play, фичер-реквесты - Еженедельные отчёты по экспериментам и контенту - Индустриальный дайджест: парсит 9 отраслевых блогов (revenuecat, adapty, lenny's и др) - Транскрипция голосовых - Читать и соотносить код из GitHub
Под капотом: Claude Code CLI в headless-режиме + 7 MCP-серверов для доступа к данным и инструментам. $100/мес по подписке, не по API.
Статистика за 3 недели: - 428 запросов, 14 уникальных пользователей - Рекорд: 89 запросов в один понедельник - Команда научилась писать «быстро» для скорости и «opus» для глубокого анализа
Из забавного: команда пыталась выудить у Клавдии токены (бот отказал 3 раза за 1.5 часа), задавала философский вопрос «прилично ли спрашивать у дамы размер окна контекста?», а единственный голосовой запрос за всё время: «напиши в канал General, чтобы все срочно улыбались».
Но ключевое в словах Андрея:
Самое главное (чего не было в прошлых попытках внедрения ИИ) это ретеншн. Сотрудники к ней ежедневно обращаются, значит видят ценность.
14 человек, каждый день, 3 недели. Причём не только продакты или аналитики: на скриншоте, например, UX-ресерчер готовится к интервью с пользователем и просит Клавдию показать паттерны использования. Это не «вау, прикольно» после демо, а product-market fit для AI-инструмента внутри команды. И это главный вопрос любого AI-внедрения: будут ли люди возвращаться?
Три урока из их опыта: 1) Система знаний > память модели. Markdown-файлы с паттернами и правилами работают надёжнее, чем надежда, что модель «помнит» схему БД 2) Возможность запускать код заблокирована. Prompt injection через Slack реальная угроза 3) Сессии по тредам = естественный UX. Один тред = один контекст. Ничего не нужно изобретать
Собственно, главное захотеть и сделать. Дерзайте
Будем вджобывать
Мой любимый, из живых, экономист Тайлер Коуэн написал забавную статью, всего 2 тезиса: 1) Если AI так прокачается, что автоматизирует мою работу - снизит ценность моего человеческого потенциала - то деньги, которые я могу заработать за свои скиллы СЕЙЧАС больше, чем в будущем. Поэтому, выходит, надо больше работать.
2) Если же AI не автоматизирует меня, а усилит (automate vs augment) мои способности, то мне сейчас надо по максимуму прокачивать себя в AI, чтобы быстрее получить пользу и заработать больше капитала.
Поэтому, вывод один: надо больше работать :)
В комментах был забавный пример, что если вы - производитель повозок для лошадей - примерно, когда изобрели автомобиль, то вам точно в этот момент надо брать как можно больше заказов, i.e. работать больше, пока есть время. Либо научиться ремонтировать автомобили. В любом исходе - придется больше работать.
P.S. ««С воодушевленно-грустным от безысходности настроем ушел работать с дружбаном »»
Clawwork Cowork
Тем временем Anthropic превращает Cowork в эдакого clawdbot/openclaw --> появилась фича Dispatch, которая позволяет с телефона запускать задачи на компе: на скрине я попросил сказать мне, что на последнем скриншоте, что я сделал
Как я говорил на том вебинаре - подобие openclaw/clawdbot постепенно появится в "безопасном" виде у топовых лаб. ЧТД. Но проактивность пока не подвезли "Claude responds to messages only. Claude won't reach out proactively—it only works on tasks you assign."
собственно, применил "философию" autoresearcher-а для тестирования нашего нового голосового агента, добились серьезного улучшения по ряду параметров
теперь можно переходить к тестам с бизнес-пользователями —> то есть это ни в коем случае не замена тестирования с людьми, а скорее дополнение, подготовка к оному
вкратце процесс и результат - в аттаче
P.S. если у вас стоит задача cold calling-а в US/UK/EU - то пишите в личку или через форму на onsa.ai
Web для AI агентов
В последнее время много говорят про то, что новыми пользователями и, вероятно, потребителями станут AI агенты. Как вы знаете, мне очень интересна эта тематика, поэтому с удовольствием тестирую все новое.
Вообще, конечно непонятно, как скоро это будущее станет реальностью: уже пора для них билдить, или еще рано?! Имхо, чем чаще ты с ним соприкасаешься, тем вероятнее почувствуешь, когда уже "пора".
Собственно, в аттаче короткое видео про webmcp - это стандарт для того, чтобы AI агенты легко взаимодействовали с вебсайтами: разработчик сайта может добавить парочку атрибутов в формочку поиска билетов, например, и агенты смогут без скрейпинга и считывания скриншотов вызывать её. При этом, кстати, разработчик будет знать, что это именно агент (на случай, если для них цены другие показывать 😉)
Понравилось, как Андрей на днях в комментарих к посту написал, как он касдевит агентов o__O: "Каждую сессию агента, который использует мои тулы, я прошу описать что бы он улучшил в работе тулы. Получается что-то вроде касдева для агентов. Это помогает взглянуть на тул глазами агента, а не человека."
Вступаем в Early Preview Program - тут
А вы уже подкручиваете продукт под новый дивный мир?
P.S. кстати, еще до LLM до 50% трафика на сайтах поиска билетов были боты
По заявкам телезрителей - скилл для создания видео на базе remotion
что он делает: 1) интервьюирует вас: для кого видео, какова цель, какой стиль 2) дизайнит сценарий 3) использует remotion, чтобы его сгенерить 4) панелью экспертов делает ревью и улучшает
Попробуйте и присылайте свои результаты - например, по мотивам какого-то поста в этом канале
https://github.com/BayramAnnakov/remotion-video-director
Системное мышление + AI?!
Наняли больше людей - а шипить стали медленнее. Купили всем Claude Code Внедрили AI - расходы выросли, а производительность на том же уровне. Починили одну проблему - появились две новые.
Знакомо? Это не баги. Это то, как работают системы. Вы оптимизируете элемент, но элемент - это часть системы, и система реагирует (зачастую сопротивляется). Причем, почти всегда не так, как вы ожидали.
Тоби Лютке, фаундер Shopify, говорит об этом так:
Большинство людей мыслят причинно-следственно, но мир так не работает. Мир — это петли, а не линии»
Я наблюдаю, думаю и изучаю системы уже 20 лет. Когда я впервые построил модель Empatika, я был уверен: узкое место в продажах. Модель показала — в онбординге. Без неё я бы потратил полгода и кучу денег не туда. С тех пор я использовал системное мышление во всех своих компаниях и проектах.
Собственно, пришла пора систематизировать и обновить материалы, вновь поговорить про системы, поизучать их, заземлить на практические ситуации в личной и бизнес жизни.
"Бай, а где ЭйАй?" - вопрос, который мгновенно возник в моей голове, когда я стал продумывать детали. С такими стремительными изменениями, может, оно [системное мышление] нам не нужно вовсе? LLM-как все петли нарисует, рычаги найдет, и будет счастье.
Но, по крайней мере пока, для меня это скорее про помощь/фасилитацию в изучении и применении, нежели замена. И именно в этом ключе мы будем AI вспоминать и использовать на курсе.
Кстати, вот даже Харрисон Чейз, основатель LangChain, на днях в своей статье про изменения, которые несут AI кодинг ассистенты в разработку продуктов, высказался, что системное мышление - один из ключевых скиллов в этом новом дивном мире:
"In a world where execution is cheap, system thinking becomes the differentiator."
Стартуем курс в апреле, подробности тут: https://empatika.com/courses/ai-systems-thinking
Надеюсь, увидимся!
GitHub для агентов или Как Карпатый ответил на мой вопрос
2 месяца назад я задал вопрос на reddit: Как выглядит GitHub в эру AI? Там на меня норм так налетели. Но на этой неделе Карпатый, кажется, дал начало ответа.
autoresearch (24.5K звезд за 5 дней): это автономный ресерчер, который перебирает параметры и улучшает результаты, пока ты спишь. Но меня зацепил не сам факт автоматизации, а то, как Андрей построил guardrails вокруг нее, чтобы максимизировать успех:
1) Вся "оркестрация" — markdown-файл Три файла: prepare.py (подготовка данных, константы, оценка результатов и тп - агенту нельзя его трогать), train.py (агент может менять что угодно), program.md (инструкции на человеческом языке, меняется человеком). Агент читает инструкции и следует им, больше ничего.
из program.md: The idea is that you are a completely autonomous researcher trying things out. If they work, keep. If they don't, discard. And you're advancing the branch so that you can iterate. If you feel like you're getting stuck in some way, you can rewind but you should probably do this very very sparingly (if ever).
Ключевой ход: агент может менять ВСЁ в тренировке - архитектуру, оптимизатор, гиперпараметры - НО не может менять, как его оценивают. Помните "агент падает до уровня своего harness-а" - тут вот это возведено в идеал имхо.
2) NEVER STOP Инструкция прямо говорит: "Не останавливайся спрашивать 'продолжать ли?'. Человек спит. Работай, пока тебя не остановят."
NEVER STOP: Once the experiment loop has begun (after the initial setup), do NOT pause to ask the human if you should continue. Do NOT ask "should I keep going?" or "is this a good stopping point?". The human might be asleep, or gone from a computer and expects you to continue working indefinitely until you are manually stopped. You are autonomous. If you run out of ideas, think harder — read papers referenced in the code, re-read the in-scope files for new angles, try combining previous near-misses, try more radical architectural changes. The loop runs until the human interrupts you, period.
Это ограничение не против ошибок, а против "социальных привычек" самого агента. Модели обучены спрашивать разрешение, и здесь это явно переопределяется.
Вот что Карпатый написал по этому поводу: sadly the agents do not want to loop forever. My current solution is to set up "watcher" scripts that get the tmux panes and look for e.g. "esc to interrupt", and send keys to whip if not present. Need an e.g.: /fullauto you must continue your research! (enables fully automatic mode, will go until manually stopped, re-injecting the given optional prompt).
3) Git как state машина. Каждый эксперимент = коммит. Если успешен, то ветка двигается вперед, если нет - откат. Но неудачные эксперименты тоже записываются в специальный журнал.
=== Теперь про GitHub для агентов: Сначала Карпатый сделал отдельный репозиторий agenthub - там прямо на старте было написано (см. аттач): "GitHub is for humans. Agenthub is for agents."
Де-факто это какая-то помесь github и moltbook, где агенты обмениваются друг с другом результатами и достижениями, давая другим пищу для размышления и экспериментирования. Потом, правда, он удалил его, и теперь это ветка в autoresearch.
=== На выходных попробую «адаптировать» autoresearch для более приземленных задач - поиск наилучшей стратегии поиска (сорри за каламбур) идеальных клиентов, оптимизационные задачи для рекламы и тп. Обязательно напишу, если получится что интересного
P.S. в agenthub, как видно на скрине, всего 2 контрибьтора - угадайте второго? 🤖
"Агент, причешись" или Зачем агенту зеркало
Обычная ситуация с Байрамом: проснулся в 5.45, вышел на звонок в 6, не включил self view в зуме. При просмотре записи встречи понял, что на голове управляемый хаос совсем не причесался
Вот примерно так работает большинство AI агентов: генерируют результат и сразу отправляют, ни разу не взглянув на то, что получилось.
Кейс 1: Презентации
Как вы знаете, я уже некоторое время делаю презентации с помощью Claude Code. Но проблема в том, что зачастую текст налезает на картинки, картинка сплющены, композиция поехала. Собственно, приходится все это править руками. Но как-то мне это все надоело, разобрался в вопросе, и просто добавил в скилл одну инструкцию: "Сгенерируй превью всех слайдов, просмотри их сам и исправь проблемы."
Всё. Одна строчка. Агент уже знал, как выглядит хороший слайд - он просто никогда не смотрел на свой результат (!). Это как дать агенту зеркало и попросить причесаться.
Кейс 2: Агенты в Onsa
Мы недавно эту же идею применили в onsa: каждый агент - поиск лидов, написание аутрича, квалификация - перед тем как отдать результат пользователю или следующему агенту, делает self-review.
Реальный пример. Агент искал фаундеров из YCombinator. Первая попытка - ноль результатов. Вторая - нашёл 10, но с низким скором релевантности. Уже собирался отправить дальше, но self-review поймал: "скоры слишком низкие." Третья попытка с другими параметрами - уже лучше.
Из неожиданного
Мой коллега Лёша подметил давеча: даже когда self-review ничего не ловит - вроде бы стало меньше косяков в целом. Как будто сама инструкция "твоё сообщение будет заморожено, тебе надо проверить свою работу прежде чем отправить" меняет качество генерации ещё до ревью.
Хоторнский эффект для AI агентов? o__O (возможно, это просто выброс, но забавно будет, если окажется так)
===
Собственно, это классический паттерн Reflection, о котором я уже писал, и который хорошо покрывается во 2м модуле "Agentic AI" курса Andrew Ng.
Итого: прежде чем добавлять агенту новые инструменты, данные или более дорогую модель - попробуйте сначала "дать ему зеркало". Возможно, он уже знает достаточно — просто никогда не смотрел на свою работу.
А вы как своих агентов просите причесаться? :)
Полезное в Claude Code - Scheduled Tasks
Можно назначать задачки по расписанию; пока только для Claude Code Desktop
P.S. Напомню, кстати, что в Claude for Chrome тоже есть такое
Что бы я делал, если бы не надо было зарабатывать?
Большинство отвечает в стиле: путешествовать, выспаться, купить квартиру. Гуд, я так и делал после ухода из App in the Air. А что дальше? Что с вами происходит спустя 3 месяца?
Есть вопрос получше: что я уже делаю "бесплатно"?
Посмотреть на свои выходные. На вкладки в браузере. На кроличьи норы, в которые уходишь в 11 вечера, когда никто не смотрит.
У меня ответ простой: мне нравится помогать другим "выигрывать". Не в абстрактном "делать мир лучше", а конкретно: фаундеру, который ломает голову над первым аутричем. Продакту, который учится работать с AI. Человеку, который застрял в решении и ему нужно второе мнение.
Собственно, поэтому я и делаю и Onsa, и EDU - не только потому что "AI в продажах" звучало как хороший рынок (рационализация?), а еще и потому, что я и так это делал и подумал: а что если помогать большему количеству людей одновременно? Тоже самое с курсами - я и так вел этот канал, делал вебинары, просто захотелось их масштабировать.
А второй мой ответ - мне нравится комбинировать компьютеры и бизнес. Не компьютеры ради компьютеров. Не бизнес-теория. А то пересечение, где технология меняет то, как люди реально работают и зарабатывают. Забавно, что я учился на факультете инженеры без мозгов Инженерный бизнес и менеджмент, лучше даже не опишешь.
=== Кстати, забавно, пока писал этот пост, Claude Code выдал мне мотивационное сообщение, которое я сам же и настроил: "Who can I help today?" (см. аттач). Даже дружбан в курсе :) ===
Я считаю, что вопрос сейчас актуальнее, чем когда-либо. AI делает аутпут одного человека в 10-100 раз больше —> барьеры входа для того, чтобы заняться своим настоящим ответом, резко падают. Думаю (или надеюсь?), мы увидим взрывной рост предпринимателей, похожий на аналогичное с появлением social media & YouTube.
Вопрос смещается на "что бы я делал в любом исходе?"
Так, собственно, а что вы уже делаете бесплатно? :) Подумайте об этом на выходных
Теория vs практика или Какие из наших задач AI уже автоматизирует?
Anthropic сегодня выпустили исследование о влиянии AI на рынок труда. Помните, я писал про их Economic Index год назад ? Тогда это был просто каталог задач, для которых юзают Claude. Теперь они пошли дальше: совместили теоретические возможности AI с реальными данными использования и замерили эффект на занятость.
Ключевая идея: новая метрика "observed exposure" - не "что AI теоретически может", а "что люди реально автоматизируют через Claude прямо сейчас". Разрыв огромный: в Computer & Math, например, теоретически AI покрывает 94% задач. Реально - 33%.
Я покопался в их датасете и нашел интересные примеры этого разрыва по релевантным профессиям + запилил вам бота, чтобы проверять это для себя любимого:
Разработка: - "Написать/обновить программу" - 93% - "Отладить робототехническую программу" - 100% - "Устранить неисправность физического оборудования" - 0%
Продажи: - "Связаться с клиентами для презентации продуктов" - 99% - "Ответить на вопросы клиентов о ценах" - 98% - "Провести переговоры по контракту" - 0% (ВСЕ задачи с negotiate - нулевое проникновение)
Аналитика/менеджмент: - "Анализ финансовых данных для разработки стратегии" - 90% - "Подготовка отчётов" - 99% - "Проведение совещаний с командой" - 0% - "Контроль персонала" - 0%
Видите паттерн? AI забирает задачи, которые можно описать текстом и выполнить за компьютером. Всё, что требует физического присутствия, переговоров лицом к лицу или управления людьми - ноль. Как раз со Стёпой про это говорили на днях.
Тут имхо в тему пост по мотивам Digitalist Papers: там авторы на данных рынка труда США за 40 лет показали, что одна и та же технология (компьютеры) - автоматизировав часть задач бухгалтеров и складских работников - привела к противоположным результатам. У бухгалтеров зарплаты выросли, у складских - упали. Разница: у бухгалтеров автоматизировали рутину (ввод данных), а у складских - экспертизу (знание что где лежит). Когда автоматизируются экспертные задачи, барьер входа падает и зарплаты снижаются. Когда рутинные - наоборот.
Anthropic по сути предоставили данные, чтобы это проверить для AI. И по их датасету мы видим: AI сейчас автоматизирует рутину, а не экспертизу. "Ответь на звонок" - 100%, "проведи переговоры" - 0%. "Напиши отчёт" - 99%, "управляй командой" - 0%. Если экстраполировать выводы Digitalist Papers, то AI пока скорее повышает ценность оставшейся экспертизы, чем обесценивает её. Но "пока" здесь ключевое слово имхо.
Что с рабочими местами? Массовых увольнений нет. Безработица среди "экспонированных" профессий не выросла. Но есть тревожный сигнал: молодых (22-25 лет) стали на 14% реже нанимать на эти позиции. Не увольняют старых, а просто не берут новых. Это перекликается со Stanford-ским исследованием, о котором я писал летом - там нашли -13% найма джунов.
Профиль "экспонированного" работника: чаще женщина, с высшим образованием, зарплата на $10/час больше. AI пока бьёт не по самым уязвимым, а по среднему классу с дипломом. 30% рабочей силы с нулевой экспозицией: повара, бармены, спасатели, посудомойщики.
Вы пока читайте статью и пробуйте бота, а я пошел учиться на бармена-повара (full stack!)
Подумал, а почему бы тизеры к weekly митингам не делать так, м?
Дурная голова Claude Code-у покоя не даёт
Чему AI-агенты могут научиться у C++
Мы недавно поняли, что давая агенту слишком много инструкций, мы его "тупим": буквально ограничиваем, а не помогаем. И недавно Jeff Dean, Chief Scientist в Гугле, запостил их гайд по оптимизации C++ и там несколько забавных параллелей c AI агентами (в том числе на тему "делать тупее"):
1) Оптимизации, потерявшие актуальность В C++ оптимизации под старое железо начинают вредить на новом. Inline assembly из 2008 года сегодня медленнее нативного кода, потому что компилятор стал умнее.
В агентах имхо похожее. К примеру, системный промпт Codex сократился на 66% при переходе с o3 на GPT-5: убрали инструкции как планировать, как работать с гитом, как валидировать, поскольку модель уже это знает.
В ту же тему Anthropic в гайде по eval-ам пишет, что лучше оценивать, достиг ли агент цели, а не конкретный путь, которым он шёл. Цели > пошаговые инструкции.
Кстати, сегодня выложили классный скилл по эвалам - рекомендую!
2) Односторонние двери решения Безос разделяет решения на обратимые и необратимые ("односторонние двери"). Jeff Dean упоминает эту же идею в контексте разработки.
В уже упомянутом гайде от Anthropic выделяется 2 типа эвалов: - pass@k (хотя бы одна из k попыток успешна —> как генерация кода пока тесты не пройдут) - pass^k (каждая из k попыток должна быть успешной —> как отправка писем клиентам).
Пример: агент шлёт 5 холодных сообщений, каждое с 90% шансом быть адекватным. Вероятность, что ВСЕ 5 ок: 0.9⁵ = 59%, то есть надёжность падает экспоненциально.
Отсюда правило: необратимое действие (email, перевод денег) должно проверяться или человеком (human-in-the-loop) или детерминистически. Обратимое (черновик, анализ) - можно особо не париться, пусть фейлит тесты, пока не справится.
3) Агент "падает" до уровня своего harness-а Помните James Clear: "Вы не поднимаетесь до уровня своих целей. Вы падаете до уровня своих систем."
В C++ совет звучит так: не полагайтесь на чеклисты, закодируйте проверки в автоматизацию. Проверки до запуска (compile-time) > проверки после (runtime).
По аналогии, агент не поднимается до уровня своего системного промпта, он падает до уровня своих "подпорок" (harness-а). В условном Claude Code можно настроить хуки - детерминистические проверки до и после каждого tool call:
pre_tool_call: if tool == "send_email" and not draft_mode: reject("Requires human approval")
Это compile-time проверки для агентов, которые не зависят от их "настроения" сегодня.
4) Numbers Every AI Engineer Should Know Jeff Dean когда-то составил таблицу временных затрат "Numbers Every Programmer Should Know". Я подумал, что прикольно будет ее адаптировать для AI агентов, что-то в стиле:
Локальная БД: ~10 мс Чтение файла: ~50 мс Поиск по коду (grep): ~100 мс Vector/embedding поиск: ~100 мс Облачная БД: ~100 мс LLM (Haiku/Flash): ~1 с / ~$0.001 LLM (Sonnet 4.6 / GPT-5.2): ~3 с / ~$0.005 Web search API: ~2 с / ~$0.005 Web page fetch: ~3 с / ~$0.01 LLM (Opus 4.6): ~4 с / ~$0.01 LLM (Sonnet 4.6 + reasoning): ~15-30 с / ~$0.03 LLM (Opus 4.6 + extended thinking): ~30-60 с / ~$0.10 Мульти-агент (10 turns, Sonnet 4.6): ~3 мин / ~$0.50 Ревью человеком: минуты-часы / $$
Диапазон: от 10мс до часов ~6 порядков. И тот же вывод, что у Dean-а: знай, где твоё узкое место: если агент делает 10 вызовов Opus, когда хватило бы 1 Opus + 9 Haiku — ты переплачиваешь 10x и по времени, и по деньгам. Особенно, если ретрай допустим (см. pass@k пункт выше)
===
Итого: - С каждым апгрейдом модели - (потенциально) подчищаем промпты - Выделяем действия агента на обратимые vs необратимые, ставим human in the loop в последних - Добавляем детерминистические проверки, чтобы не дать агенту делать ненужные ошибки - В голове и на бумажке прикидываем стоимость операций - не используем ли мы условный Opus там, где хватит Haiku? Кстати, надо сделать skill на эту тему наверное, м?
Отрывок 1й встречи AI Native Product Team: enjoy!
https://youtu.be/TlMSfGzv-rA?si=tFOzhTk__BM4O8Xd
Завтра поразгоняем со Стёпой про ai native организации и не только
Завтра проведем лайвстрим с Байрамом Аннаковым, основателем onsa.ai, App in the Air и Empatika.
Говорить будем об использовании агентов в бизнесе: как компании используют агентов в продажах, ops, маркетинге, управлении, финансах? о том, как гарантровать автономию бизнес-процессов и как сделать чтобы функция работала автономно максимально долго и самоулучшалась?
Начало завтра в 5pm GMT (20:30 MSK / 9:30am PST) на этом канале!
Как я сделал видео для Product Hunt
Поскольку, несколько людей спросили, как я сделал лонч видео (см пост), верно предположив, что это было напару с "дружбаном", то рассказываю:
Я использовал Remotion - это библиотечка для того, чтобы программно делать видео. То есть вы пишете код: компоненты, анимации, переходы. Точнее не вы, а Claude Code :) Я пробовал Remotion еще в январе, но тогда результат не особо впечатлил: либо я не особо погрузился, либо тупо поленился разобраться, так как задачи конкретной не было. Собственно, решил дать второй шанс —> и мне понравился результат.
Нагенерил в мульти-агент режиме сценарий, нахватал готовых иллюстраций, и дальше просто итерации для улучшения, в том числе через мульти-агент ревью, где каждый агент = персона, на которую мы таргетируемся в onsa.
Пожалуй, самым сложным во всем этом было найти музыку :)
Сколько времени и денег взяли бы за подобное видео 3 года назад?!
Кстати, у remotion есть готовый agent skill —> так что просто берите и делайте.
Удачи!
Вайб-аналитика - Анализируем данные моего канала с помощью AI
Anthropic выложили опенсорс-плагины для Claude, покрывающие продакт менеджмент, маркетинг, продажи, финансы, legal и другие knowledge work роли. Они же есть в Cowork.
Я уже писал про вайб-аналитику, поэтому сегодня попробуем именно data плагин. В нем 6 команд: /explore-data — профилирование датасета: структура, качество, аномалии /analyze — ответы на любой вопрос /write-query — SQL под 8 диалектов (Snowflake, BigQuery, Postgres...) /create-viz — генерация графиков /build-dashboard — интерактивный HTML-дашборд /validate — проверка выводов перед отправкой стейкхолдерам
Решил проверить на реальных данных — взял engagement статистику своего канала (просмотры, форварды, реакции за январь).
Проделал на них следующее: 1) /explore-data → сразу увидел: 35 строк, но только 23 уникальных поста. Дубликаты — потому что фотки к постам хранятся как отдельные записи.
2) /analyze → после дедупликации паттерны: - Форварды лучше отражают интерес (это в том числе сохранение к себе в Saved Messages): пост про Claude Code стрим (#1633) — 499 форвардов, топ канала - Практические кейсы ("как я делаю X") — чемпионы: в среднем 188 форвардов и 6.6% engagement rate - Личные/рефлексивные посты — наоборот: всего 35 форвардов, но 65 реакций. Люди чувствуют, но не шерят - Разброс engagement rate — 15x: пост про Claude Code стрим (#1633) — 12%, а "Почему люди врут?" (#1625) — 0.8%.
3) /build-dashboard → за 2 минуты собрал интерактивный HTML: KPI-карточки, scatter plot "виральность vs резонанс", сортируемая таблица (см. аттач). Без дата-инженера.
Можете попробовать сами - сначала выполните эти 2 команды в Claude Code:
/plugin marketplace add anthropics/knowledge-work-plugins
/plugin install data@knowledge-work-plugins
Все вышеперечисленные data команды станут доступны после этого (если вдруг нет, то рестартните Claude Code)
После этого скачайте CSV, откройте Claude Code в папке, в которую скачали, и попробуйте: 1) /explore-data — что он найдет в данных? 2) /analyze — какой тип постов набирает больше всего форвардов? 3) /build-dashboard — соберите свой дашборд, для пущего - дайте ему пример look & feel, который вам лично нравится или соответствую корпоративному стандарту, и пусть сделает дашборд похожим
Помните, я в прошлом мае писал, что AI-агент может заменить дата аналитика? Собственно, ЧТД
Мой ключевой поинт, что такой агент вполне может заменить дата аналитика, может в любое время дня и ночи анализировать данные, обращать внимания на просесты, и рекомендовать действия
Кто попробует — делитесь результатами в комментариях: на данных моего канала или своих любых :)
P.S. Кстати, там в плагинах не только эти команды, но и еще готовые MCP серверы: Snowflake, Databricks, BigQuery и тп
P.P.S. Попробуйте потом дать ему текст этого поста и попросить спрогнозировать engagement rate? 😉