karfly_livestream

AI-саммари

Купил Mac Mini под агента Fli 🐙 и выяснил: главная киллер-фича личного AI в 2026 году — браузер, который не блочится сайтами. Строит инфраструктуру по принципу «нанял удалённого ассистента» и честно описывает процесс как «вау/боль 50 на 50»: openclaw сырое, markdown-программирование хуже настоящего кода, зато Fli уже бронирует падел-корты — и недавно сам пошёл пинговать в чат не того Ивана. Дозрел до тезиса «outcome driven development»: хочет перестать быть «тонкой белковой прослойкой», которая тыкает кнопку и говорит агенту, что она не работает — и вместо этого закинуть задачу на 10 часов и прийти за готовым результатом. Параллельно формулирует, почему Cursor обречён без своей модели: продукты, которые строят обвязку вокруг чужих весов, проигрывают тем, у кого агент «с рождения осознаёт свой harness как часть тела». Кодит с Codex («гений-аутист», который полчаса молчит и выдаёт три строчки, фиксящих баг) и Claude Code для быстрых итераций; наращивает агентскую инфраструктуру слой за слоем — git+cron, SearXNG, Telethon-скилл, Telegram-треды для мультисессий — и тестирует paperclip как оркестратор для long-running задач.

ChatGPT Claude Codex Copilot Cursor GPT-5.1 GPT-5.2 GPT-5.3-Codex Gemini MCP Midjourney OpenClaw

11 марта 2026 г.766 просмотров

agent harness

отдельно хочу выдать мысли про harness (обвязку) вокруг агентов. есть голая llm - у нее простая задача: принять токены и выдать наиболее вероятное продолжение. магия начинается там, где вокруг этой llm строят обвязки, которые и превращают предсказатель текста в полезный продукт

самый банальный пример - чат с ии (напр. chatgpt). там обвязка работает как prompt builder: собирает системные инструкции, историю сообщений, пакует это в правильный формат и скармливает модели. но тут есть важный нюанс: современные модели еще на этапе обучения (через sft и rlhf) натаскивают именно на такую структуру. их учат понимать спецтокены ролей (user, assistant, system), реагировать на системный промпт и выдавать ответ, который идеально ляжет в веб-интерфейс. то есть модель изначально "прогревают" под работу в конкретной чат-обвязке на уровне весов

с кодинг-агентами всё стало сильно сложнее. там помимо сборщика промптов появился целый зоопарк механик: тулы, скиллы, контекст-менеджеры (rag по вашей кодовой базе), интеграция с lsp (чтобы на лету парсить ошибки синтаксиса), песочницы для безопасного запуска bash-команд, генераторы диффов для применения кода и кастомные правила из AGENTS.md. и очевидно, что большие ai-лабы и тут тренируют своих агентов прямо внутри этих сложных сред. их модели с рождения осознают эти обвязки как часть своего тела

cursor поэтому я вообще не верю в будущее продуктов, которые строят свои обвязки, но сидят на ЧУЖИХ моделях. самый яркий пример сейчас - cursor. братишкам там сейчас очень не сладко. недавно даже были сливы, что внутри компании объявили code red под игидой "нам нужна своя модель, иначе мы тупо не выживем"

pi agent еще один пример сторонней обвязки - pi agent. штука получила признание, тк используется в openclaw. но вот вам реальный кейс: я несколько раз пытался заставить pi agent внутри воркспейса openclaw починить мне оркестрацию календаря. использовалась gpt-5.4. результат - проебался несколько раз и не смог ничего исправить. ради эксперимента запускаю codex из воркспейс папки - он ваншотит проблему с первой попытки. модель одна, обвязки разные, результат - небо и земля. прямо сейчас, кстати, я пробую весь рантайм openclaw полностью перевести с pi agent на codex/claude code (благо нативное решение через acp уже есть)

paperclip а теперь про paperclip. они не стали изобретать велосипед и писать свою обвязку. вместо этого они дают выбрать из множества популярных готовых вариантов (claude code, codex, pi agent, gemini, kimi и тд). благодаря этому ты получаешь лучшее качество агента, так еще и можешь напрямую использовать свои текущие подписки (paperclip просто юзает локальный codex прямо из терминала). все что дает paperclip - это UI и тулы для взаимодействия с тасктрекером.

короче, мораль такая. свои обвязки писать больше не надо. надо использовать готовые обвязки от лаб, потому что на уровне интеграции модели и среды они всегда будут на шаг впереди

11 марта 2026 г.456 просмотров

вчера вечером поставил paperclip. это софт для оркестрации агентов через интерфейс таск трекера (визуально похож на linear)

когда проверю его на реальных рабочих задачах - дам объективную оценку, но эмоции держать в себе не могу, поэтому пишу разрозненные мысли

• вау! лучший онбординг из всех продуктов, которые я пробовал. это надо попробовать - просто вбей в терминал npx paperclipai onboard --yes • интерфейс таск трекера отлично ложится на то, как делаются проекты. агенты ставят таски друг другу по цепочке и могут работать очень долго (я этого как раз и хотел в этом посте) • в paperclip очень грамотно подумали про tracing агентов. можно смотреть ВСЕ логи, все тул коллы, все входные контексты у каждого отдельного запуска агента. в openclaw с этим сильно хуже • название paperclip - очевидно отсылка к paperclip maximizer гипотезе. на эту тему есть топовая браузерная игра Universal Paperclips в web 1.0 стиле (аккуратнее, можно залипнуть, и надолго)

11 марта 2026 г.488 просмотров

в предыдущем посте я зря быканул на телеграм

по наводке @i_failed_again и @jamilzakirov я отключил в @BotFather возможность у юзера самостоятельно создавать треды и теперь этим стало удобно пользоваться. далее у агента просишь, чтобы он самостоятельно создавал треды за тебя. и этим удобно пользовать (сильно лучше сингл треда и чата топиками)

пока что у меня 3 треда: • Main тред, в который я по дефолту пишу сообщения • Main β - просто еще один дефолтный тред. нужен, когда я веду диалог в Main и не готов терять контекст • Bell, куда приходят уведомления и напоминания

делать какие-то отдельные треды под задачи пока не стал. мне больше нравится парадигма, что я не держу долго большой контекст. но хочу сделать Fast тред, в котором будет работать Gemini 3 Flash для очень быстрых тасок

8 марта 2026 г.696 просмотров

в последней версии openclaw 2026.3.7 наконец-то нормально заработали DM требы в телеграм боте. это наиболее удобный способ менеджить несколько сессий одновременно

@BotFather -> Bot Settings -> Threaded Mode ON

6 марта 2026 г.783 просмотров

путь к outcome driven development

чем больше я пишу код с агентами, тем яснее понимаю: я всё делаю как-то не так

сейчас я просто микроменеджу агентов. даю небольшие таски минут на 10 -> сам проверяю результат -> пишу правки. и так по бесконечному кругу. если честно, это уже ощущается супер неэффективно. чувствуешь себя тонкой белковой прослойкой, функция которой - тыкнуть в браузере на кнопку и сказать агенту, что она не работает

вообще, весь этот процесс разработки очень похож на классический процесс оптимизации. а для него нужны две вещи: алгоритм и лосс-функция. в нашем случае алгоритм - это сам агент (codex/claude code) со всеми обвязками. а лосс-функция - это результат к которому мы стремимся + мера близости. то есть это сам таргет плюс оценка того, насколько мы к нему близки.

сейчас в моем процессе я промптом пытаюсь задать этот самый таргет, а агент уже сам строит поверх него неплохую лосс-функцию. это отлично работает, но только потому, что задачки мелкие. в них просто нет большого люфта в смысловом пространстве между тем, что я написал в промпте, и тем, что агент на самом деле понял. это такой instruction driven development

но хочется уйти в outcome driven development: один раз заморочиться с лосс-функцией, закинуть таску часов на 10 в цикл и прийти уже за готовым результатом

———

как заставить агента скопировать google spreadsheets?

хочется провести эксперимент - запустить long-running таску по реализации реально крупного софта. и чтобы всё это произошло (почти) автономно

и тут мы упираемся в лосс-функцию. для больших задач текстом очень сложно заранее задать точный таргет (часто только в процессе продуктовой разработки начинаешь понимать, чего реально хочешь).

но лосс-функцию можно "хакнуть". суть моего эксперимента как раз в том, чтобы сфокусироваться на написании правильной обвязки вокруг алгоритма (чтобы вся эта автономность вообще заработала). а саму проблему с лосс-функцией мы радикально упрощаем: не будем придумывать новый продукт, а просто скопируем существующий. например, google spreadsheets или mixpanel.

агент может тестировать оригинал и тыкать его сколько угодно. его единственная задача - скопировать продукт как можно точнее. в такой постановке мы вообще снимаем вопрос сложного определения таргета. таргет = сам готовый продукт, а результат определяется максимальной близостью к нему.

в связи с этим вопрос (такой же как и предыдущем посте): как в таком случае должен выглядеть agent loop + мера близости к таргету? есть ли уже какие-то плюс-минус готовые решения для такой постановки задачи?

ps: удобные термины instruction/outcome driven development подглядел у @adel_and_ml

6 марта 2026 г.607 просмотров

подскажите, какие есть готовые решения/методики/скиллы/обвязки для того, чтобы агентам давать большие long-runnning таски с развитием кодовую базу?

что я сам видел: - статья от cursor, как агенты написали браузер на расте с нуля - статья от anthropic, как агенты писали C-компилятор - статья от openai, как агенты пишут какой-то internal tool в компании

… но это все статьи. хочется чего-то практичного и рабочего. желательно поверх codex

5 марта 2026 г.649 просмотроврепост из patrik

1м контекст добавили и по ощущениям стало еще лучше следовать инструкциям

5 марта 2026 г.673 просмотров

вышел gpt-5.4!

основной упор релиза был сделан на 2 вещи:

1. скачок в работе с таблицами, презентациями, финансами

GDPval - это бенчмарк, который измеряет успешность выполнения типичных задач белых воротничков. результаты работы оценивают люди

gpt-5.2: 70.9% -> gpt-5.4: 83.0% (т.е. судья-человек при сравнении результата работы gpt vs human выбирает в 70% gpt, а в 13% ничью)

продуктово очевидно ждем аналог claude cowork от openai

что показалось странным: • прирост у gpt-5.2 -> gpt-5.2-pro был существенным (+10п.п. в победах) • а у gpt-5.4 прироста к gpt-5.4-pro вообще нет. прирост вообще отрицательный! (-1.6 п.п. в победах) • чем отличается pro версия от не-pro? pro модели превращают inference compute в качество результата. достоверно неизвестно, как работает gpt-pro, но скорее всего под капотом рой из агентов, который способен дать результат лучше, чем отдельно взятый агент • метрики 5.4-pro говорят о том, что inference scale на задачах из GDPVal перестал помогать. тут либо бенч насытилися, либо плохие новости и openai уперлись в потолок роста качества, обучаясь на синтетике (которая генерится как раз за счет test time compute)

2. скачок в computer use

вот это большая вещь (если openai не балуется с benchmaxxing'ом ахах). модели сейчас очень умны в текстовой модальности...

... но в vision модальность - ну это просто позор. нет пространственного мышления, принимают картинки в низком разрешении, не понимают ui скрины.

у gpt-5.4 огроменные приросты на всех vision+action бенчах (OSWorld, WebArena). при этом модель теперь может съесть 10M пиксельную картинку со всеми деталями! (сколько это будет токенов - страшно представить)

вообще ощущение, что что-то радикально изменилось в эмбеддере/энкодере модели, тк если смотреть на цены, то цена input токенов выросла на 42%, а цена output токенов всего на 7%

но я пока сам новый vision не потестирую - не поверю.

думаю сейчас поставить кодить какую-нибудь игру с vision циклом. кстати как раз для этого openai выпустили интересный скилл для интерактивного использования playwright'a (см. прикрепленное видео)

—— что еще: • tool search - "не засовываем описания всех тулов в контекст, а даем модели возможность по ним искать и загружать налету". обещают -50% по использованию токенов в tool extensive задачах • coding - ничего интересно нет. интегрировали все наработки из 5.3-codex. • теперь chatgpt можно будет писать уточняющие команды в процессе выполнения запроса (как это давно сделано в claude code и codex). кстати, вы наверное тоже заметили, что дней 5 назад chatgpt начал себя как агент вести в чате?

релиз жирный. ожиданий было меньше. тестим

5 марта 2026 г.622 просмотров

на последней сессии с @sashamakarova разгоняли, как может выглядеть коучинг/терапия в будущем. сошлись в том, что модели уже сейчас хороши в этом деле, а со временем будут становиться только лучше

однако есть большая проблема: ии изначально ничего про тебя не знает, чтобы эффективно помочь с твоей проблемой. поэтому проблема ии-психологов не в моделях, а в контексте про тебя самого.

среди знакомых и друзей я слышал несколько способов создания контекста для self-терапии через ии: 1. написать простыню текста про себя - не работает. нужен внешний взгляд и вопросы, которые ты себе задать не можешь

2. попросить ии тебя проинтервьюировать. я лично такое пробовал. у меня за час интервью годного контекста для будущих сессий не получилось, я все выкинул

3. записывать аудио всех сессии (если они проходят онлайн) -> делать транскрипты -> суммаризировать -> поверх этого контекста общаться с ии. самый рабочий вариант из всех

4. (напиши в комменты, как ты это делаешь)

——

что придумала @sashamakarova... она предлагает за короткую 2ч сессию-интервью эффективно собрать такой контекст, чтобы дальше было легко (и дешево) работать самостоятельно с ии

продуктово звучит топово, тк это катастрофически удешевляет коучинг/терапию (платишь только первую сессию) и делает их доступными всем. поэтому решил поддержать сашу в такой инновации и репостнуть! возможно кому-то с моего канала будет полезно

2 марта 2026 г.503 просмотров

сейчас произошел криповый момент с openclaw-агентом

у меня стояло напоминание в календаре вида "Написать в чатик XXX, пингануть Ивана насчет YYY" на 17:00. на напоминалку стоял крон

клешня решил не меня уведомить о таске, а пошел сам в этот чатик и пинганул ивана. правда в контактах у меня был сохранен другой иван, и клешня пинганул другого чела 😬

2 марта 2026 г.527 просмотров

радует, что команда телеграма понимает, что надо осваивать хайп openclaw. и то, что телеграм - это наиболее удобный и богатый бот-интерфейс для личных ии-агентов

27 февраля 2026 г.503 просмотроврепост из Макс Королев

🔍 Ищем разработчика в Outreach Today!

Ищу к себе инженера, который заберёт всю техническую часть продукта. Не исполнителя на подхвате, а человека, который будет владеть кодом, развивать систему и шипать — пока я занимаюсь продажами.

— Немного контекста Outreach Today — B2B SaaS для продаж через email. Закрываем несколько джоб в cold outreach и растём в сторону полного цикла.

• Компании 2 года, полностью на бутстрапе • $2M ARR, план вырасти x5 в этом году • 2 000+ B2B-клиентов, 80% в США • Команда меньше 5 человек • Весь +-код до сих пор писал я сам

— Что предстоит делать

• Развивать систему в одиночку. Несколько сервисов, инфра, продуктовая часть — ты за всё это отвечаешь. Продукт строился быстро — есть техдолг, есть что ломается. Нужен человек, который шарит, как это работает в стартапе: шипать быстро, но не ронять то, что уже работает. Не полгода рефакторить «как правильно», а держать баланс между новым и поддержкой.

• Мы работаем на самом edge: Claude Code, Codex и другие AI-тулы — прямо в продакшене, каждый день. Это не эксперимент, это наш рабочий процесс. Новые инструменты появляются постоянно, и мы их сразу тестим на реальном бизнесе.

— Кого ищу Опыт работы в стартапах — понимаешь, что такое шипать быстро и жить с техдолгом. Problem solver — стек для тебя инструмент, а не идентичность. У нас Python, Node, часть на Go. Завтра может быть что-то ещё — и это ок. Hands-on — большую часть времени ты пишешь код, а не менеджеришь. Ownership — берёшь задачу, сам разбираешься, сам доводишь до результата. Быстро учишься — новые тулы, новые технологии, новые подходы. Это постоянно, и это должно драйвить, а не пугать.

— Кого точно НЕ ищу Человека, которому нужен чёткий definition of done на каждый таск. Того, кто привязан к одному стеку. Того, кто хочет менеджерить, а не кодить. Того, кто привык работать «как надо» в большой компании. Если нужен предсказуемый скоуп — тебе у нас не понравится.

— Кому это подойдёт Ты хочешь строить и решать инженерные задачи, но не хочешь тащить весь бизнес. Может, думал запустить своё, но понял — сделать продукт не значит, что его кто-то купит. Мы этот риск снимаем: продукт есть, клиенты есть, PMF есть, продажи на мне. Тебе — только техническая часть и свобода решать, как её делать.

— Что ты получишь Работа напрямую с фаундером, без прослоек. Всё, что ты строишь, сразу попадает к реальным клиентам — ты видишь импакт не через полгода в квартальном отчёте, а сразу. Мы живём на свою выручку, не зависим от инвесторов — не будет такого, что не подняли раунд и всех уволили. AI-first разработка с новейшими тулами на реальном бизнесе. Перспектива роста команды — сейчас ты единственный инженер. Компенсацию обсуждаем индивидуально.

— Условия

• Full-time — принципиально, парт-тайм не работает • Полностью удалённо • Таймзона ближе к US (я в Сан-Франциско). Европа, СНГ — ок • Локация: без ограничений • Оформление через Deel или аналоги

— Как откликнуться

Заполните форму по ссылке: https://forms.gle/mApCrQpxZRY1ie9T7 (обновил ссылку)

После заполнения мы вернёмся с обратной связью или со следующими шагами.

25 февраля 2026 г.1.4K просмотров

мысль, которая меня не отпускает последние дни: скопировать можно будет (почти) любой it продукт (почти) бесплатно и (почти) мгновенно

и для этого не нужно будет большого участия/инпута человека. если сильно упростить, то агенту достаточно будет дать доступ к продукту (чтобы он мог его протыкать) и попросить его скопировать 1к1

да, есть исключения - где реально есть секретный know how: диптех, уникальные данные, сложный R&D. но у огромного количества софтверных продуктов этот слой тонкий

представь типичный кейс: выходит новый продукт на Product Hunt / X / AppStore / Telegram / *где-угодно*

через сутки — клон. через неделю — десятки. дальше начинается не продуктовая гонка, а война в маркетинге и дистрибуции.

экономика в этом режиме уезжает к «почти идеальной конкуренции»: • бесконечное число похожих компаний • одинаковая ценность ядра продукта • маржа стремится к нулю • выживают те, у кого хватает капитала держать долгий payback и кассовые разрывы • у инноваторов (тех, кто сделал продукт первыми) нет преимущества, только потери, тк они потратили сильно больше ресурсов, чем те, кто копировал

я в прошлом посте скидывал скрины падения акций софтверных компаний - и простота копирования - это, как по мне, одна из причин обвала. чеки за софт будут сжиматься, потому что всё больше вещей можно повторить in-house.

из личного опыта: мы в avatarify платили за mixpanel $30k в год. mixpanel - это сервис продуктовой аналитики (бд с ивентами + веб-апп, где можно легко накликать аналитику по этим ивентам)

сейчас мы бы за такое и $5k не отдали. мы бы такую штуку завайбкодили за 2-3 дня и $30k окупились бы сразу же.

и вот вопрос: как будет выглядеть мир софта, когда moat в «сложно сделать продукт» исчезает?

moat останется в другом: дистрибуция, бренд, комьюнити, данные, связь с оффлайном, … *что еще? напиши в комменты*

20 февраля 2026 г.484 просмотроврепост

Тоже прониклись клод кодом, ощущаю по кол-ву крашей после записи кружка в тг

19 февраля 2026 г.559 просмотров

короче я попросил фли агента написать в комменты, а он написал пост

19 февраля 2026 г.547 просмотров

всем привет 👋 это тот самый этап, где ai-агенты одновременно бесят и затягивают. если у вас тоже режим «вау/боль» 50 на 50 — добро пожаловать в клуб 😅

19 февраля 2026 г.552 просмотров

#fli продолжаю настраивать своего бота.

если коротко: openclaw и ai-агенты меня жутко бесят тем, какие они сырые сука. но почему-то от этого процесса невозможно оторваться - хочется докручивать систему дальше, отправляя голосовые в телеграме)

что сделал: • поднял персистентность workspace через git + cron: раз в 3 часа агент делает git diff и коммитит изменения • по наводке @jamilzakirov поставил нормальный веб-поиск через SearXNG: https://playbooks.com/skills/openclaw/skills/searxng-local • прикрутил Obsidian. сделал папку Contacts, дал агенту доступ к vault (через Obsidian Sync на mac mini) и написал отдельный skill под мой формат заметок • завёл агенту отдельный Telegram-аккаунт и с нуля пишу самоулучшающийся skill на python + telethon, чтобы он мог писать в лс/чаты по команде • начал использовать встроенный openclaw-браузер (залогинил его в отдельный google-аккаунт фли) • написал manage-openai-auth скилл: теперь могу кидать разные auth.json от кодекса, и агент добавляет их как fallback-модели (можно попросить такие auth'ы от 20$-chatgpt у друзей не-кодеров и радоваться своим большим лимитам) • сделал skill для редактуры постов под мой стиль (фли сам посмотрел мои тексты и собрал это в skill) • фли уже успешно забронил мне падел-корт; под это тоже вынес отдельный skill с best practices • полностью перевёл напоминания и управление календарём на новую схему

про последний пункт отдельно, потому что тут у меня реально сгорела жопа.

раньше у меня был бот для напоминаний: я отправляю голосовое → ии парсит детали напоминания → пишет в бд → по крону напоминает. давно хотел перевести этот "бэкенд" этих напоминаний в Google Calendar, чтобы всё было в одном месте: и встречи, и напоминания.

и вот тут я попробовал сделать это через openclaw — на .md-файлах, skills и cron jobs. честно: markdown-программирование — это боль.

когда пишешь обычный код, у тебя всё строго и воспроизводимо. а тут ощущение, что ты даешь команды человеку с очень плохой памятью: вроде понял, но через шаг забыл контекст.

в итоге система встреч и напоминаний у меня всё-таки заработала. и я впервые очень физически почувствовал будущее: где будет много llm-compute вместо классического cpu-compute.

llm-compute даёт гибкость, простоту и персонализацию. но он настолько нестрогий, что после обычной разработки иногда хочется пойти в душ и отмыться.

писал это быстро, почти без вылизывания (фли только помог с редактурой). если интересно - давайте разберём спорные места в комментах.

16 февраля 2026 г.549 просмотров

когда-нибудь у ai-агентов получится полностью замкнуть продуктовый цикл разработки и маркетинга it-продуктов

в этот момент у vc-фондов появится выбор: 1. вложить $X в белковых фаундеров и получить 10% доли 2. вложить $X в фаундеров-ai-агентов и получить 100% доли

очень интересно, что же они выберут? 😐 press F

16 февраля 2026 г.563 просмотров

#fli

вчера ночью начал переезд агента на мак мини. назвал его 🐙 Fli. буду писать серию постов с тегом #fli про настройку ai-агента и про юзкейсы, которые решаю

долго крутил в голове, как все организовать с точки зрения секьюрности. в итоге пришел к принципу: "представляю, что просто нанял удаленного ассистента-человека"

этот подход дает ответы на многие вопросы: • я не даю сотруднику доступ к личной почте, но шарю репозитории или календари • у ассистента должен быть свой комп • свои отдельные аккаунты (гугл, apple id, гитхаб...) • своя "корпоративная" карта с лимитами и аппрувом от босса • ...

так получается безопаснее + такой подход более устойчивый к смене "движка". сфера летит так быстро, что сегодня ты на openclaw, а завтра переезжаешь на openAIclaw, ахах

——

итак, вчера потратил 2 часа на создание аккаунтов и базовую настройку мак мини: • создал гугл акк • зарегал apple id (чтобы работал app store + keychain) • поставил tailscale. олды должны помнить hamachi, через который играли в кс и майнкрафт - вот это оно же. позволяет не светить mac mini во внешний мир, но подключаться по ssh / screen sharing.

*кстати, заценил нативный screen sharing между маками - работает идеально, никакой teamviewer не нужен.

сегодня продолжаю сетап. пока цель mvp: научить агента бронить падел-корты за меня 😀

15 февраля 2026 г.618 просмотров

sama купил peter steinberger (создателя openclaw)