Вайбкодинг
Страница 2 из 29
Еще одна крутейшая фича в Claude code - автоматическое создание агентов (не имеет ничего общего с субагентами).
хочу сказать что это огонь. есть проблема с некоторым чрезмерным плодением агентов, но зато из коробки работают все хуки/скилы/команды
юзкейс: написание статьи
клод сам придумал какие агенты нужны исходя из финальной задачи. в итоге работало около 10 агентов: - 5 штук на каждую картинку - рерайтер аутлайна - факт-чекер, рисерчер (запустил 5 субагентов с mcp'шками perplexity/parallel) - корректор/редактор стиля (у меня огромный анти-слоп документ для него) - менеджер, который меня успокаивал и говорил что все будет тип-топ
Ключ на скрине нерабочий, не волнуйтесь.
Дизайн дешевый, разработка дорогая?
Что говорили в 2020: - Дизайн дешевый, разработка дорогая - Дизайн — это не конкурентное преимущество, его легко скопировать, в отличие от технологии.
Что происходит в 2025 - Lovable объявил $100M ARR за 8 месяцев. Replit, Bolt.new и прочие тоже взлетают в космос; - YC в своём летнем Request for startups говорят, что хотят больше дизайнеров-фаундеров; - OpenAI: покупает io Products (стартап Сэма Альтмана и Джонни Айва) за $6.5 миллиардов, Джони начинает активно участвовать в дизайне OpenAI; - Figma делает мощнейшее IPO: 31 июля бумаги разместили по $33, в первый день закрылись +250%, позже откатились — но это по‑прежнему одно из самых заметных размещений года. В S‑1 выручка 2024 — $749M (+48% г/г).
Кажется, что с AI и вайб-кодингом разработка перестаёт быть самой долгой и дорогой частью создания софта. Прототипирование, кстати, тоже.
Парадигма перевернулась? Теперь бутылочным горлышком становятся продакт-менеджмент и дизайн?
Возможно, конечно, AI просто ускоряет разработчиков быстрее, а до продактов и дизайнеров доберётся позже.
Но в 2025-м пока ещё нужен человеческий замысел, взгляд и вкус, чтобы в продукте был какой-то смысл, и им было удобно и приятно пользоваться. Запомним момент.
Это было предсказуемо: в 2024 легкая небрежность в тексте/коде окончательно стала премиальной и крафтовой. Пресный вежливый текст - значит, написано при помощи LLM (и даже без упражнений с промптами). Шероховатости придают эффект теплоты: человек не поленился и написал сам.
Например, пишет мне рекрутер, и второй абзац его письма выглядит как LLM-summary моего линкедин-профиля. Дальше как-то автоматически сложно поверить его словам, что this is exactly the type of experience they are looking for.
Или с другой стороны: проверяю тестовые задания, и довольно быстро калибруюсь. Например, много тривиальных комментариев, начинающихся с заглавной буквы и заканчивающихся точкой - явное свидетельство сгенеренного кода. Да ладно комментарии, я уже и по названиям переменных узнаю код авторства GPT.
# Init model. model = Autoencoder.to(DEVICE) criterion = nn.MSELoss()
Вообще, кстати, в этом тестовом использовать GPT не запрещено, но надо бы не только сгенерить решение, но и понять, что там происходит. В итоге больше всего сигнала в ответе на вопрос "почему это работает?".
В итоге умение писать кое-как теперь вообще не имеет значения, а умение писать изящно (будь то текст или код) ценится как и раньше.
Harness Saw-Tooth theory
Возникла идея что эволюция агентов идет в форме пилы. Sawtooth это известный алгоритм в TCP, который снижает перегруженность каналов в интернете. Скорость соединения растет, пока количество потерь пакетов не превысит порог, и затем скорость резко падает в два раза, затем снова растет, как на картинке.
То же самое происходит с агентами: 1. Лабы релизят новую модель, например GPT-4 или Opus 4.5 2. Харнессы позволяют стоить более продвинутых агентов и постепенно добавляют кучи логики в себя. В 2023 это был Auto-GPT, в 2025 Clawdbot. 3. Лабы тренируют новую модель (подозреваю, активно RL’я трейсы агентских харнесов)
И дальше все повторяется по кругу.
Почему это происходит? Агенты создают очень классный синтетический датасет, а сложность харнесов всегда упирается в надежность самой модели, поэтому они никогда не могут перейти определенный порог. Если твой харнесс имеет много кастомной логики, то его надежность падает с каждой новой фичей. С другой стороны, повышение надежности модели в агентских задачах делает доступным новые юзкейсы: например, факт что Opus 4.5 научился супер долго работать в баше и писать скрипты проверяя самого себя сделали его полезным для долгосрочных задач кодинга.
За последнюю неделю феномен клешни ушел в массы.
На GTC Дженсен (с клешнями вместо рук) представил NemoClaw — open source продукт от NVIDIA, который по сути является безопасной и (хоть немного) ориентированной на использование в суровом Энтерпрайзе версию openclaw.
А вчера Anthropic добавили каналы и управление с телефона в Claude code. Например, вы можете управлять любыми задачами агента через телеграм или дискорд.
У каждого человека на планете будут агенты, а во многих компаниях их будут миллионы.
По аналогии с афоризмом “в ходе следствия главное - не выйти на самих себя”, могу сказать, что в ходе разработки фреймворка для AI кодогенерации удалось сделать сам фреймворк совершенно непригодным для генерации. Например, вчера Claude предложил дописать примерно такое: with HandlerTestTaskNode.run(**params) as ctx: result = solve(lambda ctx: type('TypeContext', (), {'compiler': ctx.compiler})())
По старой памяти посмотрел вчера кейноут Фигмовской конференции Config.
Дизайнеры в основном впечатлены: - Figma Sites — прямая атака на Framer. Теперь прямо в Фигме можно будет делать адаптивные сайты и публиковать в интернет одной кнопкой. - Figma Make — свой вайбкодинговый инструмент, который превращает макеты дизайна в работающие прототипы. - Figma Buzz — прикольная штука для быстрой сборки маркетинговых ассетов — когда тебе надо сделать 100500 однотипных картинок анонсов для соцсетей по готовому шаблону. - Плюс переделали работу с векторной графикой и добавили кучу штук, за которыми раньше приходилось в Иллюстратор ходить. - И автолейаутные сетки.
И это конечно всё такой дизайнерский диснейленд, где дизайн остаётся в центре всего.
Но у меня остался один вопрос: а когда AI будет генерировать сами дизайны-то? Или хотя бы помогать мне это делать?
Uizard вот пытается что-то такое делать. Lovable тоже справляется. Тот же Framer может сгенерировать макет дизайна сайта по промпту. В Рекрафте куча инструментов для графического дизайна.
Фигма же как-то продолжает обходить эту тему стороной. Может, не хотят пугать дизайнеров раньше времени?
Собственно, кибернетические самоулучшающиеся процессы в организациях — это не фантастика, это не про завтра и это не требует каких-то инноваций.
Это требует две вещи: 1. смелость чтобы перестроить многие процессы (в первую очередь, хранение и обмен информацией в компании) с нуля 2. готовность итерировать и понимание, что первая версия не будет идеальной
Самый простой способ стать киборгом уже сегодня - написать /insights в вашей клод-коде. Он сгенерирует страничку, в которой подробно расскажет: - все что вы делали в клоде за последнее время - все проблемы, которые возникали - как вам улучшить процесс использования - как ваш продукт/система может улучшить сама себя, чтобы проблемы не возникали - как оптимизировать рабочий процесс
Плюс, он даст вам конкретные промты для самого себя, в которых детально описано как именно нужно переделать ту или иную фичу.
Например, в моём случае клод увидел, что значительная часть моей работы это ведение CRM компаний, в которые мы инвестируем и анализ/рисерч новых. Он предложил улучшение этих фич, например, ипользование автоматизации браузера для проверки LinkedIn фаундеров и сделал промт, который эту фичу реализует. Хотите создать такую кибернетическую систему обратной связи для своего бизнеса?
Сегодня в 21 мск Ryo Lu (Head of Design Cursor) будет рассказывать про вайбкодинг для дизайнеров. Будет демо + ответы на вопросы
Рега:
https://luma.com/mb038txc?tk=uwQQu4&utm_source=x
Я редко пишу здесь про новости, но про очередной релиз нового семейства LLM - на этот раз Claude 3 от Anthropic - напишу.
Дело даже не в том, что они утверждают, что побили GPT-4 по метрикам. Это первая модель, которая с первой попытки правильно ответила на вопрос, которым я люблю тестировать LLM-ки: "what manhattan project participant invented the dolphin kick for swimming?" 🐬. Остальные популярные модели (GPT-4, Mistral Large, Llama 2 70B...) или скатываются в галлюцинации (обычно про Фейнмана), или отвечают в духе "уважаемый, там физики работали, какое еще плавание".
Вопрос, конечно, вдохновлен этой книгой. На более нормальные промпты, которые я успел прогнать, кажется, отвечает +- на уровне GPT.
Получил доступ к превью Copilot for Docs.
В отличие от обычного Github Copilot, это набор chat LLM, зафайнтюненных на определенные сабсеты данных: например, документация Azure, Github, TypeScript, React... Всего доступно 12 топиков, ни один из них лично мне не слишком близок (наверное, из всего доступного у меня за последний год были только вопросы по Github Actions).
UI похож на уже привычные LLM чаты, но с удобными референсами, где искать детали.
В общем, когда допилят больше топиков, будет полезно, а пока - скорее не для меня.
Неожиданно мощно вдохновился, прочитав статью о внутренней культуре в Курсоре: https://joincolossus.com/article/inside-cursor/
(Ссылку подсмотрел у Лёши Моисеенкова @chillhousetech)
Там много интересного, очень советую прочитать оригинал.
- Забавно, что внимание большинства людей всё ещё направлено на бигтех. Посмотрите, например, сколько курсов существует про то, как наняться в FAANG. А для меня самые интересные компании сейчас — OpenAI, Anthropic, Cursor. Вот эти ребята. - В статье очень много такого немного наивного оптимизма, который мне очень-очень импонирует. Когда люди работают много, потому что на самом деле любят свою работу. Когда думают и обсуждают, что и как благодаря их работе может измениться в мире. Я был таким же, а потом как-то подрастерял этот вайб (поумнел?). Сейчас собираю обратно. - Найм начинается не с ролей, а с людей. Находят и рекомендуют лучших, окружают вниманием, подолгу уговаривают их присоединиться. А потом уже внутри человек разбирается, над чем именно работать. В итоге — невероятная даже по меркам SF плотность таланта. - Документации и встреч — минимум, всё решается в живых обсуждениях (люблю такое). Скептики сейчас, конечно, начнут говорить, что вот давайте посмотрим на них, когда там будет не 250 человек, а 2500. Ну что ж, посмотрим. - Самые важные и ценные — IC (individual contributors), то есть не руководители, а те, кто непосредственно делают работу руками. Выглядит как тренд. - Из забавных деталей: чёрные доски и мел вместо маркеров (!); собственный шеф, который каждый день готовит обед на всех, и которые тоже добавлен в Слак со всеми.
Лайк.
Если вы отбитый вайбкодер, стремительно выжирающий лимиты подписки, или просто любите китайские подделки, посмотрите на z.ai.
Их флагманская модель GLM 4.6 сейчас даже не лучшая среди open weights моделей, но у нее есть два преимущества: - их самый дорогой тариф сейчас стоит 360 баксов в год (а самый дешевый - в десять раз меньше); - они не постеснялись из коробки обеспечить совместимость c Claude Code до такой степени, что на вопрос "what model is under your hood?", он отвечает "Sonnet 4.5".
Конечно, никакие серьезно приватные данные я бы этой штукой не трогал, но для всякой фигни работает. Например, я недавно хотел натравить Клода привести в порядок файлопомойку - обновить систему, разобраться, почему иногда шара отваливается, почистить остатки плохо удалившихся экспериментально установленных пакетов и так далее. Но теперь вместо Клода этим занимается его младший брат Злод.
👨💻 Лучшие AI-инструменты для разработчика в 2024
На прошлой неделе я провел первый тренинг «AI для разработчиков». При подготовке я поговорил с десятками разработчиков, проанализировал отчеты от Gitlab и Jetbrains. В результате я узнал какие AI-инструменты и промпты разработчики используют для повышения продуктивности. В этом посте я решил поделиться инсайтами про самые интересные инструменты для разработчиков и разбил их на категории.
1. Github Copilot — универсальный инструмент: больше 50% кода на Github уже написано с его применением. Большинство разработчиков при этом до сих пор им не пользуются. Команда Copilot сначала закрыла сценарии отдельных разработчиков (авто-дополнение, тесты, документация), а теперь развивает продукт на уровне команд и все компании (анализ PR, разворачивание в контуре). JetBrains недавно показали свой аналог Copilot для тех, кто сидит на их стеке. Стоимость — от $10 в месяц.
2. Cursor.sh — потенциальный дизрапшен: в отличии от Copilot они выбрали другой путь — AI-first. Команда Cursor форкнула VSCode и перестроили его интерфейс, чтобы промпты стали главным способом взаимодействия с кодом. В Cursor вы пишете промпт прямо там же, где раньше писали в редакторе код. Также отмечу фичу, которая позволяет прокинуть ссылки на актуальную документацию библиотек, и тогда они будут использованы при генерации. Также как и Copilot — используют модели от OpenAI. Есть небольшое количество запросов в месяц, чтобы протестить бесплатно.
3. Phind — альтернатива для GPT: они начали еще до ChatGPT-хайпа, как поисковик для разработчиков и попали с ним в YC. Долгое время они использовали GPT внутри, но в процессе собрали даныне и обучили свою модель. Теперь Phind отвечает на вопросы разработчиком и генерирует код. Phind доступен в вебе и ставится, как расширение для редакторов кода (в том числе Cursor). Phind доступен бесплатно.
4. CodeMuse — самый интересный стартап: свежий проект из следующего батча YC. Эта команда сфокусировалась на том, чтобы применить к локальному репозиторию open source LLM и эмбединги, и строить вокруг этого фичи. Уже сейчас доступен поиск человеческим языком над проектом — «find function that checks permissions» и автоматическая документация для всего проекта. В начале следующего года они планируют добавить ассистента и генерацию кода. CodeMuse также доступен бесплатно в виде расширения.
🫡 Уже сейчас такие инструменты создают разрыв между разработчиками в разы, а в следующем году разрыв станет критическим. Сейчас лучшее время, чтобы начать их применять — начните с этого списка.
что-то неделька безумная, режим сломался полностью, навалилась тонна бюрократических задач, вообще выпал из жизни. микро-новости, оч коротко: 1. оч много стал юзать claude code / codex, даже проплатил тарифы побольше. 3-4 потока стабильно 2. я был не прав, когда говорил, что Opus > gpt-5.2. прям очень не прав. разница между ними как между Sonnet 4 (не 4.5) и Opus 4.5. GPT-5.2 xhigh через codex cli прям безумная машина - компактизация бесшовная настолько, что я даже не замечаю её (в случае Claude Code компактизация - это практически лоботомия чату, приходится всё объяснять сначала) 3. гораздо больше юзаю Antigravity, browser-harness у него прям хороший, хоть и очень медленный 4. ни секунды не сомневаюсь, что Anthropic бенчмаксит бенчи по долгой автономной работе через завышение таймаутов / sleep'ов 5. не, ну вы прям не представляете, насколько 5.2 лучше Opus. либо после проплаты подписки Anthropic мне занерфил опус (потому что он прям как будто заметно тупее стал), либо меня реально сломал тот факт, что 5.2 _реально_ следует инструкциям.
вторая штука, про которую очень хочется написать что-то вдумчиво философское, это то, что если раньше всякие тейки про AGI 2027 мне казались преувеличенными, и 2030 выглядел реалистичнее, то в последние недели я задаюсь двумя вопросами: 1. а почему мы вообще считаем, что то, что у нас есть сейчас - ещё не AGI? 2. мне кажется, что ASI 2027-2028 даже более реалистичный горизонт, чем AGI
--
а ещё, хочу повторить тейк из предыдущего поста: если ИИ сейчас не может справляться с вашей задачей - вы плохо его настроили. не дали хороший цикл для автономного тестирования, не подготовили док по дебагу, не прописали важные ньюансы, etc. я не могу пошерить ЧТО сейчас у меня делает gpt-5.2, но мягко говоря - на такое его точно не обучали, и даже 3-4 месяца назад мне казалось абсолютной фантастикой, что модель справится с такой задачей вообще.
я вот собрал себе скилл, который довольно неплохо настраивает автономный фидбек-луп агенту в репозиториях - он обычно даёт на 80-90% готовый результат, дальше чутка подпилить, причесать избыточность в DEBUG.md, и можно отлично юзать. сейчас все проекты инициализирую через него обязательно.
скилл в аттаче, надеюсь пригодится 🙂
Пару дней программировал с Claude Code - это приложение-агент для терминала, которое умеет не только просто писать код, но и планировать, адаптироваться и выполнять команды локально. Весь инференс идет через Anthropic API, так что нужно подключить ключ и готовиться к затратам. Из коробки доступны базовые команды - view, edit, replace, glob, grep, выполнить произвольный баш, но можно и подключить свой MCP и адаптировать под себя. Сколько-то похоже на agent mode в Cursor, с которым я как-то не очень поладил (хотя inline автодополнение там клевое), а из опенсорсных решений напоминает Aider.
Я пробовал работать в двух проектах: один небольшой, но начат умными людьми и потому обладает некоторой структурой, второй я делал прям с нуля в режиме "вайб-кодинга". В обоих случаях у меня уходило что-то около 10 баксов в час, причем я старался вовремя сбрасывать контекст, чтобы счет меня не разорил. Когда осознаешь, что команда "run tests" стоит три цента, это вызывает странные незнакомые эмоции. Помимо денег, есть вопросы и к скорости: например, вчера перед сном я оставил агенту одну задачу и ушел, не закрывая ноутбук. Утром глянул результат - total cost: $5.90, total duration (API): 37m 11s.
Впрочем, скорость инференса - не единственный боттлнек. Пару раз ловил себя на мысли, что хочется печатать быстрее (или даже попробовать голосовой ввод) - обычно я думал медленнее, чем писал код, а тут хочется быстро командовать "эй, почини такой-то баг и прогони тесты".
Скучный бойлерплейт-код пишет отлично (в разы быстрее, чем я бы писал в редакторе даже с копайлотом или аналогом), дебажит неплохо, но, как и все LLM, может пойти по неправильному пути и нахерачить много дичи, надо вовремя останавливать и быть очень конкретным (например, жестко определять стек). Если не влезать в детали и давать недостаточно конкретные указания, будет так: "Бесконечная бессвязность за кажущимся смыслом, абсолютная неконсистентность, скачки мыслей и стилей между разными частями проекта. Полнейший ужас и хаос за кажущимся порядком".
Короче, пока немного сыровато, но буду иногда использовать. Хочется быстрее и дешевле; думаю, еще увидим в этом году. See also: отзыв от Антона.
P.S. нашел пасхалку: через claude code можно заказать себе стикеры anthropic, но доставка только в 🇺🇸
Вдохновился постом о том, как использовать Claude Code для анализа структуры Claude Code и пошел по тому же рекурсивному пути: сгенерил при помощи Claude Code утилиту, чтобы логировать его же запросы. На первый взгляд, магии там мало - системный промпт, две базовые модели (sonnet 3.7 + haiku) и набор тулов.
Если хотите поковыряться своими руками, выложил результат на github. Думаю, следующим шагом было бы интересно попробовать подменить базовые модели на что-то локальное.
Два мелких наблюдения про GPT-driven написание кода:
1) за последний месяц написал больше регулярок, чем за всю предыдущую карьеру - нужно выковыривать результат из GPT и фиксить (например, добавлять пропущенные запятые в невалидный JSON). К счастью, писать их руками тоже необязательно, copilot справляется. 2) надо думать своей головой дважды (трижды для таких невнимательных людей, как я), принимая какие-то дизайн-решения на базе ответов ChatGPT. Недавно лопухнулся: спросил, как сделать некую интеграцию с гуглдоками, посмотрел код и подумал, что после мелких фиксов все заработает. После многих часов в попытках это завести обнаружил, что такого API не существует, есть вроде бы похожее, но совершенно не решающее мою задачу.
меня не отпускает ощущение, что хвальбы Codex 5.2 в куче около-ИИ чатов - это какой-то пранк да, модель сильная, но по шизофазии и рядом не стояла с Anthropic.
писать код в совершенно отличном от кода проекта стиле, генерировать какие-то абсолютно неуместные (тонны typeof-валидаций в strict TS файле - что это?) и местами даже совершенно бессмысленные вещи (пустой цикл. типа, цикл вообще без тела. wtf?) - вообще запросто. и я не понимаю, на кой чёрт у неё такой длинный exploration phase, если она один хрен всё равно потом дублирует тонны кода. написать функцию, в которой 9 строк из 10 полностью совпадают с уже существующей в том же файле - вообще легко.
стал в последние дни частенько упираться в лимиты по CC/Курсору, и пытаюсь использовать Codex. в большинстве случаев он справляется лучше всего со следующей задачей: развлечь меня до момента, пока у CC не сбросится лимит, после чего я с лёгким сердцем делаю git reset, и передаю задачу в Sonnet.
безумие? да что ты знаешь о том, что такое безумие?
P.S. оч жду фичу, чтоб агент кидал смешные рилсы в чат
P.P.S. если что - это не нативный курсор, это я на суперкодовские воркфлоу поставил data-uri gif иконки с дискорда