Cursor vs Claude Code
Страница 2 из 33
Наверняка вы уже увидели во всех каналах, что теперь можно рисовать дизайн в фигме с помощью кодинг агентов типа Claude/Codex.
Так вот, я попробовал. Дал задачу пронумеровать презу, перевести ее на русский и перекрасить из темной темы в светлую (смотрите скриншот)
Opus 4.6 справился за 5 минут. Фигму не могу показать, но результат прям супер — процентов на 90 справился без ошибок.
Давно такого не было, но я почувствовал прям щенячий восторг, когда видел как моделька ходит по фигме и обновляет дизайны) По сути, завел себе карманного джуна.
Чтобы попробовать, закиньте в своего кодинг агента ссылку на статью и скажите чтобы начал делать то же самое:
www.figma.com/blog/the-figma-canvas-is-now-open-to-agents/
Harness Saw-Tooth theory
Возникла идея что эволюция агентов идет в форме пилы. Sawtooth это известный алгоритм в TCP, который снижает перегруженность каналов в интернете. Скорость соединения растет, пока количество потерь пакетов не превысит порог, и затем скорость резко падает в два раза, затем снова растет, как на картинке.
То же самое происходит с агентами: 1. Лабы релизят новую модель, например GPT-4 или Opus 4.5 2. Харнессы позволяют стоить более продвинутых агентов и постепенно добавляют кучи логики в себя. В 2023 это был Auto-GPT, в 2025 Clawdbot. 3. Лабы тренируют новую модель (подозреваю, активно RL’я трейсы агентских харнесов)
И дальше все повторяется по кругу.
Почему это происходит? Агенты создают очень классный синтетический датасет, а сложность харнесов всегда упирается в надежность самой модели, поэтому они никогда не могут перейти определенный порог. Если твой харнесс имеет много кастомной логики, то его надежность падает с каждой новой фичей. С другой стороны, повышение надежности модели в агентских задачах делает доступным новые юзкейсы: например, факт что Opus 4.5 научился супер долго работать в баше и писать скрипты проверяя самого себя сделали его полезным для долгосрочных задач кодинга.
За последнюю неделю феномен клешни ушел в массы.
На GTC Дженсен (с клешнями вместо рук) представил NemoClaw — open source продукт от NVIDIA, который по сути является безопасной и (хоть немного) ориентированной на использование в суровом Энтерпрайзе версию openclaw.
А вчера Anthropic добавили каналы и управление с телефона в Claude code. Например, вы можете управлять любыми задачами агента через телеграм или дискорд.
У каждого человека на планете будут агенты, а во многих компаниях их будут миллионы.
По аналогии с афоризмом “в ходе следствия главное - не выйти на самих себя”, могу сказать, что в ходе разработки фреймворка для AI кодогенерации удалось сделать сам фреймворк совершенно непригодным для генерации. Например, вчера Claude предложил дописать примерно такое: with HandlerTestTaskNode.run(**params) as ctx: result = solve(lambda ctx: type('TypeContext', (), {'compiler': ctx.compiler})())
Собственно, кибернетические самоулучшающиеся процессы в организациях — это не фантастика, это не про завтра и это не требует каких-то инноваций.
Это требует две вещи: 1. смелость чтобы перестроить многие процессы (в первую очередь, хранение и обмен информацией в компании) с нуля 2. готовность итерировать и понимание, что первая версия не будет идеальной
Самый простой способ стать киборгом уже сегодня - написать /insights в вашей клод-коде. Он сгенерирует страничку, в которой подробно расскажет: - все что вы делали в клоде за последнее время - все проблемы, которые возникали - как вам улучшить процесс использования - как ваш продукт/система может улучшить сама себя, чтобы проблемы не возникали - как оптимизировать рабочий процесс
Плюс, он даст вам конкретные промты для самого себя, в которых детально описано как именно нужно переделать ту или иную фичу.
Например, в моём случае клод увидел, что значительная часть моей работы это ведение CRM компаний, в которые мы инвестируем и анализ/рисерч новых. Он предложил улучшение этих фич, например, ипользование автоматизации браузера для проверки LinkedIn фаундеров и сделал промт, который эту фичу реализует. Хотите создать такую кибернетическую систему обратной связи для своего бизнеса?
Сегодня в 21 мск Ryo Lu (Head of Design Cursor) будет рассказывать про вайбкодинг для дизайнеров. Будет демо + ответы на вопросы
Рега:
https://luma.com/mb038txc?tk=uwQQu4&utm_source=x
Я редко пишу здесь про новости, но про очередной релиз нового семейства LLM - на этот раз Claude 3 от Anthropic - напишу.
Дело даже не в том, что они утверждают, что побили GPT-4 по метрикам. Это первая модель, которая с первой попытки правильно ответила на вопрос, которым я люблю тестировать LLM-ки: "what manhattan project participant invented the dolphin kick for swimming?" 🐬. Остальные популярные модели (GPT-4, Mistral Large, Llama 2 70B...) или скатываются в галлюцинации (обычно про Фейнмана), или отвечают в духе "уважаемый, там физики работали, какое еще плавание".
Вопрос, конечно, вдохновлен этой книгой. На более нормальные промпты, которые я успел прогнать, кажется, отвечает +- на уровне GPT.
Если у вас есть стартап / компания / продукт, то брендинг и позиционирование очень важная часть успеха. Я сделал скилл для Клода / Кодекса, который помогает создать позиционирование с нуля (или улучшить текущее). Это 10-минутное упражнение, которое нужно делать всей командой и потом объединить результаты.
Что он делает? - Собирает контекст компании - Проводит параллельное конкурентное исследование (прямые + смежные конкуренты) - Задаёт стратегические вопросы, используя реальные названия конкурентов - Генерирует готовую анкету для команды для независимых ответов - Синтезирует ответы команды (согласованность, противоречия, неожиданные инсайты) - Выдаёт позиционирование
Скачать или установить напрямую через маркетплейс: https://github.com/Gerstep/positioning-plugin
🙏 Буду благодарен фидбек после использования (или PR/issue на GitHub), звездочка тоже будет приятна 🙏
Мы привыкли платить за курсы, но не привыкли платить за токены
Это прям инсайт.
Если подумать, что такое $100/mo за подписку на Claude Max?
Это просто ничего по сравнению с тем, сколько стоит разработчик или любой другой сотрудник.
А эта подписка заменяет вам сразу нескольких сотрудников.
Но мы не привыкли платить за токены
Это новая статья в нашем бюджете, поэтому нам непривычно.
Уже не первый раз на наших курсах по вайбкодингу вижу такой паттерн: люди очень много внимания уделяют тому, как не сжечь много токенов.
Вместо того чтобы просто оформить подписку Max и кайфовать (конечно, и в Max вполне можно дойти до лимитов, но все-таки их там намного больше)
Получается, что одна из важных ролей нашего курса — снять барьер. Сказать: ребята, не бойтесь, покупайте себе подписку Max за $100, она окупится у вас многократно.
Из этого два вывода:
• Расходы на AI-подписки будут у всех нас в бюджете обязательной строчкой, примерно как сейчас такси и Netflix
• Компании, которые не оплачивают своим сотрудникам подписки на Claude — отстают нещадно
Неожиданно мощно вдохновился, прочитав статью о внутренней культуре в Курсоре: https://joincolossus.com/article/inside-cursor/
(Ссылку подсмотрел у Лёши Моисеенкова @chillhousetech)
Там много интересного, очень советую прочитать оригинал.
- Забавно, что внимание большинства людей всё ещё направлено на бигтех. Посмотрите, например, сколько курсов существует про то, как наняться в FAANG. А для меня самые интересные компании сейчас — OpenAI, Anthropic, Cursor. Вот эти ребята. - В статье очень много такого немного наивного оптимизма, который мне очень-очень импонирует. Когда люди работают много, потому что на самом деле любят свою работу. Когда думают и обсуждают, что и как благодаря их работе может измениться в мире. Я был таким же, а потом как-то подрастерял этот вайб (поумнел?). Сейчас собираю обратно. - Найм начинается не с ролей, а с людей. Находят и рекомендуют лучших, окружают вниманием, подолгу уговаривают их присоединиться. А потом уже внутри человек разбирается, над чем именно работать. В итоге — невероятная даже по меркам SF плотность таланта. - Документации и встреч — минимум, всё решается в живых обсуждениях (люблю такое). Скептики сейчас, конечно, начнут говорить, что вот давайте посмотрим на них, когда там будет не 250 человек, а 2500. Ну что ж, посмотрим. - Самые важные и ценные — IC (individual contributors), то есть не руководители, а те, кто непосредственно делают работу руками. Выглядит как тренд. - Из забавных деталей: чёрные доски и мел вместо маркеров (!); собственный шеф, который каждый день готовит обед на всех, и которые тоже добавлен в Слак со всеми.
Лайк.
Если вы отбитый вайбкодер, стремительно выжирающий лимиты подписки, или просто любите китайские подделки, посмотрите на z.ai.
Их флагманская модель GLM 4.6 сейчас даже не лучшая среди open weights моделей, но у нее есть два преимущества: - их самый дорогой тариф сейчас стоит 360 баксов в год (а самый дешевый - в десять раз меньше); - они не постеснялись из коробки обеспечить совместимость c Claude Code до такой степени, что на вопрос "what model is under your hood?", он отвечает "Sonnet 4.5".
Конечно, никакие серьезно приватные данные я бы этой штукой не трогал, но для всякой фигни работает. Например, я недавно хотел натравить Клода привести в порядок файлопомойку - обновить систему, разобраться, почему иногда шара отваливается, почистить остатки плохо удалившихся экспериментально установленных пакетов и так далее. Но теперь вместо Клода этим занимается его младший брат Злод.
👨💻 Лучшие AI-инструменты для разработчика в 2024
На прошлой неделе я провел первый тренинг «AI для разработчиков». При подготовке я поговорил с десятками разработчиков, проанализировал отчеты от Gitlab и Jetbrains. В результате я узнал какие AI-инструменты и промпты разработчики используют для повышения продуктивности. В этом посте я решил поделиться инсайтами про самые интересные инструменты для разработчиков и разбил их на категории.
1. Github Copilot — универсальный инструмент: больше 50% кода на Github уже написано с его применением. Большинство разработчиков при этом до сих пор им не пользуются. Команда Copilot сначала закрыла сценарии отдельных разработчиков (авто-дополнение, тесты, документация), а теперь развивает продукт на уровне команд и все компании (анализ PR, разворачивание в контуре). JetBrains недавно показали свой аналог Copilot для тех, кто сидит на их стеке. Стоимость — от $10 в месяц.
2. Cursor.sh — потенциальный дизрапшен: в отличии от Copilot они выбрали другой путь — AI-first. Команда Cursor форкнула VSCode и перестроили его интерфейс, чтобы промпты стали главным способом взаимодействия с кодом. В Cursor вы пишете промпт прямо там же, где раньше писали в редакторе код. Также отмечу фичу, которая позволяет прокинуть ссылки на актуальную документацию библиотек, и тогда они будут использованы при генерации. Также как и Copilot — используют модели от OpenAI. Есть небольшое количество запросов в месяц, чтобы протестить бесплатно.
3. Phind — альтернатива для GPT: они начали еще до ChatGPT-хайпа, как поисковик для разработчиков и попали с ним в YC. Долгое время они использовали GPT внутри, но в процессе собрали даныне и обучили свою модель. Теперь Phind отвечает на вопросы разработчиком и генерирует код. Phind доступен в вебе и ставится, как расширение для редакторов кода (в том числе Cursor). Phind доступен бесплатно.
4. CodeMuse — самый интересный стартап: свежий проект из следующего батча YC. Эта команда сфокусировалась на том, чтобы применить к локальному репозиторию open source LLM и эмбединги, и строить вокруг этого фичи. Уже сейчас доступен поиск человеческим языком над проектом — «find function that checks permissions» и автоматическая документация для всего проекта. В начале следующего года они планируют добавить ассистента и генерацию кода. CodeMuse также доступен бесплатно в виде расширения.
🫡 Уже сейчас такие инструменты создают разрыв между разработчиками в разы, а в следующем году разрыв станет критическим. Сейчас лучшее время, чтобы начать их применять — начните с этого списка.
что-то неделька безумная, режим сломался полностью, навалилась тонна бюрократических задач, вообще выпал из жизни. микро-новости, оч коротко: 1. оч много стал юзать claude code / codex, даже проплатил тарифы побольше. 3-4 потока стабильно 2. я был не прав, когда говорил, что Opus > gpt-5.2. прям очень не прав. разница между ними как между Sonnet 4 (не 4.5) и Opus 4.5. GPT-5.2 xhigh через codex cli прям безумная машина - компактизация бесшовная настолько, что я даже не замечаю её (в случае Claude Code компактизация - это практически лоботомия чату, приходится всё объяснять сначала) 3. гораздо больше юзаю Antigravity, browser-harness у него прям хороший, хоть и очень медленный 4. ни секунды не сомневаюсь, что Anthropic бенчмаксит бенчи по долгой автономной работе через завышение таймаутов / sleep'ов 5. не, ну вы прям не представляете, насколько 5.2 лучше Opus. либо после проплаты подписки Anthropic мне занерфил опус (потому что он прям как будто заметно тупее стал), либо меня реально сломал тот факт, что 5.2 _реально_ следует инструкциям.
вторая штука, про которую очень хочется написать что-то вдумчиво философское, это то, что если раньше всякие тейки про AGI 2027 мне казались преувеличенными, и 2030 выглядел реалистичнее, то в последние недели я задаюсь двумя вопросами: 1. а почему мы вообще считаем, что то, что у нас есть сейчас - ещё не AGI? 2. мне кажется, что ASI 2027-2028 даже более реалистичный горизонт, чем AGI
--
а ещё, хочу повторить тейк из предыдущего поста: если ИИ сейчас не может справляться с вашей задачей - вы плохо его настроили. не дали хороший цикл для автономного тестирования, не подготовили док по дебагу, не прописали важные ньюансы, etc. я не могу пошерить ЧТО сейчас у меня делает gpt-5.2, но мягко говоря - на такое его точно не обучали, и даже 3-4 месяца назад мне казалось абсолютной фантастикой, что модель справится с такой задачей вообще.
я вот собрал себе скилл, который довольно неплохо настраивает автономный фидбек-луп агенту в репозиториях - он обычно даёт на 80-90% готовый результат, дальше чутка подпилить, причесать избыточность в DEBUG.md, и можно отлично юзать. сейчас все проекты инициализирую через него обязательно.
скилл в аттаче, надеюсь пригодится 🙂
Пару дней программировал с Claude Code - это приложение-агент для терминала, которое умеет не только просто писать код, но и планировать, адаптироваться и выполнять команды локально. Весь инференс идет через Anthropic API, так что нужно подключить ключ и готовиться к затратам. Из коробки доступны базовые команды - view, edit, replace, glob, grep, выполнить произвольный баш, но можно и подключить свой MCP и адаптировать под себя. Сколько-то похоже на agent mode в Cursor, с которым я как-то не очень поладил (хотя inline автодополнение там клевое), а из опенсорсных решений напоминает Aider.
Я пробовал работать в двух проектах: один небольшой, но начат умными людьми и потому обладает некоторой структурой, второй я делал прям с нуля в режиме "вайб-кодинга". В обоих случаях у меня уходило что-то около 10 баксов в час, причем я старался вовремя сбрасывать контекст, чтобы счет меня не разорил. Когда осознаешь, что команда "run tests" стоит три цента, это вызывает странные незнакомые эмоции. Помимо денег, есть вопросы и к скорости: например, вчера перед сном я оставил агенту одну задачу и ушел, не закрывая ноутбук. Утром глянул результат - total cost: $5.90, total duration (API): 37m 11s.
Впрочем, скорость инференса - не единственный боттлнек. Пару раз ловил себя на мысли, что хочется печатать быстрее (или даже попробовать голосовой ввод) - обычно я думал медленнее, чем писал код, а тут хочется быстро командовать "эй, почини такой-то баг и прогони тесты".
Скучный бойлерплейт-код пишет отлично (в разы быстрее, чем я бы писал в редакторе даже с копайлотом или аналогом), дебажит неплохо, но, как и все LLM, может пойти по неправильному пути и нахерачить много дичи, надо вовремя останавливать и быть очень конкретным (например, жестко определять стек). Если не влезать в детали и давать недостаточно конкретные указания, будет так: "Бесконечная бессвязность за кажущимся смыслом, абсолютная неконсистентность, скачки мыслей и стилей между разными частями проекта. Полнейший ужас и хаос за кажущимся порядком".
Короче, пока немного сыровато, но буду иногда использовать. Хочется быстрее и дешевле; думаю, еще увидим в этом году. See also: отзыв от Антона.
P.S. нашел пасхалку: через claude code можно заказать себе стикеры anthropic, но доставка только в 🇺🇸
Вдохновился постом о том, как использовать Claude Code для анализа структуры Claude Code и пошел по тому же рекурсивному пути: сгенерил при помощи Claude Code утилиту, чтобы логировать его же запросы. На первый взгляд, магии там мало - системный промпт, две базовые модели (sonnet 3.7 + haiku) и набор тулов.
Если хотите поковыряться своими руками, выложил результат на github. Думаю, следующим шагом было бы интересно попробовать подменить базовые модели на что-то локальное.
меня не отпускает ощущение, что хвальбы Codex 5.2 в куче около-ИИ чатов - это какой-то пранк да, модель сильная, но по шизофазии и рядом не стояла с Anthropic.
писать код в совершенно отличном от кода проекта стиле, генерировать какие-то абсолютно неуместные (тонны typeof-валидаций в strict TS файле - что это?) и местами даже совершенно бессмысленные вещи (пустой цикл. типа, цикл вообще без тела. wtf?) - вообще запросто. и я не понимаю, на кой чёрт у неё такой длинный exploration phase, если она один хрен всё равно потом дублирует тонны кода. написать функцию, в которой 9 строк из 10 полностью совпадают с уже существующей в том же файле - вообще легко.
стал в последние дни частенько упираться в лимиты по CC/Курсору, и пытаюсь использовать Codex. в большинстве случаев он справляется лучше всего со следующей задачей: развлечь меня до момента, пока у CC не сбросится лимит, после чего я с лёгким сердцем делаю git reset, и передаю задачу в Sonnet.
безумие? да что ты знаешь о том, что такое безумие?
P.S. оч жду фичу, чтоб агент кидал смешные рилсы в чат
P.P.S. если что - это не нативный курсор, это я на суперкодовские воркфлоу поставил data-uri gif иконки с дискорда
в один вечер, лол 🙂
⚡️ Opus 4.6 https://www.anthropic.com/news/claude-opus-4-6
⚡️ GPT-5.3-codex https://openai.com/index/introducing-gpt-5-3-codex/
P.S. для контекста - Opus 4.6 проигрывает в SWE Verified Opus 4.5, но побеждает в Terminal Bench с лёгким отрывом (65.4% против 59.8%). В то же время GPT-5.3-codex доминирует и там и там, причем в terminal bench с диким отрывом - 77.3%
Все так хвалят Cursor, но почему-то никто не пишет про проблемы с Remote SSH.
Есть разный набор танцев с бубном, которые вроде как позволяют что-то завести (например, попробовать поставить версию постарше, до блокировок от Microsoft), но как-то оно попахивает.
Останусь пока на VSC + Roo + Codeium
ACP в zed оказался не так хорош, как я думал
Ну ладно, пока буду делать claude -r
https://github.com/zed-industries/zed/issues/37481