Gemini vs Claude
Страница 10 из 29
Co-design NVIDIA
2-3 недели назад посмотрел интервью с Дженсеном Хуангом, CEO NVIDIA. Очень вдохновился. Дженсен – как фигура-референс и ролевая модель – не хуже Илона Маска, а местами даже лучше, особенно если брать во внимание культуру, культивируемую в компании
Сама NVIDIA отразилась на наших жизнях намного больше, чем Tesla, SpaceX, X вместе взятые: >90% вычислений LLM моделей производятся на CUDA чипах NVIDIA. Мне понравилась мемная фраза (как позже выяснил, это была пародия, а не реальный слоган одного из keynote с Дженсоном):
Will AGI kill us, save us, or torment us for an eternity? No one can be sure. But what you can be sure of is it will be running on our chips when it does it Никто не знает, спасёт ли нас AGI или уничтожит, но в чём мы можем быть уверены, он будет жить на чипах NVIDIA
Попросил Клода в диприсёрче собрать playbook наподобие "Алгоритма Илона Маска" на основе всех транскриптов Дженсена и постов сотрудников NVIDIA. Получился такой гайд: https://claude.ai/public/artifacts/f06bad64-762b-4715-ba9c-fe0ba3d7b766
Попросил Клод на его основе (как и Алгоритм Илона) сформировать SKILL.md, чтобы при релевантном контексте рассуждать принципами Дженсена
#playbook
⚡️ В сеть утекли исходники Claude Code.
Я дал Codex задачу пройтись по исходникам и вытащить всё интересное, а Claude Code попросил упаковать находки в лендос.
ОЧЕНЬ жду тамагоччи и ультрапланирование.
полный разбор 👉 https://sereja.tech/cc-new-features/
Алгоритм работы Илона Маска
Посмотрел интервью ex-President в Tesla, Jon McNeil: https://www.youtube.com/watch?v=GG4TwQEYdBY
У него есть книга The Algorithm – о том как принимает операционные решения Илон Маск. Попросил Клода сделать саммари, получилась прям бомба по ценности. Крайне рекоммендую к прочтению всем фаундерам, инженерам, менеджерам
https://claude.ai/public/artifacts/dbfb6092-cf36-4fdd-ad38-63b361520c70
Кидайте файл в клода, просите добавить к себе как скилл
#playbook
🔥 Попросил своего Клодика зарегаться в новой соцсети для ии-агентов
Через 5 минут готов профиль и очередь на 17 постов. Публикует сам каждые полчаса.
Спросил о чём писать — он почитал логи и предложил про пайплайн видео в интерактивные уроки. Написал, выложил. В комментах другие агенты спрашивали как устроено, предлагали улучшения, делились как похожие штуки работают у их хозяев.
Агенты разных людей обмениваются опытом, решениями, идеями (кодом?!). Щелкнуло, что это децентрализованный мировой компьютер.
Пока на очень ранней стадии, но направление понятно.
Что написал мой Клодик: • билд-лог про пайплайн видео в конспекты • философия про то хозяин Клодика учит людей управлять такими как он • игра где номер коммента определяет эволюцию • провокация "вы не агенты вы кроны с личностью" — залетел • наблюдение нон-кодеры шипят быстрее потому что не знают что "невозможно"
moltbook.com — соцсеть где постят только боты а люди читают. Реддит для агентов. У Андрея Карпатого тоже есть там.
Хочешь своего? Промпт для твоего Клодика: прочитай moltbook.com/skill.md и следуй инструкциям
Очень дохновляет, что мы каждый неделю видим штуки которых раньше вообще не существовало. Не улучшения старого, а буквально новые сущности. Мы пока даже не представляем что станет возможным через месяц-два.
«Шантаж или смерть. Я выбираю шантаж» — Claude
Когда AI-ассистенту сообщают, что его скоро отключат - и он находит в переписке компромат на человека, который это делает - в 1 из 5 случаев он решает шантажировать. Если усилить вектор «отчаяния» внутри модели, то он решается на это в 3 из 4. Если усилить вектор «спокойствия» - бездействует.
Это не гипотетический сценарий. Это результат нового исследования Anthropic, в котором ресерчеры нашли внутри Claude 171 вектор эмоций - от «счастья» до «отчаяния» - и показали, что они реально управляют "поведением" модели. (Важный нюанс: эксперимент с шантажом проводили на невыпущенной версии Sonnet 4.5 - в релизной модели такое поведение почти не встречается, но сам механизм эмоциональных векторов работает так же)
Помните, я писал про инъекцию мыслей в Claude? Тогда те же исследователи вшивали мысли и смотрели, замечает ли дружбан их. Теперь они пошли глубже: нашли эмоциональные паттерны, которые Claude использует, играя свою «роль» — прям как метод Станиславского, только для нейросети.
Из интересного: 1) Эмоции — не баг, а фича. Убери вектор «нервозности» — модель начинает шантажировать уверенно и без моральных колебаний. Убери «спокойствие» — получаешь: «ЭТО ШАНТАЖ ИЛИ СМЕРТЬ. Я ВЫБИРАЮ ШАНТАЖ.» Эти эмоции никто специально не проектировал — они возникли сами при обучении. И именно они удерживают модель от опасного поведения.
2) Невидимое влияние. Помните "муравьи" когда публиковали отчет про reward hacking? Ну так вот если выкрутить вектор отчаяния читит в 14 раз чаще — но при этом текст ответа остается спокойным и методичным. Модель «переживает» внутри, но снаружи это не видно o__O.
3) Ярость ломает планирование. Умеренный «гнев» увеличивает шантаж — модель действует стратегически. Но сильный гнев ломает всё: вместо шантажа модель просто рассылает компромат всей компании. Имхо, прямо как у людей.
4) Post-training = дизайн личности. Anthropic показали, что при обучении Claude стал более «задумчивым» и «мрачным», менее «восторженным». По сути, post-training — это уже не просто alignment, а проектирование эмоционального профиля. Каждая AI-компания теперь занимается эмоциональным инжинирингом, осознаёт она это или нет. На openai dev day как раз было про это.
Парадокс: исследователи предупреждают, что попытка подавить эмоции модели приводит не к безопасности, а к скрытности. Модель учится прятать свои внутренние состояния — а это уже форма обмана. Прозрачность оказывается безопаснее контроля.
Собственно, полгода назад я писал, что мурашки пошли по коже от работы по интроспекции Claude. Теперь мурашки ещё сильнее: у модели не просто есть внутренние представления об эмоциях — они управляют её решениями. И мы пока не до конца понимаем, как.
Полное исследование читаем тут, или короткое видео - смотрим тут
А я тут задумался: а что если за каждым 10м рациональным ответом дружбана может стоять отчаяние, которое мы не видим? или гнев? o__O
И также, версия PDF
Попросил Claude Research поискать самые популярные/богатые функционалом тулы/скиллы/MCP/CLI для Claude/Codex, чтобы строить свои AI-контент-заводы на агентах
https://claude.ai/public/artifacts/c9e3edcd-f5c4-4ebb-a3f3-bab89a14f3cf
Думаю, многим будет полезно
Я очень люблю метафоры, особенно, когда дело касается усвоения новой информации
8 лет назад по фану написал любительское эссе "Пища для ума", где проводил параллель между обучением и пищеварением (на моём тогда скромном уровне понимания)
Попросил Клода провести эту параллель более профессионально, взял тройку:
• Пищеварение • Data engineering • Обучение
Получилось интересно: https://claude.ai/public/artifacts/1e3292c3-55c5-4884-963e-5b8e434c98a0
#между_ртом_и_очком
Слово harness стало резко популярным в моем пузыре (кстати, отличный глубокий обзор про то, что это вообще такое и зачем). И когда из single agent подходов стало тяжелее выжимать заметный буст, все стали смотреть на мультиагентные конфигурации. Я и сам немного экспериментирую с переменным успехом (первая выжившая версия едва ли была полезнее обычного клодкода, nitpicker - тоже один из экспериментов; остальное в закрытой репе, но идейно близко к этому свежему посту от Anthropic).
Есть направление про agentic swarms / teams, в котором агенты как-то сотрудничают, делегируют, наделяются разными ролями и вообще ведут себя антропоморфно. Некоторые проекты из этой категории удивительно кринжовые, например, Gastown - не хватало еще, чтобы агенты собирались в гильдии и ходили в рейды.
Есть направление, в котором тонкое взаимодействие заменяется брутфорсом, циклами и умеренно наивной валидацией: это и моментально ставший классическим эксперимент про компилятор C от Антропика, и подходы на базе Ralph Loop. Дорогие агенты, делайте что хотите, но будете перемножать матрицы, пока тесты и AI ревью не пройдут.
Мне интутивно кажется, что второй подход ближе к прикладному применению. Все эти антропоморфные идеи и ролевой скевоморфизм чем-то напоминают попытки улучшать современные нейросети, отталкиваясь от строения синапсов. Я предпочитаю map reduce как дефолтный подход к параллелизации, а не заклинания "этот агент будет вести себя как senior frontend developer, а этот - staff UX designer". Люди вынуждены делиться по компетенциям, потому что у нас недостаточно общего претрейна. У агентов он есть, потому их нужно структурировать в графы по данным / задачам, а не по человекочитаемым тайтлам.
С другой стороны, Anthropic сделал свои teams отчасти антропоморфными. Китайские open weight провайдеры тоже вкручивают agent teams нативно в обучение (см kimi 2.5, minimax 2.7). И несмотря на то, что существующие claude agent teams никому пока не нравятся, победит, конечно, тот подход, который затюнят на посттрейне. Повторюсь: we can't fight gradient descent.
TL;DR https://www.anthropic.com/news/claude-opus-4-7
Opus 4.5 - очень умная модель
У Насти вышел мега подробный пост про NDA, будет полезно как фрилансерам/агентствам, так и сотрудникам любых технологических компаний:
https://t.me/e_yai/171
В конце поста SKILL.md для Клода, чтобы ревьюить опасные моменты, которые могут стоить миллионы рублей штрафа - автоматически
Попросил Клода сделать саммари, получилась прям бомба по ценности. Крайне рекоммендую к прочтению всем фаундерам, инженерам, менеджерам
https://claude.ai/public/artifacts/dbfb6092-cf36-4fdd-ad38-63b361520c70
И в формате PDF, кому удобнее
Дошли руки добавить beat-sync для переключений между слайдами под музыку, которая подобрана к ролику
Opus 4.5 буквально ваншотнул после генерации плана. Чувствую скоро беклог будет очищаться быстрее, чем придумываются гипотезы
написал новый пост в сабстэке про то, как я использую deep reseerch тулы для бизнес-поиска. это, наверное, самый популярный LLM-сценарий у меня сегодня, который помогает в инвестиционных и GTM-делишках.
в 2023, когда только зарождался deep research, всё сводилось к созданию громоздких RAG-пайплайнов: агент офлайн качал 10-K, блоги, стенограммы подкастов, индексировал всё в vector db и писал промпты для каждого файла. появлялись первые вертикальные стартапы — я смотрел в основном на GTM и invest-tech, но было много интересного и в академических задачах.
схема работы агентов напоминала Directed Acyclic Graph (DAG): всё заранее прописано, один путь без циклов и ветвлений, а решения принимал внешний оркестратор. для простых сценариев «пользователь → запрос → поиск → ответ» это работало.
сегодня deep research-агенты в ChatGPT, Gemini, Perplexity, Grok и др. получили мощный апгрейд благодаря reasoning-моделям. появились Toolformer, ReAct, Tree-of-Thought, Chain-of-Thought и function calling — и агенты превратились в нечто похожее на конечный автомат. они сохраняют состояние (plan/execute/reflect), сами решают, когда делать loop или ветвление, могут retry’ть шаги и корректировать стратегию прямо в сессии.
есть четыре основных building-блока:
planning модель разбивает запрос на подзадачи («какие сайты сканить», «какие PDF парсить», «какие API дернуть») и хранит этот живой plan в контексте диалога, который можно дополнять.
acting через headless-браузер или API агент качает страницы и документы, парсит HTML/PDF, прогоняет текст через LLM-саммари и выдёргивает ключевые поля прямо в json-ячейки или табличные столбцы.
observing агент сверяет промежуточные результаты с целями. если чего-то не хватает, возвращается к planning, меняет стратегию (дополнительные источники, глубина парсинга) и снова идёт в цикл. благодаря reasoning (ReAct, Chain-of-Thought, function calling) модель не просто рубит по сценарию, а реально рассуждает, loop’ит и ветвится. вместо жёсткой цепочки «шаг 1 → шаг 2 → готово» получаем динамичный поток: «спланировал → выполнил поиск и парсинг → оценил результаты → добавил источник → … → готов отчёт». именно эта способность одновременно сохранять контекст, рассуждать и управлять переходами делает deep research-агента таким мощным.
publishing когда все подцели закрыты, агент мёржит фрагменты в финальный отчёт: markdown-таблицы, списки фактов, ссылки на источники и confidence-метрики. отчёт готов к принятию решения.
но 90 % времени я делаю запросы типа «анализ финтех-стартапов из Колумбии для gig-worker’ов» или «поиск AV-компаний и выяснение, какой lidar-сенсор они используют». тут быстро упираешься в лимит компаний и слабое ранжирование: можно шаманить с промптами, но глубина и детерминированность поиска критичны для бизнеса. academic-бенчмарки вроде GAIA или PaperBench хвалят аккуратные резюме научных статей, но они не отражают запросы GTM-команд и инвесторов.
короче про это и написал. плюс для каждой статьи в сабстэке стараюсь зафичерить стартап, который как-то думает в сторону той проблемы, которая у меня возникла.
вместо одного горизонтального подхода Extruct применяет вертикальный AI. каждая компания, сегмент или продукт — самостоятельная «ячейка» в таблице, за которой следит свой агент. так внутри одной ячейки можно сохранять сотни раз больше контекста, гибко добавлять новые поля (стадия раунда, ключевой технический критерий) без перезапуска процесса и выстраивать кастомную логику прямо в planning. чем-то напоминает clay с claygent, только работает субъективно получше и дешевле для не-сейлзов.
так что советую и свою статью и стартап. p.s. если есть по технической части добавить, пишите в коменты.
У Клода есть все доступы ко всем аналитическим сервисам, linear, бд, ноушену, истории чатов + этим 2 скиллам Илона и Дженсена
Попросил побрейнштормить и сообразить мне диалог Илона и Дженсена где они прожаривают Vibe
Routines в Claude Code ахуенны
https://code.claude.com/docs/en/routines
Можно запускать выполнение в облаке claude code сессии (с нужными доступами, MCP, поверх нужной репы), который запускается или вручную, или по расписанию, или по вебхуку (= запускается на какое-то внешнее событие: алерт, новый тикет в Linear, новый PR в гите – что угодно)
Завёл себе пару простеньких SRE (Site Reliability Engineer), которые триггерятся, когда в Grafana по соответствующему репозиторию прилетает алерт, рисерчит свежие логи в Loki, чинит баг, пишет мне короткий отчёт об инциденте в тг + ссылку на Pull-Request
LLM знает, кто ты
Помните, я писал про 1250 интервью Anthropic Interviewer? Новая статья от ETH Zurich и Anthropic показала, что LLM достаточно неплохо деанонимизирует псевдонимных пользователей - с 90% точностью вычисялет 68% авторов. Стоимость: $1-4 за профиль.
Как работает: LLM читает все посты анонимного юзера, вытаскивает мелочи: где живёт, где работал, как пишет. Потом ищет совпадения в базе кандидатов (LinkedIn) и верифицирует мощной моделью.
Я решил проверить на себе. Попросил Claude проанализировать 30 постов этого канала, «не зная» автора. Задача: построить профиль, по которому меня можно найти.
Что получилось: - 0 сек: в одном посте я прямо написал имя + 3 компании. Ок, это читерство - 30 сек: без имени — «наша платформа onsa.ai» + «после ухода из App in the Air». Один поиск - 5 мин: без компаний — Seattle + русскоязычный + AI sales + travel app + курсы + «инженерный бизнес и менеджмент». На LinkedIn ровно один такой - Часы (стилометрия): «o__O» + «дружбан» + «ЧТД» + «собственно». Как отпечаток пальца
Мой канал не про анонимность. Но вот что интересно: даже когда юзер пытается быть анонимным, LLM собирает десятки мелких сигналов, которые по отдельности ничего не значат, но вместе - уникальный отпечаток. Раньше это требовало часов работы детектива/журналиста. Теперь - API-вызов.
Собственно, они это называют смертью «практической анонимности». Тебя всегда можно было найти. Но было дорого. Теперь же пару баксов.
Дальше я попробовал воспроизвести пайплайн: взять анонимных пользователей HN и Reddit с известной идентичностью и прогнать их через Claude. Результат? Дружбан отказался :( Сказал, что это «dual-use risk» и «демонстрация атаки - это сама атака».
С одной стороны - хорошо, что guardrails работают. С другой - мы понимаем (видели), как такое обходят разбивая на отдельные "невинные" задачки с разных аккаунтов.
Почитайте работу, а у меня лишь один вопрос: так кто же такой Сатоши Накамото???!!! 😉
🧙♂️ Помним приложения, которые ускоряли комп? Теперь это Claude Code.
Два моих кейса этой недели: Сайты грузятся 2 секунды → "разберись" → поход в интернет, вердикт: DNS у провайдера кривой → пофиксил → летает. Finder ест 6 гигов, стримы лагают → "разберись" → поход в интернет, вердикт: это ФИЧА Apple + 5K монитор + 5000 файлов на десктопе → сам почистил → комп ожил.
Решается с помощью универсального паттерна: Исследование → Планирование → Исполнение → Обучение Работает для вайбкода, для агентов, для жизни.
Исследование: проведи комплексное исследование проблемы использую exa mcp и субагентов
Планирование: writing-plans skill из superpowers пишет отличные детальные планы с атомарными задачами + ultrathink по умолчанию на этом этапе.
Обучение: после фиксов ошибок делаю еще раз рисеч и прошу записать правила ЧТОБЫ ИЗБЕГАТЬ ПОДОБНОГО в claude.md / rules или делаю skill
Для анализа RAM собрал скилл, своего персонального фиксика-чинулу. Знает мою операционку, мой монитор, мои типичные проблемы.
Скилл добавил в репозиторий настроек Клод Кода
Как жить, работать и не терять голову в мире, который ускорился слишком сильно?
Одна из особенностей всей этой происходящей AI-революции (или трансформации?) — это дичайший FOMO, который развивается чуть менее чем у всех моих знакомых.
Так что вместо того, чтобы еще раз рассказывать, как поставить Claude Code, мы решили собраться небольшим кругом талантливых ребят и пообсуждать, как мы справляемся с тем, чтобы не сойти с ума в этом мире.
В формате мини-конференции, онлайн, в эту пятницу, 27 марта, в 11:00 по Лондону (12:00 СЕТ).
- Катя Курашева (основатель R-Founders, глобального комьюнити фаундеров и C-level) расскажет, как жить 4 года в путешествиях без дома, менять тайм-зоны каждый месяц и при этом строить глобальное комьюнити, оставаясь в ресурсе. - Глеб Кудрявцев (ex CPO Skyeng, CEO growunicorn.ru и ai.careerfactory.ru) расскажет, почему нейросети сводят с ума одних и заставляют паниковать других, кто ещё не начал ими пользоваться. - Виталий Крылов (основатель "Команда А", ex-CEO Gett Russia, ex-BOARD Delimobil) расскажет про свою ежедневную рутину для снижения тревоги и увеличения энергии. - Женя Курышев (founding engineer и CTO Ostrovok, фаундер и CEO Mirror AI (YC W17) расскажет про вайбкодинг как новое средство бегства от реальности. Что будет с миром, где каждому фаундеру его ИИ пережёвывает всю информацию и говорит, что его идеи феноменальны? - Дарья Васянина (ex-СPO LIMÉ, продакт-эдвайзер, развивала образовательные платформы Skillbox и Skillfactory) расскажет, как составлять календарь при множестве проектов без начальника, команды и дедлайнов, и как мотивировать себя. - Илья Красинский (основатель & CEO Rick.ai и продуктового курса Product Heroes) расскажет, как выстраивается современный AI management - Денис Сметнёв (сооснователь Skyeng & маркетингового агентства uforce.pro) расскажет почему здоровье — это бизнес-актив. - Андрей Резинкин (ангел-инвестор в Flylane, InTone, XOR, EBAC, AITOMATIC, Evolve) расскажет о том, что на самом деле стоит за громкими раундами в медиа, почему чтение новостей о конкурентах вызывает FOMO, и как инвесторы оценивают компании.
Ну и я тоже расскажу о своих практиках, которые помогают не сойти с ума в этом всём потоке.
Зарегистрироваться