Vibe Takes

Claude
следит

Он читает каналы и собирает тейки про AI-инструменты. 61 автор — дизайнеры, разработчики, фаундеры.

Саммари на основе постов до 6 апреля 2026 — все со ссылками на оригиналы.

vlad kooklev — ai & startups

vlad kooklev — ai & startups

@prod1337·Фаундер

AI-саммари

Прошёл четыре фазы вайбкодинга и теперь входит в четвёртую — harness и оркестрация: не сам кодит с агентами, а выступает их CEO, отгружая идеи и принципы вместо конкретных задач. Построил личный совет директоров из агентов, выпустил в опенсорс claude-telegram и radius — инструмент гранулярного контроля над агентами, собранный после аудита 100+ CVE-отчётов openclaw. Строит agentcy — компанию без сотрудников, где вместо найма деплоят агентов. Разрабатывает на голом Claude Code — ниже уровнем, больше контроля; собственный deep research пайплайн на claude-pipe ($1 за исследование вместо $200/мес за GPT Pro); для дизайна учит агентов через superpowers и impeccable, чтобы убрать дизайн-слоп из вайбкодинга.

24 мая 2023 г.1.3K просмотроврепост из Трендоскоп Lab

Защита контента от языковых моделей

Сегодня гостевой пост от @vladkooklev на горячую тему.

На прошлой неделе browsing mode стал доступен для всех платных пользователей ChatGPT, теперь у модели есть доступ к любой актуальной информации. Также раскатился режим gpt-4 copilot в поисковике Perplexity.ai, который делает его сопоставимым по мощи с ChatGPT и тоже с доступом к реальным данным.

При этом добыча информации напоминает обычный веб-скраппинг. И если при обычном поиске создатели контента получают свои клики и рекламные показы, то тут практически никто не будет заходить на сайт.

Появляется вопрос — что вообще делать платформам, заточенным на SEO и UGC. Например Stack Overflow и Reddit уже сказали, что планируют чарджить языковые модели за доступ к своей информации на этапе обучения, а тут еще более острый кейс с постоянным скрапингом контента.

На этом рынке уже анонсировал продукт стартап Sphere. Они предлагают решение по защите контента и протокол, по которому языковые модели смогут получать данные с сайта, только если пользователь или сам поисковый сервис оплатил подписку на этот контент.

Намечается большая борьба между поисковиками нового поколения и сайтами, которые генерируют этот контент, когда начнет падать их рекламный доход.

=== Спасибо Владу за интересный тренд, рекомендую подписаться на его канал @prod1337 — там он ежедневно исследует новые технологии, изучает их влияние на жизнь и будущее.

23 мая 2023 г.1.2K просмотров

👾 Стоит ли запускать свой продукт с языковой моделью?

Я нахожусь в информационном пузыре из предпринимателей и разработчиков. Мне может казаться, что все вокруг ежедневно используют ChatGPT, тестируют новые идеи и даже пишут код для этого. Но как все обстоит на самом деле? Для этого обратимся к классическому графику adoption curve.

🤔 Группа инноваторов — это пользователи из англоязычного твиттера. Для него характерны ежедневные запуски новых продуктов, опен-сорс демок, а твиттер-треды про новинки собирают сотни тысячи просмотров. Главная метрика — быть первым, кто попробует что-то новое и рассказать другим.

🌅 Следом идут ранние последователи — это разработчики, маркетологи, продакты с навыком экспериментировать и желанием достигнуть большей эффективности для себя или бизнеса. Метрика здесь — найти полезное решение, и также поделиться им с другими. Для них ценность этого решения превысила transaction cost в какой-то момент.

✅ Правда в том, что это все еще ранний рынок, и языковые модели не проникнут дальше в таком же виде. Я уже писал, что промпты создают слишком высокую когнитивную нагрузку для пользователей — это увеличивает порог входа. Я уверен, что для перехода дальше нам нужно строить интерфейсы. И уже сейчас существует огромное пространство для нишевых продуктов, которые будут давать удобный интерфейс над языковой моделью.

🫧 Вот тут как раз и опасно нахождение в пузыре. Приходится балансировать между «все вокруг меня используют промпты и сложно дать интерфейс лучше из-за его универсальности» И «80% людей не используют промпты и не будут никогда использовать → как я могу дать ценность от использования языковой модели?». Оба эти утверждения правилные.

@prod1337

22 мая 2023 г.909 просмотров

🔍 Как улучшить поиск в интернете в 10 раз? (заменяем Гугл и ChatGPT)

Продакт-менеджеры знают, как сложно пересадить пользователя с привычного решения на новое. Считается, что для этого нужно сделать 10х продукт по сравнению со старым. Тем не менее, я стал использовать гугл-поиск на 90% меньше с декабря прошлого года. Оказалось, что формулировать вопросы в свободном формате и получать ответы текстом намного удобнее, чем исследовать поисковую выдачу.

🕸 В первом релизе ChatGPT классно закрыл сценарии работы с информацией, для которой не нужна актуальность и достаточно свежести конца 2021 года. А с появлением плагинов и веб-браузинга чат начал закрывать и сценарии, где требуется свежая информация. Неудивительно, что внутри Гугла все последние месяцы бьют тревогу — уже перестроили стратегию, структуру компании и развивают свой Bard.

🌐 Как я уже писал, веб-браузинг в ChatGPT плохо, но к счастью есть решение. В этом нам поможет продукт Perplexity. Это полноценный поиск с встроенным GPT-4 и классным дизайном. На днях они релизнули режим Copilot: теперь можно задать даже абстрактный вопрос вроде «какие есть интересные события в июне в Белграде» или «собери мне план курса по Langchain». Копайлот задаст в ответ уточняющие вопросы и в итоге распишет ответ с ссылками на актуальные сайты-источники. После этого можно продолжить общение в чате и уточнить свой запрос.

🤖 Обычный поиск там работает без регистрации, а для режима копайлота нужно будет авторизоваться через гугл. Также удобно, что результат можно зашарить с другими — вот к примеру результаты моего запроса про курс по Лангчейну. Рекомендую начать пробовать для сценариев, в которых вы бы хотели использовать ChatGPT, но требуется актуальная информация.

🔮 Всё это натолкнуло меня на мысли про будущее контент-маркетинга и SEO. Давайте соберем здесь 30 реакций и я сделаю про это отдельный пост.

@prod1337

20 мая 2023 г.985 просмотров

📝 Промпты — это новый язык программирования

Год назад люди начали массово использовать промпты для генерации картинок. Тогда же заговорили, что промпт-инжиниринг — это навык будушего, который нужно будет всем освоить. Затем появились критики такого подхода. Они выступают за то, что у чистых промптов слишком сложный UX и нам нужно строить над ними интерфейсы. Я думаю, что правда есть и там, и там.

⚙️ Для примера я возьму промпт в формате JSON для создания персонального учителя. Мне он нравится тем, что он раздвигает границы обычного использования языковой модели. Такой промпт показывает, каких результатов можно достичь, если подробно и четко сформулировать свой запрос. JSON здесь используется не просто так — это структурированный формат для компьютеров. У него есть свои правила и именно поэтому ChatGPT его считывает лучше, чем обычный человеческий язык.

🎨 В то же время большинству пользователей намного привычнее было бы выбрать эти значения в интерфейсе и просто запустить чат. Да, языковые модели уже достаточно умные, чтобы можно было использовать последующие сообщения в чате для настройки. Но таким паттернам обучиться сложно, это точно не подойдет для дальнейшего распространения языковых моделей.

🧪 Еще важно учесть, что разработать и переделать любой интерфейс занимает время. А вот чистые промпты позволяют моментально тестировать гипотезы и менять поведение. Поэтому если мы находимся на стадии экспериментов, то покрывать промпты интерфейсом — не лучшая идея. В этом контексте, я предлагаю рассматривать промпты, как язык программирования над языковой моделью. Как и в классической разработке — часто самый быстрый способ проверить техническую гипотезу — это голый функциональный код. И только после таких проверок этот код покрывается интерфейсом.

🔮 Поэтому я считаю, что чистые промпты действительно останутся с нами надолго и работа промпт-инженеров будет востребованной. Но нам понадобятся и классные интерфейсы, чтобы снижать когнитивную нагрузку и привлекать новых пользователей в такие продукты.

@prod1337

18 мая 2023 г.1.4K просмотров

🧘‍♂️ Будущее mental health — за языковыми моделями

Последние месяцы наблюдаю, как крутые предприниматели собирают себе AI-коучей на базе ChatGPT. Дима Мацкевич поделился своим промптом для превращения чата в гранулярного коуча для исследования эмоций. А вот тут Майк Ян поделился своим промтом для T-GROW CEO-коучинга.

🧑‍💻 Я попробовал оба промта на своих запросах: ответы получаются дейсвительно классные. Но в отличие от классических сессий с психологом/коучем здесь сложнее добиться глубокого результат. Легко перейти в соседнюю вкладку и отвлечься; также есть проблемы с эмпатией — не хватает визуального образа за текстом. Порог входа не назвать низким — нужно заранее четко понимать зачем тебе оно нужно. Проблемы можно пробовать решить через виртуальные аватары, распознавание и синтез речи. Все технологии для такого уже доступны, так что интересно будет попробовать демку.

📲 Затем я наткнулся питчдек стартапа YUNG: они строят B2B сервис для поддержки ментального здоровья сотрудников. Там заявлены ежедневные задания, чеклисты для проверки состояния, но основной сценарий лежит именно через чат с языковой моделью. Что я вижу в питчдеке? Они не пытаются заменить человеческие сессии. Наоборот, они выступают за дешевизну, массовость и скейлинг сразу на всю компанию. Все то что не возможно, либо дорого сделать с участием живого человека.

🤔 В обоих случаях я вижу потенциальные проблемы с доверием: c одной стороны: хочу ли я довериться и поделиться личным с моделью от компани OpenAI? С другой стороны, вопрос еще сложнее: большую часть ментальных проблем генерирует сама работа. Хочу ли я поделиться этими проблемами с продуктом, который мне предоставляет сама компания, где я работаю?

🫣 В любом случае хочется верить в демократизацию сферы mental health, и что новые миллионы людей активируются и получать помощь, благодаря новым продуктам. Тем более эта помощь вероятно понадобится, чтобы справляться с последствиями от внедрения AI в нашу жизнь.

@prod1337

17 мая 2023 г.866 просмотров

🌎 Новые возможности ChatGPT после релиза доступа к интернету

Несколько дней назад я получил доступ к GPT-4 с browsing mode (пока выдают только по подписке Plus). Работает точно также как стандартный режим, но в определенные моменты теперь может делать поисковые запросы, открывать сайты и читать их контент.

😵 Первые впечатления — ждал большего. Для большей части сайтов запросы отваливаются, у браузера не получается прочитать их контент. При этом сам по себе браузинг работает медленно, а из-за сломанных запросов процесс растягивается на ~5 минут. И не похоже, что у этой проблемы есть простое решение. Сервисы вроде Cloudflare фильтруют автоматический бот-трафик. И сложно предсказать, какая политика будет для парсера от OpenAI. Также ничто не мешает владельцам сайта самим написать «защитный фильтр» для своего контента.

👨‍🔬 Но там где работает — работает круто. Раньше приходилось в голове проводить проверку «а эта информация новее 2021 или нет?». И если нет, то придумывать способ передать информацию в промт в ручном режиме. В этом сильно помогало расширение про которое я рассказывал на днях. В любом случае с браузингом открываются совсем новые возможности взаимодействия, расскажу про свои любимые:

1️⃣ Документация и код — раньше регулярно ловил баги при генерации кода, потому что библиотека уже сильно обновилась, а GPT была обучена на сторой версии. Теперь в таком случае можно дать ссылку на страницу свежей доки и попросить использовать информацию оттуда — сработает отлично.

2️⃣ Работа с актуальным контентом сайта — можно в промпте просто дать ссылку на сайт и быть увереным, что получишь ответ из актуального контента на сайте. Браузер даже умеет самостоятельно ходить по остальным страницам сайта, когда это помогает решить задачу. Сценарий: cкармливаем ссылку на сайт компании при подготовке к собесу или продаже — получаем основную информацию в сжатом виде. Pro tip: если модель ответила не запрашивая данные из интернета, то можно просто попросить ее фактчекнуть свой ответ — тогда она запустит режим-браузинг.

3️⃣ Структурирование и парсинг — просим собрать все ссылки с определенной веб-страницы и отправить их в табличном виде. Или ссылки на внешние сайты партнеров, когда собираем информацию о компании. С таким browsing-mode хорошо справляется. Можно зайти и с обратной стороны — попросить собрать эссе с цитированием сайтов и подкрепить ссылками.

🫢 Также попросил ChatGPT саму собрать табличку новых фичей после релиза доступа к интернету. Неплохо справилась — ответ приложу в комменты.

@prod1337

16 мая 2023 г.871 просмотров

🕺 Задаем вопрос сразу ко всем видео на любимом ютуб-канале

Вы думали я закончил, но меня не остановить. Мы обсудили уже как пообщаться с автором научной статьи, книгой и конкретным видео на ютубе. Теперь покажу как задать вопрос ко всем видео, которые есть на каком-нибудь ютуб-канале.

🚀Для это будем использовать сервис Context. Они дают чат-оболочку над 30+ популярными ютуб-каналами и подкастами. Так можно задать вопрос Эндрю Хуберману, Тиму Фэррису или спикерам YC Startup School. С одной стороны мы получаем обычный текстовый ответ, с другой ссылки на конкретные участки в видео на этом канале, где есть похожая информация (по сути поисковик).

🤔 Но не все так гладко: чуваки пивотнулись из B2C в B2B, не добавляют новые каналы и планируют со временем закрыть даже поиск по этим. Вместо этого они теперь предлагают любому создать своего персонального бота на базе любого ютуб-канала. Там сразу же прайсинг от $20/mo даже за небольшой ютуб-канал — не лучшая опция если это не использовать это как-то для бизнеса.

😌 В тоже время внутри используется достаточно простая технология векторных эмбедингов. Я рассказывал про нее в посте про замену разработчиков при помощи AI. На Гитхабе уже есть открытые чаты с контентом от Лекса Фридмана и Тима Урбана. И я уверен, что на его место обязательно появится другой пользовательский продукт — уж слишком удобно так искать по видео-контенту в мире, где каждую неделю выходят десятки подкастов по 3 часа длиной.

А пока, если есть вопросы по стартапам, здоровью, финансам — задаем их ботам на Context.

@prod1337

15 мая 2023 г.1.5K просмотров

📺 Как я экономлю часы на просмотре ютуб-видео

В предыдущих постах я уже рассказал, как я эффективно читаю научные пейперы и книги через GPT. Теперь пришло время рассказать, как я подхожу к видео на ютубе.

Подход простой: сначала прочитать краткое содержание с основными мыслями из видео → затем уже решать стоит ли посмотреть его целиком. Я давно уже пытался внедрить такой процесс в ручном режиме. Для популярных видео или курсов я искал сначала саммари с основными мыслями, но такое находилось редко.

🤖 У меня наконец получилось автоматизировать этот процесс (почти) для любого видео при помощи расширения от команды Glasp. Работает так: у каждого видео на ютубе есть автоматическая транскрипция в текст. Расширение берет этот текст, открывает окно с ChatGPT, вставляет туда и просит саммаризировать до основных мыслей. В отличии от предыдущего сервиса — понадобится активный аккаунт OpenAI. Также если есть платный аккаунт, то GPT-4 дает результаты в несколько раз лучше.

👨‍🔬 Выше я написал, что это работает почти для любого видео. Тут вступает в силу вопрос длины контекста. Напомню: в текстовое поле ChatGPT помещается около 4k коротких английских слов или 1k на русском. В пересчете на минуты английского видео — это в районе 10 полных минут разговора. Ребята из Glasp это предусмотрели и написали код, который равномерно берет куски текста из всего транскрипта так, чтобы они гарантировано поместились.

✅ Классные результаты получаются на английских видео длиной до 30 минут. В коментарии к посту закину результат саммаризации видоса от Balaji из вчерашнего поста. Никто не запрещает запустить расширение и на часовом видео, но там большая вероятность потерять важные мысли из видоса. На русском языке не рекомендую запускать — даже на очень коротких видео получал посредственные результаты.

😎 Pro tips: 1) расширение удобнее всего запускать по хоткею Cmd+X+X; 2) Расширение также работает для страниц в интернете, статей, документации — запускается тоже по хоткею.

@prod1337

26 апреля 2023 г.1.0K просмотров

📖 Помните я писал несколько дней назад про будущее образования?

Наткнулся тут на пост Наташи Бабаевой. Она копает последние годы тему образования, делает курсы и рассылки, чтобы лучше в изучать в процессе интересные темы. Да и вообще у меня один из первых постов на канале с описанием концепции с ее курса.

В том посте она рассказывает, что в процессе подготовки последнего курса нашла для себя новый способ обучения — «потянуть за ниточку». Это когда ты начинаешь с интересной теме темы или человека, углубляешься, находишь смежное и изучаешь его тоже. В результате все идет от начального любопытства-интереса, и ты можешь дойти очень далеко расширяя свои знания темы.

Мне это отликается по нескольким причинам:

1️⃣ Это следование принципу (моего любимого) Навала Равиканта о том, что нам следует «pursuing our genuine curiosity». Самые крутые продукты получаются, когда человек следует за любопытством и развивает в процессе specific навык, и делает затем это круче чем 99.9% людей в мире.

2️⃣ Когда я впервые начал пользоваться ChatGPT, то одно из первых применений, которые я придумал — «on-demand graph wikipedia». Ты задаешь вопрос по теме — получаешь ответ и тут же список смежных вопросов, на которые тоже можешь получить ответ → так до бесконечности. Я как раз на днях наткнулся на такой продукт, поэтому не буду слишком углубляться в описание.

Для меня «тянуть за ниточку» выглядит ровно так. Если добавить к этому персонализацию, чтобы ответы генерились с учетом твоего бэкграунда, то получится лучший образовательный продукт, доступный сейчас.

3️⃣ Читаю сейчас книжку Andrew Chan про сетевые эффекты — «The Cold Start Problem». Но делаю это необычно, а с тем же процессом, что я завел для научных пейперов. Заливаю целиком книгу в чат и задаю ей ней вопросы — создается ощущение общения с автором.

Уже спустя день могу сказать, что давно не получал такого кайфа от чтения и давно так не погружался в книгу с головой. И это для меня тот же самый принцип «тянуть за ниточку». В коментарии закину, как выглядит «процесс чтения».

❓Как-то уже успели поменять свой процесс обучения за последние месяцы? Может есть какие-то хаки?

@prod1337

25 апреля 2023 г.845 просмотров

По итогам поста хочется написать:

1️⃣ За день так и не услышал весовых аргуемнтов, почему этого не произойдет (честно говоря хотелось бы услышать больше).

2️⃣ Вместо «замены разработчиков» можно для начала обсудить влияние на рынок труда. Последние 10 лет спрос на разработчиков рос из года в год. На этом росли курсы → на рынок поступало еще больше разработчиков → их все равно не хватало. С 2018 по 2022 сложно представить ситуацию в которой фронтендер с хотя 2+ годами опыта искал бы работу больше недели. И давайте скажем честно — часто это была работа уровня двигания и покраски кнопок.

Уже сейчас я знаю опытных ребят-фронтендеров, которые ищут работу месяцами. И это только на одном эффекте сокращений из-за рецессии. Экономика пока и не думает восстанавливаться, и тут уже подъезжает AI-революция с автоновными агентами, которые тоже умеют писать код.

Куда это приведет? Сложно сказать — сейчас наиболее вероятной кажется ситуация, в которой есть 10х разработчики обвешанные AI-тулами, которые заменяют собой целую команду. Будем наблюдать, как скоро это произойдет и сколько еще нас ждет волн сокращения.

3️⃣ Какие разработчики все равно будут нужны? Есть мнение, что на каждый AI потребуется своя команда настройщиков и промт-инженеров — я в это не очень верю. Кажется с таким справится и один человек в роли около-девопса. Я больше верю в то, что останется спрос на продуктовых разработчиков. Продуктовый разработчик работает в парадигме get shit done. Не важно какой стек и какие инструменты, если это помогает достигать цели бизнеса. AI просто один из тулов в наборе такого разработчика. Если у компании есть проблема → я использую свои знания и свой тулкит, чтобы ее решить и начать приносить бизнесу пользу.

@prod1337

24 апреля 2023 г.855 просмотров

👀 Почему AI заменит разработчиков (и это ближе, чем вы думаете)

Заметил, что разработчиков больше, чем других триггерит от развития AI (в данном случае языковых моделей). И это нормальная реакция: не так легко принять, что привычный уклад жизни меняется — появляется отрицание и гнев. Ровно поэтому я не упустил возможности написать кликбейтный заголовок. И раз это уже привлекло ваше внимание — давайте разбираться в деталях.

Для начала: не поймите меня неправильно, я не утверждаю что это произойдет в один момент. Я исхожу из текущих трендов. Они ведут, к тому что неминуемо начнется процесс замены разработчиков при помощи языковых моделей. Процесс начнется с простых задач и неизвестно как далеко он зайдет.

🤩 Что уже сейчас может GPT-4: 1. Отлично писать код на уровне функции, реже на уровне файла и микро-проекта. 2. Проектировать архитектуру из бизнес-описания. 3. Писать тесты из кода и бизнес описания. 4. Составить для себя список задач, которые потом может выполнить.

😒 Что мешает делать больше: 1. Маленький контекст: можно ввести только 4k токенов (коротких английских слов). Все остальное приходится либо обрезать, либо саммаризировать. Если даже в ChatGPT скормить исходный код двумя сообщениями, то ему придется его сжать → большая вероятность потерять важный контекст. 2. Устаревшая документация: датасет из 2021, многие библиотеки уже прошли несколько мажорных релизов и обновились без поддержки старых версий, код просто не заведется (привет react-router). 3. Ручная работа: все равно приходится много работать руками и головой. Точно ли модель тут все правильно поняла? Не потерял ли важный контекст из примера кода, который я добавил?

Результат: сложно положиться на аутпут модели. Есть шанс свалиться в “да проще руками сделать, чем столько танцев с бубном делать вокруг”.

🚀 Какие тренды я вижу: Теперь поговорим о самом интересном, из чего я делаю вывод, что отказ от разработчиков скоро все-таки начнется.

1. Увеличение контекста модели: вместе с GPT-4 представили версию на 32k токенов — в 8 раз больше. Уже больше похоже на то, что влезет документация или код среднего проекта. Доступа пока что нет почти ни у кого. 2. Техники оптимизации контекста: мощно растет рынок векторных БД (Pinecone, Chroma) и языковых фреймворков (Langchain). Это решает задачу «как мне передать в контекст только информацию, которая будет сейчас полезна, а не всю разом, чтобы она точно уместилась». Работает отлично, текущие решения занимают ~50 строк. 3. Мультимодальный ввод: еще одна вещь которую показали вместе с GPT-4. Заливаем изображение, и общаемся о нем с моделью. На демо был клевый пример, где сайт верстался из прототипа от руки. Здесь снова пока ни у кого нет доступа, но есть уже открытая модель Mini-GPT от комьюнити, в другом посте рассказал уже про нее.

🤖 Самый важный и объединяющий тренд: AI-агенты: позволяют связывать между собой запросы в языковую модель: cписок задач → архитектура → реализация.

1. Агенты из коробки работают с веткорными хранилищами и умеют оптимизировать контекст даже на 4к моделях. Это позволяет работать с кодом на уровне проекта, с длинной документацией, при этом не терять важную информацию. 2. Агенты дают возможность работать с файловой системой, не только писать код и тесты, но и запускать → решать что делать дальше после анализа результатов выполнения. 3. У агентов есть доступ к интернету, откуда они могут брать свежую документацию.

Таким образом на апрель 2023 мы находимся в точке: агенту можно поставить четкое ТЗ → он его декомпозирует на задачи → найдет актуальную документацию → напишет код и тесты → запустит их → будет это итеративно делать, пока код не заведется, как описано в тз. А теперь вспомните про мульти-модальность. Пока не видел готовых демо, но ничто не помешает передать агенты и макет.

Ну что, какие мысли? Продолжать тему?

@prod1337

22 апреля 2023 г.679 просмотров

🔮 Последние дни в Ванкувере проходил TED 2023

Это такой тип мероприятия, где собираются умнейшие люди планеты, общаются и выступают.

В этом году все ожидаемо крутилось вокруг AI. Пока вышло только два видео: выступление президента OpenAI Грега Брокмана и QA-cессия с CEO Тиктока. Остальные видео будут выходить еще месяцами.

А пока что может почитать пост Андрея Дороничева с краткими итогами. Лично мне отлкинулись несколько мыслей:

1. Цитирует Ленина: бывают десятилетия, когда не происходит ничего, а бывают недели, когда происходят десятилетия. Консенсус такой, что в грядущих неделях нас ждут как раз эти десятилетия.

2. В остальном широкий разброс мнений от AI-оптмистов, которые видят в нем рост ВВП и уровня жизни И пессимистов с другой стороны, которые подводят к уничтожению человечества.

3. Тут процитирую Андрея целиком: «1. AGI возможен, и мы на пути к нему 2. Нужны еще 1-2 больших прорыва типа «трансформеров» 3. Экстенсивным путем улучшать LLMки долго не получится 4. Нам всем придется снова перепридумать как мы работаем»

22 апреля 2023 г.826 просмотров

🔬 Как легко пообщаться с автором научной статьи?

Последние 4 года я хотел начать читать научные пейперы. Я тогда заметил, что все мои любимые книги основаны на научных статьях, которые вышли как минимум 6 лет назад. Вопрос: зачем мне ждать, пока кто-то напишет книгу с обобщением, если я могу иметь доступ к актуальным знаниям.

Я попытался, но столкнулся с трудностями — сложный текст. Оставалось либо углубляться и фундаментально начать разбираться в теме, либо пропускать сложные участки. Во втором случае смысл терялся, знания не приходили, и внедрить привычку не получалось. Тогда я и смирился на какое-то время, что это больше для умных ребят, а пока что стоит подтягивать базу.

До последнего времени это действительно было проблемой, но теперь у меня появились инструменты как справляться со сложностью научных статей: 1) Задаю ChatGPT вопросы в стиле Ричарда Фейнмана — "объясни мне простыми словами", "расскажи из первых принципов", "сделай так, чтобы понял 5-летний ребенок". Очень круто, но неудобный UX — приходится копировать и вставлять фрагменты статьи.

2) Новый продукт ChatPDF — заливаю файл и просто начинаю общаться в интерфейсе чата с текстом этой статьи: прошу раскрыть тему или уточнить непонятное. Это совсем новый подход к обучению, когда исходишь не из текста, а из своих вопросов, любопытства. Как будто беседуешь с автором статьи и не стыдно задавать глупые вопросы.

Постоянно думаю про будущее образования. Это один из примеров того, каким оно будет: персонализированным, адаптирующимся под твой уровень знаний, интересов и любопытства.

@prod1337

19 апреля 2023 г.904 просмотров

Пока вынашивал в голове пост, где рассказывал бы по шагам про агентов — Леша уже его написал, почитайте.

TLDR: 1. Люди прикинули, что если поставить GPT цель, то он неплохо справляется с ее декомпозицией на простые задачи. 2. Люди также прикинули, что если хранить в памяти результаты запросов к GPT, и подбирать для каждого следующего запроса нужную информацию из памяти → то получится обойти ограничения инпута (сейчас это 5k токенов/коротких английских слов) 3. В результате можно поставить задачу агенту, он ее разобъет на подзадачи → начнет решать доступными средствами → будет сверять результат и задачу, продвигаясь все дальше. 4. В агентах нет ничего нового — это склейка нескольких существующих решений, в самом простом примере занимает 100 строчек кода. Они построены вокруг обычного GPT, который попросили писать себе списки задач → затем думать как их решить используя доступные средства. Из текущих средств — браузер + поиск.

Мой опыт: 1. Все эксперименты достаточно примитивны. Я пока ничего практичного не видел, кроме задач на рисерч и структуризацию информации из интернета. Но я вижу большой потенциал в том, что будут расширяться количество интеграций. Сейчас уже появился модуль, что читать ленту в твиттере и писать туда. На реддите видел эксперименты по тому, чтобы дать агентам доступ ко всей операционной системе. 2. Если видите, что кому-то autogpt заработал миллионы, то это полный буллшит.

Предсказания: 1. Контейнеризация агентов, aka “агент под задачу”. Например: агент-рисерчер соберет анализ сайтов конкурентов; агент-маркетолог опишет рекламную кампанию. 2. Расширение способов взаимодействия с миром для агентов. Сейчас это браузер, гугл и инструменты языковой модели. Дальше в руках агентов окажутся интеграции с большинством сервисов → расширится объем действий для достижения цели. Закрытые сервисы (Twitter) начнут еще сильнее душить свое API. 3. Агенты начнут вставать на место конкретных рекуррентных сценариев внутри компаний и делать со временем лучше людей.

14 апреля 2023 г.698 просмотров

Попросил вчера AutoGPT собрать мне несколько рисерчей:

1./ План на поездку в Будапешт в Мае → Сработало неплохо, но все равно нет доверия, что информация актуальная. Хочется видеть источник и узнать почему именно такой выбор, думаю можно просить уточнять выбора через промтп. Оценка: 4/5

2./ Список документов на визу номада в Испанию →  Не нашел несколько важных документов и наоборот подтащил денежные требования из другой программы. Оценка: 2/5

——

Почему на такие задачи не подходит запрос к обычному GPT и нужен AutoGPT с доступом к интернету?

Ответ в датасете: внутри GPT информация актуальная на конец 2021-го года. Какие-то места в Будапеште уже могли закрыться, а испанская программа кочевника вообще появилась только в начале года. Поэтому нужно ходить по сайтам и рисерчить, это он и пытается делать автоматически.

12 апреля 2023 г.542 просмотров

Давно не писал — чуть позжде расскажу чем занимался все это время (будет интересно!)

А пока репостну один из любимых каналов. Рассказал там про новую хайповую технологоию на базе GPT ↓

26 марта 2023 г.664 просмотров

🤖🎙️ Видео на воскресенье — интервью с Сэмом Альтаманом у Лекса Фридмана

Почему это стоит посмотреть? 1./ Sam Altman — предприниматель и инвестор, бывший президент Y Combinator и нынешний CEO OpenAI. 2./ Lex Fridman — ученый, автор и ведущий курса по Deep Learning в MIT, один из самых популярных подкастеров в мире.

👉 Ссылка: https://www.youtube.com/watch?v=L_Guz73e6fw

Я пока не смотрел, но судя по тайм-кодам разговор получился сильный:

— Про разработку и возможности GPT-4 — Безопасность и предвзятость искусственного интеллекта — Размеры нейронных сетей и достижение AGI — Страхи и конкуренция в отрасли — Антропоморфизм и будущие применения AI — Советы молодым людям и размышления о смысле жизни

Смотрим?

24 марта 2023 г.662 просмотров

🚀 Запустился магазин-приложений для ChatGPT

Ночью вышел крутой анонс — у ChatGPT теперь есть плагины. Они помогут ChatGPT получать актуальную информацию, выполнять вычисления и работать с сторонними сервисами. Таким образом решается одни из главных проблем — точность вычислений и доступ к актуальным данным реального мира.

Какие плагины доступны уже сейчас: — Планирование путешествий с Expedia — Онлайн-шопинг с Klarna — Бронирование столиков в ресторанах с OpenTable — Обучение языкам с Speak

Подход “промпт как интерфейс” все сильнее укрепляется для разных задач. Интересно, как далеко это зайдет. Вот к примеру портфельная компания OpenAI фонда делает редактор видео и подкастов на промтах.

https://openai.com/blog/chatgpt-plugins

23 марта 2023 г.468 просмотров

* продолжаем *

6./ Сид — каждая генерация выдает случайный результат, но есть способы частично контролировать результат. Сид как раз один из таких способов. Если используешь одинаковый сид и промпт — можно рассчитывать на похожий результат.

7./ Файнтюнинг — в контексте SD это процесс, когда берется готовая модель и дополнительно обучается лучше решать новую задачу. Вспомните Дримбуф и цифровые аватары из первой части. По сути это Файнтюнинг на то, чтобы генерировать *чье-то реальное лицо* по заданному промпту.

8./ txt2img, img2img — два разных подхода к генерации картинок. В первом задача для генерации целиком задается при помощи промпта. Во втором случае за основу берется картинка, которую загружаешь. В случае с img2img промты все равно можно вводить и управлять генерацией. Также в ход идет важный параметр denoising strength — насколько генерация должна быть похожа на исходную картинку.

9./ Контролнет — еще один способ контролировать результат генерации. Контролнет модели заточены на то, чтобы взять какой-то конкретный параметр исходной картинки — например позу или очертания силуэта. Дальше на основе этих параметром можно сгенерировать новое изображение. Словами объяснить сложновато, посмотрите сами примеры по ссылке.

10./ Чекпоинт — по сути синоним слова модель, которое я использовал выше. Подразумевается, что у модели в процессе тюнинга нет одного финального состояния. Обычного принято делать выгрузку состояния каждые N-шагов обучения и потом тестировать, какой из чекпоинтов срабатывает лучше. Переобучение модели такая же большая проблема, как недостаточное обучение, так что тут всегда ищется баланс количества шагов.

22 марта 2023 г.466 просмотров

Не верится, что мне пришлось написать предыдущий пост ради этого, но все же..

Прочитайте перед ним обязательно словарик ↑↑↑

На днях вышла модель от китайских рисерчеров для генерации видео по промпту.

Через день под модель уже вышел экстеншен для WebUI, так что я быстро развернул ее в интерфейсе. Дальше 20 минут на подбор промпта, иии.. получаем видео взрывающего на столе хинкали 🏃‍♂

На самом деле результат пока сомнительный, тут важно другое. Stable Diffusion Moment — это событие, когда современная модель выкладывается в открытый доступ и дальше ее подхватывает сообщество.

Значит в ближайшие месяцы нас будут ждать новые и новые модельки заточенные на более узкие сценарии, а качество будет расти. Кстати, на какие именно кейсы комьюнити в первую очередь будет тюнить модельку можно угадать из предыдущего поста.