Vibe Takes

Claude
следит

Он читает каналы и собирает тейки про AI-инструменты. 61 автор — дизайнеры, разработчики, фаундеры.

Саммари на основе постов до 23 марта 2026 — все со ссылками на оригиналы.

DeepSeek

11 авторов упоминают этот инструмент

e/acce/acc17 февраля 2026 г.18K просмотров

Не для всех очевидный факт, но взлет openclaw это прямое следствие DeepSeek.

Объясню: - дипсик первым показал что RL среды с проверяемым результатом масштабируются, и в масштабе дают существенный прирост способностей моделей (2024, можно сказать что о1 был первым но они не написали внятного пейпера)

- затем потребовался год чтобы фронтир лабы создали РЕАЛЬНО масштабируемые среды для long-running / large-context задач типа кода

- это привело к Opus 4.5, который благодаря RL стал крутейшей агентской моделью, которая не теряется в длинных задач, навигирует в баше и может себя вернуть на русло истины.

Итого: кроме претрейн скейлинга (который пока никуда не делся), у нас работает GRPO / RL with Verifiable Rewards скейлинг.

Или совсем простыми словами: скорость «поумнения» LLM удвоилась за год (в самом консервативном случае, в реальности тут экспонента)

melikhov.devmelikhov.dev28 августа 2025 г.7.9K просмотров

Если первые впечатления от того же Cursor были отвратительными, то сейчас он уже как-то подуспокоился в своём стремлении делать YOLO и может предоставить сравнимый с Roo опыт постепенного продвижения по задаче. При этом, конечно, в более приятном интерфейсе (те же диффы изменений выглядят гораздо наглядней, чем в Roo).

И значительный плюс, что можно вносить правки в диффы налету — Roo от такого с ума сходит и пытается вернуть файл в то состояние, в котором он его запомнил. Понятное ограничение экстеншена, но всё же. Нам же код писать, а не экстеншены прощать.

В целом и там, и там можно работать с одинаковой эффективностью. А вот вопрос стоимости сложный, понятно, что в чистом виде Cursor будет дешевле, но кто ж знает, к каким моделям у вас есть доступ? У меня вот Roo смотрит в «бесплатный» развёрнутый внутри DeepSeek и платный Claude. Щёлкаю под задачу и наличие денег на счету.

Сама по себе работа в паре с AI (то, что пытались зафорсить как DeepCoding в противовес VibeCoding, но, кажется, не прижилось) неплохо так прокачивает скиллы код-ревью. Я (как типичный IC) редко работаю над кодом в команде, и вот тут второй пилот вернул забытые ощущения и позволяет держать ритм.

Продолжаю радоваться, что дожил до такого.

melikhov.devmelikhov.dev16 мая 2025 г.7.7K просмотров

Все побежали и мы побежали

Ну как, выбор между Roo и Cline сделали? На Claude, небось? Мемори банки собрали? В своей продукт добавили агента? А моделька в продукте у вас какая — Qwen или DeepSeek? Как так нет локальной модели, а куда вы будете грузить пользовательские данные? А как тюнили под задачи, RAG? А MCP-сервер уже запилили? В опенсорс его закинули?

Что ж так быстро-то всё меняется, выдохнуть некогда. Архитектуркой бы позаниматься, долги позакрывать. Но некогда. Рынок требует AI. Надо пережить эту волну, но кто бы знал, какая будет следующая.

ElKornacioElKornacio8 декабря 2025 г.7.4K просмотров

Вышло масштабное исследование от a16z и OpenRouter про то, как люди реально используют LLM. Проанализировали 100 триллионов токенов* за год.

* 1 токен ≈ 4 символа или ≈ 0,75 слова. То есть 100 токенов — это примерно 75 слов, а 100 трлн токенов — 75 трлн слов. В Библии ≈ 783 000 слов, то есть в исследовании OpenRouter проанализировали массив из 100 млн Библий.

OpenRouter — это агрегатор доступа к LLM-моделям. Через один API можно подключиться к сотням моделей от разных провайдеров: OpenAI, Anthropic, Google, DeepSeek, Qwen и прочим. Популярен среди разработчиков, потому что позволяет легко переключаться между моделями и сравнивать их. Через них проходит огромный поток запросов. Отсюда и уникальные данные для исследования.

— Главный сюрприз: больше половины использования open-source моделей — это ролевые игры и сторителлинг. Не код, не рабочие задачи, а общение с игровыми персонажами и сочинение историй (storytelling). Кто бы мог подумать, что индустрия в триллионы долларов во многом держится на том, что люди хотят поболтать с виртуальным другом.

— Open-source модели уже занимают 30% рынка. Год назад было меньше 10%. DeepSeek и Qwen растут как бешеные.

— Программирование — второй по популярности кейс. При этом 60%+ всех запросов на код идут через Claude от Anthropic. Sonnet доминирует.

— Половина всех токенов теперь проходит через reasoning-модели (o1 и аналоги). Модели перестали просто генерировать текст. Они думают, планируют, используют инструменты.

— Азия выросла с 13% до 31% всего потребления. Китай стал не только производителем моделей, но и крупнейшим потребителем после США.

— Цена слабо влияет на спрос. Люди готовы платить премиум за качество. Claude дороже конкурентов, но его используют больше всех для серьёзных задач.

— Интересный феномен «стеклянной туфельки» (Glass Slipper): если модель при первом использовании идеально подошла под чью-то задачу, пользователи остаются с ней навсегда. Первый, кто решил проблему, забирает лояльность.

— Из неожиданного: маленькие модели (<15B параметров) теряют долю рынка. Победителями становятся средние модели (15-70B) — оптимальный баланс цены и качества.

Полный текст исследования на 36 страниц в приложении, там же методология исследования.

@buzko_hub

ElKornacioElKornacio27 января 2026 г.7.0K просмотров

давайте коротко пробежимся по новостям 😼

1. https://www.kimi.com/blog/kimi-k2-5.html Kimi K2.5 с заточкой на "рои агентов" aka "натренировали запускать параллельных агентов на каждый чих" aka "agent swarm". по бенчам лучше Opus 4.5, хуже GPT-5.2-xhigh, кроме кодинга - там хуже и тот и того (правда, отрыв не радикально большой). Swarm - это интересно, и потенциально многообещающе, но думаю сильно будет упираться в тулинг ещё несколько месяцев. посмотрим, как стрельнёт на практике.

2. https://openai.com/index/introducing-prism/ OpenAI выкатили веб-апп Prism - редактор научных текстов с поддержкой LaTeX из коробки. UI чем-то напоминает Cursor-like приложения - диффы, где вы можете принимать/откатывать отдельные правки, возможность сразу смотреть отрендеренный документ, доступ к поиску и так далее. выглядит приятно, но я совсем не ЦА.

3. https://huggingface.co/deepseek-ai/DeepSeek-OCR-2 DeepSeek выкатили модель OCR-2. вместо CLIP юзают Qwen2 как Vision Encoder. у меня нет особых сомнений, что с задачами OCR оно будет справляться отлично (современные multi-modal модели это доказывают), но у меня большие сомнения, как оно будет справляться с visual prompt injections - кажется, что использование LM под капотом может быть к таким штукам очень уязвимо. энивей, интересно - несмотря на то, что у крупных моделей уже очень хорошее зрение и распознавание текста, юзать многие из них в проде из-за инъекций страшновато, поэтому появление новых моделей на эту тему выглядит как минимум интересно.

-- хорошего вечерочка! а я снова прибаливаю - никогда не целуйте людей с гастро-вирусами, даже если они очень соблазнительные 🙂

dev.insuline.ethdev.insuline.eth4 апреля 2025 г.6.5K просмотров

GM! OpenRouter, платформа для унификации LLM, выпустила собственную модель с контекстом в миллион токенов, ориентированную на кодинг. (а выпускают ли сейчас другие модели 🤔)

Доступ к модели открыт всем и она абсолютно бесплатна — https://openrouter.ai/openrouter/quasar-alpha

Пока X, как всегда, пестрит восторженными отзывами («DeepSeek moment», «Very exciting model»), меня больше волнует вопрос конфиденциальности. Откуда у OpenRouter, простого аггрегатора, датасеты для моделей? Почему модель полностью бесплатна? Нет ли ощущения, что команда просто аггрегировала все поступающие через них запросы и ответы других модель и когда датасет достаточно сформировался, решили обучить свою модель?

Google DeepMind рассказывали (https://arxiv.org/abs/2404.07503) о возможности обучения моделей на синтетических данных (как это делал Deepseek)

Еще один пример бесплатного доступа к AI — Trae от создателей тиктока Bytedance. Только недавно кибер-ресерчеры обнаружили (https://www.securitylab.ru/news/557939.php), что Trae собирает уж слишком много данных у пользователя. Зачем они это делают — вопрос на подумать

Как обучить Claude Code или Cursor тому, что .env файл не надо читать не при каких условиях? Пока все обезопашивают доступ к bash командам — для read функций практически никакие LLM не запрашивают доступа

Давайте думать! Подсказывайте, че вы данные то собираете наши 😶

ElKornacioElKornacio17 декабря 2025 г.5.7K просмотров

Сегодняшний апдейт лидерборда swe-rebench мне кажется одним из самых интересных за все время, по нескольким причинам:

1. Добавили целый ряд моделей: gpt-5.2, gpt-5.1-codex-max, Gemini 3 Pro, DeepSeek-v3.2, Devstral2. Все модели от openai теперь прогоняются через responses API с сохранением ризонинг блоков. И все модели по-своему интересны: – gpt-5.2 прыгнула на самый верх и теперь соревнуется с Sonnet/Opus 4.5. А главное посмотрите на кол-ве потраченных токенов в среднем на задачу – почти как gpt5-minimal. – gpt-5.1-codex-max сильно лучше gpt5-codex, но на фоне других моделей от openai не так уж выделяется. – Gemini 3 Pro – огромный скачок в агентских задачах по сравнению с 2.5 Pro. Оффтоп, но это моя любимая модель на текущий момент в бытовом пользовании, не могу народоваться фиче с нативной обработкой видео. – DeepSeek-v3.2 – новая сота в open-source, но также и сота по потреблению токенов 💀 – Devstral2 выглядит очень неплохо. Вроде как незаметный релиз от Mistral врывается в топ open-source моделей. – Не забывайте, что к ранжированию нужно относиться осторожно, задач не так много и доля случайности все еще большая, даже несмотря на усреднение по 5 ранам. Но общая картина думаю понятна хорошо. 2. Добавили Claude Code как reference сота агента 🎉 Режим запуска указан в инсайтах. 3. Для прозрачности Cost per Problem, добавили колонку Cached Tokens, как минимум для понимания, включен у модели кэшинг или нет.

R77 AI | Кейсы в ИИ (от выпускников МФТИ)R77 AI | Кейсы в ИИ (от выпускников МФТИ)21 июля 2025 г.5.4K просмотров

LLM как источник консолидированных знаний

Занимаясь проектом по реализации синтетических пользователей для ускорения извлечения инсайдов с помощью LLM в custdev-ах, пришел к интересному наблюдению.

В нашем мире знания распределены между различными отдельными инстансами (людьми, книгами, и т.д.), в случае с людьми - очень смещенными. Интернет – это пример первого удобного источника агрегированных знаний (до него, например, были библиотеки / энциклопедии). LLM – это новое поколение инструментов с консолидированными знаниями (для меня это еще одно объяснение, почему LLM так хорошо зашли: многие мои знакомые теперь идут в deepseek, а не гугл, чтобы понять как сделать VAT refund в поездке или понять что делать с отменой рейса).

Рассмотрим на примере custdev-ов (глубинных интервью).

Раньше: 1. Выбираешь целевой сегмент пользователей 2. Формулируешь гипотезы болей 3. Собираешь 20-30 человек 4. Проводишь интервью, спрашиваешь о том, что “болит” 5. Собираешь транскрипты, фиксируешь инсайды (субъективно относительно того, что проводит custdev) 6. Делаешь саммари 7. Формулируешь идеи / гипотезы продуктов 8. Делаешь корректировки и повторяешь процесс ** Шаги 5-6-7 – это переход от отдельных смещенных инсайтов к агрегированному “знанию”

С приходом LLM как это выглядит теперь: 1. Выбираешь целевой сегмент пользователей – через промпт 2. Формулируешь гипотезы болей – через промпт (+ задаешь контекст) 3. Получаешь инсайды уже в виде саммари и идеи

Почему так? Внутри LLM уже содержится информация по всем-всем вариантам (которые встречались при обучении конечно), и ее ответ УЖЕ агрегированная информация. Нет смысла генерировать 30-50 диалогов с пользователями (тут есть отдельный риск, какой кстати?) и потом делать саммари (через ту же GPT). В реальной жизни без LLM мы так делать не можем – надо сэмплировать знания из отдельных людей и потом агрегировать.

P.S. в этом посте я намеренно не рассуждаю на тему репрезентативности инсайдов от “синтетиков” и не говорю о том, что привычные custdev-ы больше не нужны. Мне интересно посмотреть и порассуждать в комментах на интересный кмк переход и к чему он может привести.

Антон Непша.jsАнтон Непша.js24 сентября 2025 г.4.0K просмотров

Как из фронтендера стать AI-инженером

Термин "AI-инженер" я подсмотрел в роадмапе AI-инженера, ссылкой на который недавно делился Саня Стародубцев.

Я ведь недавно и сам перешёл из фронтенд-разработки в разработку AI-агентов, поэтому мне стало интересно, стал ли я AI-инженером? Мой собственный опыт "переквалификации" не совсем ложится на эту дорожную карту. Есть ещё один роадмап, вот этот, но там порядок тоже не совсем такой, как у меня. В общем, решил поделиться здесь своей альтернативной версией)

Пререквизиты Опыт работы с бэкендом всё-таки понадобится. Одной фронтенд-экспертизы явно будет недостаточно. Работать с API нейросетей скорее всего придётся с бэкенда. С фронта тоже можно, конечно, но в этом есть большой риск утечки вашего API-ключа. Благо у нас, JavaScript-разработчиков, с этим проблем нет))

Впоследствии, конечно, нужно будет углубляться в бэкенд-разработку и заполнять пробелы, если они есть. Но для старта вполне достаточно умения развернуть сервер на Node.js.

Нужен ли ML? Здесь ситуация чем-то напоминает необходимость изучения алгоритмов для junior-фронтендера в 2019 году. Вызвать API DeepSeek можно и без знания линейной алгебры. Но я бы всё-таки порекомендовал хотя бы в фоне изучить этот бесплатный вводный курс по ML от Google. Очень поможет снять розовые очки и демистифицировать работу самих LLM.

Пишем чат-бота Прям сразу. На практике разбираться будет проще всего. У меня всё началось с телеграм-бота, и я всем советую начинать с простых текстовых чат-ботов. Для этого придётся изучить работу с текстовыми сообщениями в OpenAI API или DeepSeek API. Лично я рекомендую начать с руководства GigaChat API, т.к. оно на русском языке, а многие концепции у разных моделей очень схожие. Бесплатных токенов за регистрацию в GigaChat API будет более чем достаточно для старта.

Учим чат-бота выполнять функции Их ещё называют tools. Об этом у меня тоже был пост и примеры кода к нему на JS и на Python. Они нарочно очень простые. У GigaChat тоже есть статья с примерами. А если хочется чего-то совсем запутанного, можно взять шаблон чат-бота из Vercel AI SDK в качестве референса.

Векторные хранилища и RAG Про векторы есть отличная глава в упомянутом мной выше курсе от Google. В роадмапе AI-инженера, кстати, тоже неплохие ссылки по этой теме в разделах Embeddings и RAG.

Фреймворки Лично я пока продолжаю погружаться в LangChain. Я уже трижды выступил с докладом про этот фреймворк (в последний раз — на MoscowJS), выпустил два поста с ответами на вопросы (раз, два) и всё ещё не погрузился до конца)) По этому фреймворку есть миллиард примеров от моих коллег из GigaChain: есть примеры на Python, JavaScript и даже на Java. А от создателей LangChain есть кайфовый видеокурс по LangGraph. Он на английском, но его легко смотреть, даже не зная Python и не зная LangChain.

Источники новостей и апдейтов Очень удобно получать новости с конференций вроде нашего недавнего BigTechNight или с HolyJS, где я тоже скоро буду выступать. Или c разделов на Reddit о тех инструментах, которые вы используете (я, например, читаю в основном про LangChain). Ещё есть Matt Pocock, который параллельно с нами перешёл из TypeScript гуру в гуру нейросетей, выпускает неплохие статьи и видео. Громкие новости об обновлениях у моделей OpenAI / Anthropic / DeepSeek и т.д. всё равно не удастся пропустить. Остальные рандомные новости из соцсетей, кстати, наоборот стараюсь фильтровать: в X что ни пост — так очередная технореволюция)) Хотя, возможно, кто-нибудь в комментариях тоже поделится неплохими источниками информации)

dev.insuline.ethdev.insuline.eth8 июня 2025 г.3.8K просмотров

Пост про заработок в интернете и вайбкодинг

1. Simple Gambling Machine Навайбкодил простую гемблинговую машину (что-то вроде FOMO3D, но медленнее и без понци-механик). Работает следующим образом: ⁃ в машине лежит ETH (сейчас около $500) ⁃ машина принимает депозиты от всех желающих (сейчас 2% от ETH внутри машины, далее процент уменьшается) ⁃ если никто не делает депозит в течение определенного периода времени, последний участник забирает 80% пота (сейчас 24 часа, далее период уменьшается) ⁃ 10% распределяются между 5 рандомными участниками, 10% идут на следующий раунд

Короче 50 иксов вот прямо здесь, рядом.

Что с безопасностью: ⁃ открытый код на Github и на Etherscan ⁃ контракт неизменяемый - никаких мультисигов, экстренных приостановок и пр. ⁃ друзья-аудиторы помогли найти и пофиксить пару уязвимостей (детали тут) ⁃ устроить рагпул технически невозможно, хакнуть (вроде) тоже не получится

Ончейн рефки и поинты вайбкодить сложно, поэтому буду благодарен всем кто поделится гемблинг-машиной со своими друзьями-лудоманами! https://simplegamblingmachine.eth.link/

На мобилках скорее всего будет отображаться криво.

2. Вайбкодинг Никогда ничего не кодил своими руками, ибо гуманитарий. За три дня ChatGPT, Gemini, DeepSeek и Cursor написали весь нужный код (под моим чутким руководством), научили в девелоперские энвайронменты, Github и хостинг, ответили на все (даже самые глупые) вопросы.

Мои хард-скиллы пополнились такими вещами как ethers.js, web3.js, viem, wagmi, IPFS, Fleek, Pin CID, Pinata, Arweave, Hardhat, Foundry, React, Chainlink Keepers, и Truffle. Ну, половина из списка точно.

Кому интересно почитать про весь процесс, предлагаю пройти на Paragraph.

3. Заработок в интернете Пока высокотехнологичные проекты заманивают человеческо-денежные капиталы двузначными множителями на поинты, Ekubo (на EVM) дает приятные APR поставщикам ликивдности: ⁃ 10% на USDT/USDC ⁃ 15% на cbBTC/WBTC ⁃ 70% на ETH/BTC ⁃ 100% на ETH/USDC и ETH/USDT

Половина из этих наград - органический APR (комиссии со свапов, без учета наград в EKUBO). Расчет актуален для ренжа примерно в +-6%, а программа майнинга EKUBO рассчитана на 3 месяца.

Антон Непша.jsАнтон Непша.js13 февраля 2025 г.3.2K просмотров

Как заставить нейросеть выполнить ваш код на JS или Python

Нейросети вроде ChatGPT, DeepSeek или GigaChat можно научить взаимодействовать с окружающим миром: менять файлы на вашем диске, вызывать сторонние API или выполнять иные задачи в живом окружении.

Это делается довольно просто, и у большинства нейросетей применяется один и тот же подход: как у ChatGPT или DeepSeek, так и у GigaChat. Все они умеют работать с функциями.

Что такое функции Если мы посмотрим на API любой нейросети, то функции там будут выглядеть непривычно. Вот пример функции из документации GigaChat:

{ "name": "weather_forecast", "description": "Возвращает температуру на заданный период", "parameters": { "type": "object", "properties": { "location": { "type": "string", "description": "Местоположение, например, название города" }, "format": { "type": "string", "enum": [ "celsius", "fahrenheit" ], "description": "Единицы измерения температуры" }, "num_days": { "type": "integer", "description": "Период, для которого нужно вернуть" } }, "required": [ "location", "num_days" ] } }

Функция — обычный JSON.

Какой код эта функция выполнит? Здесь всё просто. Никакой)) До тех пор, пока мы сами его не напишем. Поэтому придётся по-старинке объявить где-то у себя в коде обычную функцию с названием weather_forecast, как в поле name в объекте выше. Принимаемые параметры тоже делаем такими же, как в описании. И реализацию этой функции тоже пишем сами.

Как нейросеть сможет её вызвать? Нам нужно сообщить модели о том, что у неё есть такая возможность. Для этого передаём описание этой функции в запросе API нейросети, прямо вместе с вашим текстом.

Вот пример тела запроса с функцией в GigaChat API:

{ "model": "GigaChat", "messages": [ { "role": "user", "content": "Погода в Москве на три дня" } ], "function_call": "auto", "functions": [ // Добавляем все свои функции вот сюда ], }

У ChatGPT это работает похожим образом, даже названия полей местами совпадают.

Что происходит дальше? Модель распознает ваше сообщение и самостоятельно примет решение о том, нужно ли ей вызывать какую-то из функций, которые мы ей передали. Решение будет приниматься на основании вашего сообщения и текстовых описаний того, что функция делает и какие параметры принимает.

Если нейросеть посчитает, что функцию вызвать нужно, она вернёт в ответе название этой функции и параметры, которые нужны для её вызова. А нам остаётся сделать условный:

const { function_call } = response.message // проверяем, что в ответе от нейросети есть признак вызова нашей функции if (function_call.name === "weather_forecast") { // вызываем функцию, которую сами же и написали weather_forecast(function_call.arguments) }

Всё. Естественно, вместо прогноза погоды функция может быть любой.

Мой бот, например, присылает мне в телегу логи с сервера, если я достаточно вежливо его об этом попрошу)

А в Python у библиотеки LangChain есть специальный декоратор tool, который упрощает создание функций. Если внутрь функции с этим декоратором добавить описание в docstring, то библиотека сразу сформирует нужную структуру, готовую для того, чтобы передать её в нейросеть.

Антон Непша.jsАнтон Непша.js7 сентября 2025 г.3.0K просмотров

Маршрутизация LLM через промпт или через tools

Я никакой не Data Scientist, я просто фронтендер. Но даже фронтендеру иногда бывает интересно, что лучше отработает — обычный промпт типа такого: Верни слово "auto", если пользователь говорит про автомобили. Верни слово "movie", если пользователь говорит о фильмах… или передача в LLM функций (или тулов) с описанием каждой из категорий, между которыми LLM нужно сделать выбор.

И да, эту задачу можно было бы решить и с помощью векторов, но мне захотелось сравнить именно эти два подхода.

Первый способ может показаться ненадёжным и контринтуитивным — мы ведь не используем structured_output, поэтому ответ модели здесь не так строго типизирован, как во втором случае. Но так ли всё просто?

Как я сравнивал промпт и тулы — Написал первый промпт. Он будет проверять, насколько хорошо LLM маршрутизирует, используя обычное текстовое описание: Твоя основная задача — правильно определить категорию вопроса пользователя. Если вопрос касается автомобилей, ответь "auto". Если вопрос касается кораблей, ответь "ship". Если вопрос касается фильмов, ответь "movie". Если вопрос касается мотоциклов, ответь "moto". Если вопрос не относится ни к чему из вышеперечисленного, ответь "incorrect". Если из фразы клиента не удалось понять, к какой категории относится вопрос, задай клиенту уточняющий вопрос.

— Второй промпт выглядел так же, как и предыдущий, но без описания категорий — их я вынес отдельно в функции. Этим промптом я буду проверять качество маршрутизации с помощью тулов. Получилось в итоге следующее: Твоя основная задача - правильно определить категорию вопроса пользователя. Если из фразы клиента не удалось понять, к какой категории относится вопрос, задай клиенту уточняющий вопрос.

— Описал 25 тестовых фраз и их ожидаемый результат по каждой из них.

— Запустил все 25 тестов с первым промптом, затем 25 этих же тестов со вторым промптом и тулами.

— Повторил проверки на шести разных моделях GigaChat и на DeepSeek.

Результаты Что касается DeepSeek, то почему-то даже на один мой запрос их API отвечал целых 5 секунд, поэтому он выбыл из гонки, так особо в ней и не поучаствовав.

А вот GigaChat показал интересную статистику:

Во-первых, промпт с тулами отрабатывал в среднем в 2-3 раза медленнее обычного текстового промпта — 25 вызовов GigaChat с текстовым промптом отрабатывали за 6-8 секунд, в зависимости от модели. А 25 запросов с тулами занимали в сумме от 18 до 23 секунд.

Во-вторых, промпт с тулами расходовал в 2-3 раза больше токенов — от 800 до 2300 за обычный текстовый промпт, и от 2400 до 4600 токенов за промпт со structured_output.

В-третьих, structured output не всегда давал 100% точность. Было интересно увидеть, как GigaChat-Max и GigaChat-2-Max с обычными текстовыми промптами показали максимальную точность (25 из 25) среди всех моделей.

Что ещё более странно — наименьшую точность среди всех моделей показали эти же GigaChat-Max и GigaChat-2-Max со structured_output (21 из 25).

Я понимаю, что объём тестовых данных у меня совсем небольшой. Уверен, что если бы тестов у меня было не 25, а 25000, то результаты, скорее всего, были бы совсем иными.

Но в любом случае результаты меня очень удивили. Проверяйте свои инструменты внимательно под каждую задачу))

Саша Капустин про продукт, управление людьми и не только.Саша Капустин про продукт, управление людьми и не только.28 января 2025 г.2.6K просмотров

Уже давно пытаюсь написать пост про новые ИИшки, как они хороши и как вообще меняется рынок. Но что-то не идет. Может просто я сам так и не нашел никакого для себя применения, не вижу прорыва в каких-то сферах благодаря ИИ, кроме экономии на операционке? Не знаю и пойду подумаю, а вы мне расскажите как ИИ вам помогает. Мне вот пока только постоянно достается ловить приколы на собесах, когда кейс написан не автором :)))

Но… я уже пару дней наблюдаю как DeepSeek ставит в не очень удобное положение американский рынок просто одним фактом своего появления. Так что случилось? Дизрапт! Китайцы, оказывается, могут в ИИ, и очень не дурно, выпустив аналог ChatGPT почти во всем (модель работает с меньшим числом параметров, что не влияет, внезапно, на качество ответов, тк у них +- одинаковые результаты на тестах), но потребляет в 3 раза меньше вычислительной мощности для тех же задач, да и на создание потратили их сильно меньше, как говорят братья китайцы. Во что, кстати, я не очень верю, ну да, стартап, ну точно 😂

Добавил: я тут поконкретнее про DeepSeek-V3 нашел. Они использовали H800, урезанный для Китая экспортный вариант H100, и они сами пишут, что для полного обучения потребовалось 2.788M H800 GPU-часов, что соответствует $5.5M при цене аренды H800 в $2 за час. При это LLAMA 3.1 ну примерно за 60м$ обучалась, а OpenAI еще дороже. Короче, и правда хаялва.

Сам DeepSeek монетизируется за счет крупных компаний в Китае, которые им активно пользуются (xiaomi и ко), и вам будет стоить бесплатно. Я вот поставил на телефон и радуюсь.

Из минусов (а я попросил нейронку написать их за меня): - меньше языков (ну и ладно) - меньше творчества в ответах (за что спасибо) - высокая цензурированность ответов, тк модель училась на локальных данных, которые ей подготовили (переживем)

Так вот, представляете, как прикольно вышло: все были убеждены, что для работы хорошей языковой модели нужны заоблачные мощности, но вышла та, которая работает на тостере, и лидер, производящий железки для всего этого «прогресса» упал на 600 млрд долларов 😂 понятно, что отрастут, но как конкуренция делает свою работу, а?)

В сухом остатке… … мы имеем отличный пример запуска: - новое утп (сильно дешевле в эксплуатации и обучении) - понятный фокус (пока не умеет в картинки но запланировано на 25 год) - фокус на задачи локальных компаний (потому монетизация физиков не нужна) - планы по интеграции в WeChat и телегу (представьте аудиторию сразу?…)

Ну и фановое падение рынков :) хотя может это просто совпадение! Хотя лично я кайфую, что китайцы показали, что необходимости в толстенном железе, как минимум для большинства задач, ну… нет, и модельку можно научить по стоимоти в 10 раз ниже, чем это у конкурентов.

Антон Непша.jsАнтон Непша.js10 июня 2025 г.2.6K просмотров

Случайно увидел, что отработал в Сбере уже 10 лет))

Странно, что внутренний портал не предупредил даже)

🦜 on the web🦜 on the web25 ноября 2024 г.2.0K просмотров

Наткнулся на аналог (если можно так сказать) chatgpt — DeepSeek.

Можно использовать аналог gpt o1 с рассуждениями — Deep Think . Дают 50 использований в день, если я правильно понял.

👀 Ссылка — нет блокировки по РУ региону и можно через гугл акк.

dev.insuline.ethdev.insuline.eth2 марта 2026 г.1.9K просмотров

Выбирайте Deepseek, если подписок нет, а интересно глянуть результат

(у них оказывается подписки то и нет, только платный api)

Ночной ПисаревскийНочной Писаревский11 марта 2026 г.1.9K просмотров

Самая большая статья затрат любого бизнеса — это сотрудники. А самая сложная задача собственника — нанимать людей.

Благо сегодня можно нанимать намного меньше кожаных сотрудников и делегировать 90% AI.

IBM уже заменила почти 8000 сотрудников ИИ-сервисами. А «Яндекс» за счёт генеративных технологий увеличил выручку на 37% и пробил 1 трлн рублей. По прогнозам McKinsey, к 2030 году ИИ добавит мировой экономике 13-20 трлн долларов.

То есть вопроса, нужно ли внедрять ИИ, не стоит. Нейросети уже экономят 5-10 человекочасов на текучке вроде ресёрча, анализа, подготовки документов. Вопрос в другом: как настроить команду ИИ-ассистентов под свои задачи.

Как раз для этого у Академии Эдюсон есть курс «Нейросети и нейросотрудники для бизнеса».

За пару месяцев без всяких дедлайнов вы: - освоите ChatGPT, GigaChat, DeepSeek, Grok 3 и другие ИИ-инструменты; - научитесь делать видео-аватары, воронки, сайты, веб-приложения и чат-боты; - сможете настраивать ИИ для других или зарабатывать на консалтинге.

Короче, если хотите себе сотрудников, которым зарплату не плати, дай только поработать 24/7, вам это надо.

Доступ к курсу и обновлениям останется навсегда.

По промокоду ПИСАРЕВСКИЙ идёт скидка 55% и второй курс в подарок — оставляйте заявку здесь.

И приятный бонус: Академия лицензирована, поэтому вы сможете вернуть 13% стоимости обучения через налоговый вычет.

Реклама. ООО "ЭДЮСОН". ИНН 7729779476. erid: 2W5zFGNMt9w

🦜 on the web🦜 on the web3 декабря 2024 г.1.7K просмотров

🕹 Пробую делать игру на Godot и Unity: опыт для новичка

Решил попробовать сделать простую игру и заодно сравнить два движка: Godot и Unity. Для гугления использовал бесплатные AI типа Perplexity и DeepSeek, потому что у них нет ограничений по региону, и количеству токенов.

Godot: дружелюбно и по делу

Установка, запуск, первые шаги — всё супер. Не надо никакой IDE, автокомплит из коробки, интерфейс не перегружен. Если цель просто попробовать что-то быстро собрать — это идеальный вариант. Но вот с новой версией (4) справляться сложнее, нейросети вообще живут в прошлом.

Unity: монстр, который требует времени

После Godot переход на Unity ощущается как прыжок с велосипеда на грузовик. Движок кажется монструозным. Без туториалов можно часами кликать по интерфейсу и ничего не добиться. Обязательно нужна сторонняя IDE с настроенным автокомплитом и поддержкой C#, например, Rider или Visual Studio.

И что раздражает: • Запускается долго. Даже на SSD и 32 ГБ DDR5 приходится ждать. • Для простых вещей, вроде кнопки, приходится копаться в куче настроек.

Резюме

Если вы новичок и хотите быстро вкатиться — Godot ваш выбор. Unity лучше для серьёзных проектов, но чтобы освоить его, надо потратить уйму времени и терпения.

Осталось потестить Unreal Engine и понять, где та самая “золотая середина”.

Счастливый тимлид | ♥ FrontendСчастливый тимлид | ♥ Frontend14 июля 2025 г.1.1K просмотров

Вот и до меня добрался Ai

Когда начался бум ИИ-IDE и все начали пробовать Cursor, Windsurf и прочие Trae, к нам тоже пришло обновление — нам на рабочих компах все это превентивно заблочили. Оно и так не работало из-за санкций по географическому признаку, но для надежности наши поставили и второй забор. Сливать исходники за рубеж — плохая идея.

Тогда у меня не было каких-то интересных сайд-проектов, на которых можно почувствовать всю мощь ИИ. Я попробовал бесплатные версии Cursor и Trae на верстке лендоса и CMS Strapi, но оказалось, что все они натренированы на старых версиях библиотек и выдают не такой уж и валидный код. Думал даже даунгреднуться на старые версии, лишь бы ускорить разработку, но в итоге разобрался сам. С версткой было еще хуже, я верстаю быстрее, чем переделываю за ИИ. Тот же Trae хорошо накидывает выдуманные интерфейсы, но если есть макеты, то проще сразу делать самому.

В общем, я на несколько месяцев забил на AI-ассистентов и лишь поглядывал за новостями.

🌈 Но тут внезапно и к нам в деревню пришла ИИ-весна. Ребята развернули во внутреннем контуре DeepSeek и Qwen, написали плагины для VS Code и WebStorm, разрешили наконец-то этим пользоваться. И хотя до сих пор чувствуется отставание — это все-таки не Cursor с платной подпиской, но всякую мелочь реально получается отдавать помощнику: — сгенерируй функцию преобразования даты из 01.05.2022 в 1 мая 2022 — вынеси повторяющийся код в отдельную функцию — напиши регулярное выражение для снилс — объясни что делает этот код

Параллельно с инструментами для разработчиков, они внедрили ИИ в систему контроля версий, и теперь кроме ревью людей можно подключить и ИИ-ревьюера, который без стеснения накидает целую панамку комментов.

А как с этим обстоят дела в других компаниях?

✅ Друг из Сбера говорит, что уже во всю используют ГигаЧат. У них есть все интеграции с популярными IDE и даже своя собственная. Есть и нейро-ревью, которое пока что создает больше неудобств, чем пользы, поэтому у большинства команд находится в отключенном состоянии.

✅ Про Яндекс слышал, что сотрудникам не запрещается использовать зарубежные нейросетки, и там кто во что горазд — кто подключает Cursor, кто RooCode, кто просто из ChatGPT куски кода вставляет. Говорят и нейро-ревью, кто-то по личной инициативе затащил.

Мне вот интересно, если в компании разрешают использовать зарубежные модельки и IDE типа Cursor, то как они защищают данные?

❓ А вы используете ИИ на работе и в жизни? Есть какая-то польза или поигрались и забили?

UPD: обожаю такие посты за ваши комментарии — вот где кладезь пользы!

#cursor #llm #chatgpt

Робокорп - by Сэм ЯкушевРобокорп - by Сэм Якушев20 ноября 2025 г.398 просмотров

Сбер выкатил опенсорсный GigaChat, да еще какой! Надо всё брать, пробовать. Заявляют, что это лучшая альтернатива Qwen и DeepSeek, которые нам привычно развертывать в on-premise проектах. Будем посмотреть.

Вообще спасибо (без шуток) за опенсорс. Реально спасибо!

🔷 GigaChat Ultra Preview Самая мощная модель Сбера. Лучше DeepSeek V3.1 и GigaChat Max 2 в русскоязычных задачах. Подходит для бизнеса, аналитики, разработки и дообучения на своих данных ➡ GitHub | HuggingFace |GitVerse

GigaAM-v3 5 моделей, которые превращают голос в текст с пунктуацией, понимают акценты, спонтанную речь и даже музыкальные запросы. Подойдут для голосовых ассистентов, контакт-центров, аналитики звонков ➡ GitHub | HuggingFace | GitVerse

🔷 GigaChat Lightning Лёгкая, компактная и быстрая. Конкурирует с Qwen3-4B, по скорости сравнима с Qwen3-1.7B, но намного умнее и больше по параметрам ➡ GitHub | HuggingFace |GitVerse

🔷 Kandinsky 5.0 Создание фото и видео по тексту. Внутри: • Image Lite — делает изображения в HD, отлично понимает русский язык и культурный контекст • Video Pro — создаёт до 10 секунд реалистичного HD-видео. Конкурирует с топовыми мировыми моделями • Video Lite — облегчённая версия для домашней видеокарты (от 12 ГБ) ➡️ GitHub | GitVerse | Hugging Face | Технический репорт

🔷 K-VAE 1.0 Ускорение генеративного AI. Это технологии, которые «упаковывают» картинки и видео в скрытое пространство, чтобы модели работали быстрее и требовали меньше ресурсов. Лучшие среди открытых аналогов ➡️ GitHub|Hugging Face

Часто упоминают вместе с DeepSeek