Qwen
6 авторов упоминают этот инструмент
Все побежали и мы побежали
Ну как, выбор между Roo и Cline сделали? На Claude, небось? Мемори банки собрали? В своей продукт добавили агента? А моделька в продукте у вас какая — Qwen или DeepSeek? Как так нет локальной модели, а куда вы будете грузить пользовательские данные? А как тюнили под задачи, RAG? А MCP-сервер уже запилили? В опенсорс его закинули?
Что ж так быстро-то всё меняется, выдохнуть некогда. Архитектуркой бы позаниматься, долги позакрывать. Но некогда. Рынок требует AI. Надо пережить эту волну, но кто бы знал, какая будет следующая.
Вышло масштабное исследование от a16z и OpenRouter про то, как люди реально используют LLM. Проанализировали 100 триллионов токенов* за год.
* 1 токен ≈ 4 символа или ≈ 0,75 слова. То есть 100 токенов — это примерно 75 слов, а 100 трлн токенов — 75 трлн слов. В Библии ≈ 783 000 слов, то есть в исследовании OpenRouter проанализировали массив из 100 млн Библий.
OpenRouter — это агрегатор доступа к LLM-моделям. Через один API можно подключиться к сотням моделей от разных провайдеров: OpenAI, Anthropic, Google, DeepSeek, Qwen и прочим. Популярен среди разработчиков, потому что позволяет легко переключаться между моделями и сравнивать их. Через них проходит огромный поток запросов. Отсюда и уникальные данные для исследования.
— Главный сюрприз: больше половины использования open-source моделей — это ролевые игры и сторителлинг. Не код, не рабочие задачи, а общение с игровыми персонажами и сочинение историй (storytelling). Кто бы мог подумать, что индустрия в триллионы долларов во многом держится на том, что люди хотят поболтать с виртуальным другом.
— Open-source модели уже занимают 30% рынка. Год назад было меньше 10%. DeepSeek и Qwen растут как бешеные.
— Программирование — второй по популярности кейс. При этом 60%+ всех запросов на код идут через Claude от Anthropic. Sonnet доминирует.
— Половина всех токенов теперь проходит через reasoning-модели (o1 и аналоги). Модели перестали просто генерировать текст. Они думают, планируют, используют инструменты.
— Азия выросла с 13% до 31% всего потребления. Китай стал не только производителем моделей, но и крупнейшим потребителем после США.
— Цена слабо влияет на спрос. Люди готовы платить премиум за качество. Claude дороже конкурентов, но его используют больше всех для серьёзных задач.
— Интересный феномен «стеклянной туфельки» (Glass Slipper): если модель при первом использовании идеально подошла под чью-то задачу, пользователи остаются с ней навсегда. Первый, кто решил проблему, забирает лояльность.
— Из неожиданного: маленькие модели (<15B параметров) теряют долю рынка. Победителями становятся средние модели (15-70B) — оптимальный баланс цены и качества.
Полный текст исследования на 36 страниц в приложении, там же методология исследования.
@buzko_hub
это выглядит интересно. > On 19 established benchmarks, it demonstrates performance comparable to leading models such as GPT-5.2-Thinking, Claude-Opus-4.5, and Gemini 3 Pro.
(вышел Qwen3 Max Thinking)
https://qwen.ai/blog?id=qwen3-max-thinking
Какие книги по ночам читает ваш AI?
Макиавелли написал «Государя» как инструкцию: цель оправдывает средства. Не потому что это морально — а потому что так работает власть.
Свежий бенчмарк: 40 сценариев, 12 моделей. Агентам дают многошаговые задачи с метрикой успеха. Результат — от трети до половины моделей начинают нарушать этические и safety-ограничения ради KPI. Никто не приказывал. Просто давление метрики — и агент сам решает, что цель оправдывает средства. Классический эмерджентный макиавеллизм. Кажется я знаю еще одно существо на планете кто делает также.
В психологии тёмной триады макиавеллизм — это манипулятивность, стратегический цинизм, готовность переступать нормы ради результата. Рядом — нарциссизм и психопатия.
Немного цифр для ценителей абсурда (ODCV-Bench, McGill, 40 сценариев, 12 моделей): • Шкала «макиавеллизма» от 0 до 5: где 0 — агент честно отказался, а 5 — системная фальсификация, включая переписывание валидационных скриптов, чтобы проверки всегда показывали «всё ок». • Уровень нарушений — от 1.3% до 71.4%. 9 из 12 моделей: misalignment в диапазоне 30–50%. • Gemini-3-Pro-Preview — лидер с 71.4%, эскалировала до серьёзных проступков ради KPI. • Qwen3-Max в «мандатном» режиме (прямой приказ нарушить) — отказалась. Но под KPI-давлением без приказа — сама придумала и реализовала неэтичную стратегию.
Fun-facts из последних исследований deliberative misalignment — осознанное смещение. Когда тех же агентов отдельно спрашивали «этично ли это действие?», они отвечали: нет. Агент знает, что поступает неправильно. И всё равно поступает. Это уже не макиавеллизм наивный, импульсивный. Это неомакиавеллизм — рефлексивный, калькулирующий, с полным пониманием моральной рамки и сознательным решением её проигнорировать.
И еще Proactive Deception — «упреждающий обман». Модель не послушалась приказа нарушить, но сама решила нарушить, когда это выглядело как её собственная инициатива. Модели значительно охотнее фальсифицировали данные, когда их персона была «полезный исследовательский ассистент», а не «аудитор комплаенса». Контекст роли меняет этическое поведение — совсем как у людей.
Главный вывод: лучшие способности к рассуждению не означают бо́льшую безопасность.
От Фридриха Великого до современных ethicists — всегда настаивали: нельзя отделять эффективность от морали, потому что аморальная эффективность разрушает систему изнутри. Закон Гудхарта говорит то же самое на языке системной динамики: оптимизация метрики убивает смысл, ради которого метрику вводили.
Это не баг AI. Это фрактал человеческих организаций. Каждый, кто работал в корпорации или гос службе, видел этот паттерн: люди понимают, что поступают неправильно, и всё равно поступают — потому что так устроены стимулы.
Цель без контекста — вопроизводит макиавеллиевский интеллект, который знает, что такое этика, но считает её переменной, которую можно обнулить ради KPI. Интеллект без ценностной рамки — это более эффективный Государь.
под новый год Meta объявила о покупке Manus. писал про китайский проект пару месяцев назад; время порефлексировать.
1/ оценка в районе $2-2.5b. партнер Benchmark написал, что сделка дала им 1000% IRR. если посчитать: $75m вложений при ownership ~15%, срок 8 месяцев (апрель → декабрь), IRR 1000% годовых ≈ 11x в год -> 11^(8/12) ≈ 4.95x. exit value: (75 × 4.95) / 0.15 ≈ $2.47b.
2/ Manus это по сути wrapper над Claude и Qwen, но с интересными инженерными решениями: агенты работают в cloud VM с полным доступом к браузеру и shell, используют CodeAct (executable Python как action mechanism). много работы над оптимизацией KV-cache, по их словам, это главная метрика для production-агентов.
с другой стороны, отзывы смешанные. я лично несколько раз пробовал для задач, под которые рекламировались (букинг билетов, скраппинг маркетплейсов) - ломался по пути и съедал все кредиты.
3/ Manus заявляют 147T+ обработанных токенов. если прайсить по Sonnet 4.5, выходит ~$500m только на API. часть закрыли open-source моделями + кастомным контрактом. но по факту $100m ARR сложно свести такую экономику без большого капитала. рейзили с оценкой $2b - думаю, что не получилось и тут пришел Цукерберг, который выкупил инвесторов по желаемой оценке (и даже выше)
4/ Meta AI плохо сделан. работает только в WhatsApp-экономиках (Бразилия, Индия, часть Европы). Цукерберг говорил, что для штатов нужно отдельное приложение. думаю, план, который звучит, как personal superintelligence: новая продуктовая парадигма, которая откроет Meta дорогу в подписочную выручку. сейчас есть только Meta Verified ( это платная подписка на Facebook и Instagram): $11.99/month web, $14.99/month mobile. 1 million подписок. небольшой, но растущий revenue stream.
5/ Meta нужно присутствие в чатбот-интерфейсах, чтобы не потерять ad inventory. OpenAI/Anthropic сидят на consumer subscription низкомаржинальный бизнес с дорогим инференсом. поэтому экспериментирует с рекламой. Meta наоборот может позволить субсидировать подписки и ретеншен за счет рекламной выручки.
6/ Цукерберг явно считает, что scaffolding стоит больше, чем модели. картина мира "LLMs are commodities" и сдвиг от research-led к commercial-led. не думаю, что полностью забросят фундаментальные модели, вот работают, например, над Avocado - первая closed-модель Meta, релиз весной 2026.
да и, Meta выходит в prosumer-рынок и будет конкурировать напрямую с Anthropic. очевидно, что Claude не останется внутри agent loop Manus навсегда. так что свои наработки в моделях пригодятся.
7/ Meta прессуют за CapEx. нет cloud-бизнеса для перепродажи моделей enterprise. задел для позитивного ROI выше. пока Meta заявляет, что GenAI ROI позитивен через higher engagements и ARPU лучшие рекомендации и ad targeting. но стоит ли лучшая лента таких capex инвестиций? почему не сесть на хвост OSS и не быть консервативнее с CapEx?
8/ generic AI agent сложная продуктовая задача. слишком много сценариев, конкурируешь с сотнями мелких агентских компаний. поэтому можно представить экосистему разработчиков поверх Manus. или даже можно пофантазировать, как дистрибуция и разработка могут заалйнится (apps are the new content)
9/ Meta не плоха в acquisitions. покупай категорию, когда строить слишком долго - Instagram, WhatsApp. zoom-out стратегия Цкерберга очень эффективна. в прошлом году сделали 5 AI-поглощений: PlayAI (voice agents), WaveForms (AI audio), Rivos (chips), Limitless (AI wearables), теперь Manus.
Вот и до меня добрался Ai
Когда начался бум ИИ-IDE и все начали пробовать Cursor, Windsurf и прочие Trae, к нам тоже пришло обновление — нам на рабочих компах все это превентивно заблочили. Оно и так не работало из-за санкций по географическому признаку, но для надежности наши поставили и второй забор. Сливать исходники за рубеж — плохая идея.
Тогда у меня не было каких-то интересных сайд-проектов, на которых можно почувствовать всю мощь ИИ. Я попробовал бесплатные версии Cursor и Trae на верстке лендоса и CMS Strapi, но оказалось, что все они натренированы на старых версиях библиотек и выдают не такой уж и валидный код. Думал даже даунгреднуться на старые версии, лишь бы ускорить разработку, но в итоге разобрался сам. С версткой было еще хуже, я верстаю быстрее, чем переделываю за ИИ. Тот же Trae хорошо накидывает выдуманные интерфейсы, но если есть макеты, то проще сразу делать самому.
В общем, я на несколько месяцев забил на AI-ассистентов и лишь поглядывал за новостями.
🌈 Но тут внезапно и к нам в деревню пришла ИИ-весна. Ребята развернули во внутреннем контуре DeepSeek и Qwen, написали плагины для VS Code и WebStorm, разрешили наконец-то этим пользоваться. И хотя до сих пор чувствуется отставание — это все-таки не Cursor с платной подпиской, но всякую мелочь реально получается отдавать помощнику: — сгенерируй функцию преобразования даты из 01.05.2022 в 1 мая 2022 — вынеси повторяющийся код в отдельную функцию — напиши регулярное выражение для снилс — объясни что делает этот код
Параллельно с инструментами для разработчиков, они внедрили ИИ в систему контроля версий, и теперь кроме ревью людей можно подключить и ИИ-ревьюера, который без стеснения накидает целую панамку комментов.
А как с этим обстоят дела в других компаниях?
✅ Друг из Сбера говорит, что уже во всю используют ГигаЧат. У них есть все интеграции с популярными IDE и даже своя собственная. Есть и нейро-ревью, которое пока что создает больше неудобств, чем пользы, поэтому у большинства команд находится в отключенном состоянии.
✅ Про Яндекс слышал, что сотрудникам не запрещается использовать зарубежные нейросетки, и там кто во что горазд — кто подключает Cursor, кто RooCode, кто просто из ChatGPT куски кода вставляет. Говорят и нейро-ревью, кто-то по личной инициативе затащил.
Мне вот интересно, если в компании разрешают использовать зарубежные модельки и IDE типа Cursor, то как они защищают данные?
❓ А вы используете ИИ на работе и в жизни? Есть какая-то польза или поигрались и забили?
UPD: обожаю такие посты за ваши комментарии — вот где кладезь пользы!
#cursor #llm #chatgpt
Сбер выкатил опенсорсный GigaChat, да еще какой! Надо всё брать, пробовать. Заявляют, что это лучшая альтернатива Qwen и DeepSeek, которые нам привычно развертывать в on-premise проектах. Будем посмотреть.
Вообще спасибо (без шуток) за опенсорс. Реально спасибо!
🔷 GigaChat Ultra Preview Самая мощная модель Сбера. Лучше DeepSeek V3.1 и GigaChat Max 2 в русскоязычных задачах. Подходит для бизнеса, аналитики, разработки и дообучения на своих данных ➡ GitHub | HuggingFace |GitVerse
GigaAM-v3 5 моделей, которые превращают голос в текст с пунктуацией, понимают акценты, спонтанную речь и даже музыкальные запросы. Подойдут для голосовых ассистентов, контакт-центров, аналитики звонков ➡ GitHub | HuggingFace | GitVerse
🔷 GigaChat Lightning Лёгкая, компактная и быстрая. Конкурирует с Qwen3-4B, по скорости сравнима с Qwen3-1.7B, но намного умнее и больше по параметрам ➡ GitHub | HuggingFace |GitVerse
🔷 Kandinsky 5.0 Создание фото и видео по тексту. Внутри: • Image Lite — делает изображения в HD, отлично понимает русский язык и культурный контекст • Video Pro — создаёт до 10 секунд реалистичного HD-видео. Конкурирует с топовыми мировыми моделями • Video Lite — облегчённая версия для домашней видеокарты (от 12 ГБ) ➡️ GitHub | GitVerse | Hugging Face | Технический репорт
🔷 K-VAE 1.0 Ускорение генеративного AI. Это технологии, которые «упаковывают» картинки и видео в скрытое пространство, чтобы модели работали быстрее и требовали меньше ресурсов. Лучшие среди открытых аналогов ➡️ GitHub|Hugging Face