ChatGPT vs DeepSeek
54 автора · 306 постов
ChatGPT — платный, нужен VPN из России. DeepSeek — бесплатный, работает без VPN. Оба умеют в текст и код, но аудитория разная.
Посты из каналов — кто что выбирает и с чем сталкивается.
Есть классическая картинка для иллюстрации жизненного цикла технологических инноваций - Gartner Hype Cycle. Он, конечно, скорее про adoption компаниями, но почему бы не натянуть эту фигуру и на отдельного индивида? Кажется, что прошло уже достаточно времени, чтобы ChatGPT прошел через этот hype cycle персонально для меня и достиг плато продуктивности: равномерное использование, выжившие юзкейсы, отсутствие восторгов и разочарований.
Так вот, лично у меня сложилось четыре явных паттерна использования:
1) Бюрократ-копирайтер
"Перепиши этот месседж для официального емейла / обращения в службу поддержки / аппликейшена в организацию / маркетингового описания". В общем, для переписывания текста. Например, так пишутся жалобы в банк, заблокировавший транзакцию, или описание биографии для сайта издательства.
2) Поверхностный эрудит
"Опиши состояние дел в какой-то области / объясни с учетом моего уровня (не)знания в соседних областях". Примеры вопросов: какой софт используют 3д художники для работы с текстурами? чем replacement map отличается от height map? какие острова на Азорах выбрать для недельного отпуска, если меня интересуют хайки и природные достопримечательности? какие прикладные применения сверхпроводимости? Дьявол обычно в деталях, и слишком глубоко закапываться с LLM не стоит, но можно быстро получить поверхностное понимание.
3) Junior software engineer
"Напиши прототип такой штуки, используя этот незнакомый мне, но популярный в целом API". Из последнего: делал так ORM на SQLAlchemy и blender-скрипты для headless рендеринга. В обоих случаях хочется, чтобы оно хоть как-то работало, а разбираться в апи не хочется - не предполагаю, что этот код нужно будет долго поддерживать или развивать.
4) Въедливый критик
"Найди недостатки и корнеркейсы в следующей идее/коде/тексте: {{INSERT YOUR STUFF}}". Люди неплохо справляются с поиском подтверждений своей идеи или дизайна (confirmation bias и его друзья), а по-хорошему надо искать опровержения и логические нестыковки. Кстати, отлично сочетается с предыдущим режимом использования: напиши-покритикуй-исправь-вываливай в продакшен.
Это именно персональные примеры использования, а не приложения вокруг API. Хотя я как раз использую не веб-интерфейс, а консольный heygpt: он быстрее, удобнее и даже дешевле, чем обычная подписка на GPT-4.
Расскажите в комментариях про сложившиеся у вас паттерны!
Не для всех очевидный факт, но взлет openclaw это прямое следствие DeepSeek.
Объясню: - дипсик первым показал что RL среды с проверяемым результатом масштабируются, и в масштабе дают существенный прирост способностей моделей (2024, можно сказать что о1 был первым но они не написали внятного пейпера)
- затем потребовался год чтобы фронтир лабы создали РЕАЛЬНО масштабируемые среды для long-running / large-context задач типа кода
- это привело к Opus 4.5, который благодаря RL стал крутейшей агентской моделью, которая не теряется в длинных задач, навигирует в баше и может себя вернуть на русло истины.
Итого: кроме претрейн скейлинга (который пока никуда не делся), у нас работает GRPO / RL with Verifiable Rewards скейлинг.
Или совсем простыми словами: скорость «поумнения» LLM удвоилась за год (в самом консервативном случае, в реальности тут экспонента)
Эра краха смысла
Еще многие месяцы мы будем наблюдать крах смысла для миллионов людей.
В прошлом году это звучало как что-то абстрактное, теоретические и "уж точно не про меня". Сегодня лучшие инженеры, которых я знаю, говорят что то, чему они учились несколько десятилетий в одно мгновение стало бессмысленным.
В ближайшие месяцы подобное осознание ждёт миллионы людей. Для кого-то это покажется трагедией, ощущением небезопасности и ненужности. Для других восторгом от возможностей, от того что теперь один человек за неделю может сделать то, что раньше требовало месяцев работы команды.
Это важно, потому что смысл, структура и внимание являются для людей куда более важными вещами, чем деньги и власть, ибо последние порождаются именно нашим вниманием и верой в их смысл.
Безотказный способ избавиться от психоза — удалить GPT и Клод, никогда больше к ним не возвращаться, и остаться в забвении и нерелевантности относительно страниц мировой истории. Если ваше счастье не зависит от мнения других, а ваш стиль жизни от регулярной зарплаты, то я бы сказал это единственный гарантировано безболезненный вариант.
Другой способ это ухватиться за возможности, найти новый рынок для бизнеса, новую работу, новую карьеру, ибо возможностей, как сегодня, не открывалось перед человечеством никогда. Это как поучаствовать в приватизации, только в которой у всех равный, щедрый и одномоментный доступ. триллионы долларов были и будут заработаны за ближайшие 3-4 года, и это ваш выбор участвовать или нет.
С третьей стороны, это крах системы. Конец «конца времен» и начало нового. Никакая либеральная демократия или нефтяная диктатура не переживет смену экономической системы, когда работу делают боты и роботы, а капитал сменяется техническим капиталом (чипы, э/э, пайплайны нефтяные → пайплайны RL). Тут найдется много миллионов покупателей много(десяти)летней вялотекущей войны в Украине, Иране и, возможно, Тайване. Будь у меня достаточно мощные инвесторы, я бы вообще новую религию застартапил.
За крахом старого смысла будет новый. Вопрос, какое там место для тебя, анон?
Главный вопрос о том по какому сценарию пойдет мир (быстрый AGI или медленное развитие/потолок способностей) в том когда случится стадия рекурсивного само улучшения моделей. То есть, когда GPT и Клод станут не менее полезны, чем исследователи из лабораторий, для создания следующих и более способных версий себя.
То, что мы видим публично последние дни указывает на то, что
1. Это совершенно точно возможно 2. Это, вероятнее всего, уже произошло внутри лабораторий
Я бы сейчас ориентировался на один из fast takeoff сценариев для любых планов или стратегий.
Моя работа за последний год от курсора и клода пришла к использованию 3 моделей (и 3 харнесов) для работы над одним и тем же .md документом. в данном случае, это claude code с опусом + pi с gemini 3.1 + opencode с GPT 5.3 Codex
Неожиданно для себя дико вдохновился https://openai.com/sam-and-jony/
- Восхищён тем, что Джони Айв не на пенсии, и не в привычной компании, стремительно теряющей релевантность, а в эпицентре создания нового. - Очень интересно, какой именно форм-фактор они выбрали для первого устройства, над которым они работают. Очки? Браслет? Наушник? Брошь? Кольцо? Просто коробочка или карточка, лежащая на столе? Что-то совсем-совсем новое? - Кстати, в дизайне сайтов OpenAI уже тоже знакомый почерк виден. Белый фон, центрированные заголовки. Внимание к тексту и сообщению. Airbnb туда же — их тоже Айв консультирует. - А ролик-то сам как сделан красиво! Даже «роликом» язык не поворачивается назвать. Короткометражный фильм. Жадно изучаю каждый кадр. Приятно, кстати, что вместо немного надоевших студий улицы и кафе. - И почему-то очень приятно оказалось увидеть Сан-Франциско. Давно не был. Очень люблю этот город. - Как-то этого внимания к деталям и глубины очень не хватало в последние годы. - Кстати, если вы на днях пропустили беседу Джони с Патриком (СЕО Stripe), тоже рекомендасьон.
🔥 Девушка без навыков разработки запустила AI-бота и вышла на первые продажи за месяц
Аня из комьюнити @its_capitan заметила: люди учат английский годами, но говорить не могут. И тогда она сделала Telegram-бота, который общается с тобой голосовыми на английском и исправляет ошибки как живой собеседник.
Что в итоге: — ~700 пользователей за первый месяц — первые 16 оплат — первая выручка: ~$200 — подписка: $8/мес — сделано на n8n + OpenAI без разработчиков
Не было ни команды, ни инвестиций, ни кода.
Главное — не технология. Главное — простая понятная ценность.
Таких запусков в канале уже десятки. Показываем честно: цифры, провалы, рост и продвижение. Без теорий. Только реальные метрики и запуск в реальном времени.
👉 @its_capitan
Подписывайтесь, если интересно, как делать маленькие IT-проекты с доходом и без иллюзий.
#реклама
Для задач типа программирования интерфейсов, приложений и веб сервисов, составления договоров, продаж, поддержки клиентов не нужны значительно более умные модели чем opus 4.6 / gpt-5.3. (Глобально, они нужны, но скорее для рисерча, науки, сложных инженерных задач и супер сложных баз кода)
При этом, дистилляция, оптимизация моделей, интересна, компиляторов и чипов будет продолжаться еще как минимум годы с той же скоростью.
Что сделает использование модели сравнимым со скоростью мысли и значительно дешевле. То, что вы строите сейчас для агентов, которые работают всю ночь, будет занимать 5 минут.
Понравился LiteLLM - LLM Ops здорового человека. TL;DR: тонкий враппер с общим поверх популярных провайдеров LLM, с кэшированием, обработкой ошибок и бюджетированием.
Вообще я не спец в LLM, но сделал сколько-то прототипов на коленке, и считаю, что правильный воркфлоу - делать proof of concept поверх самого дорогого и предсказуемого на текущий момент API (читай GPT-4), и держать в уме опцию миграции в будущем. Уже в паблике есть и жирная Falcon-180B 🐪, и крутой для своего размера Mistral 7B 🇫🇷, и разные затюненные Llama-2. Лень сетапить инференс - пожалуйста, есть Replicate или Deepinfra.com под ваш форк Лламы, и Antropic через AWS Bedrock; все они обойдутся дешевле, чем GPT.
Если совсем полетит, то на собранном датасете можно будет тюнить свою кастомную модель, если лицензия позволит 🏴☠️. Но скорее всего, YAGNI.
Съездил на Gemma Dev Day. Пересказывать пресс-релиз про выход Gemma 3 смысла не вижу, но несколько вещей отмечу.
1) Действительно небольшая разница между 12B и 27B моделями + нативная поддержка квантования = отличный кандидат для локального использования, если это кому-то актуально. На макбуке с M4 Max 12B фигачит 36 токенов в секунду (для сравнения 27B выдает 16 т/сек).
2) Обещанная мультиязычность хоть и есть, но до совершенства еще далеко. На конференции активно хвастались, что помимо собственно знания языка модель прокачали в знании культурного контекста и прочего. Мне скоро предстоит экзамен по польскому, и потому в самолете активно вайб-чекал именно его: болтает нормально, если мучать вопросами грамматики, то даже я могу кое-где увидеть пробелы (а мой уровень польского очень посредственный!). Впрочем, какая-нибудь GPT-4o в этом смысле тоже не без греха.
3) Обещают function calling, но из коробки в ollama его нет. Разработчики говорят, что instruction following хороший, и потому для вызова функций надо просто детально описать инструкцию и потом самому парсить аутпут (привет, регулярки!). На нескольких семплах я бы сказал, что скорее работает даже в zero shot, но неидеально. 4) Всем участникам конфы досталось по футболке (ожидаемо) и по Jetson Nano Orin (неожиданно!). И еще более внезапно лично для меня футболка в моменте оказалась ценнее - опоздал на пересадку, ночевал в отеле аэропорта, но на утренний рейс пришел в свежей футболке! Надеюсь, что канплюктер окажется полезнее в долгосрочной перспективе.
P.S. Незапланированно повидался с Артемом @ai_newz и Григорием @gonzo_ML - ML мир все-таки тесный!
Если бы год назад мне сказали, что французская компания будет двигать вперед опенсорсный AI, я бы подумал, что собеседник неадекватен. Когда Mistral AI только поднял свой первый раунд по оценке в ~300 миллионов, не имея ничего, кроме трех крутых фаундеров, я тоже смотрел на это скептически. Хаха, французы решили сделать deep tech компанию 🥐🥖🍷🧀, все равно получится пекарня или профсоюз. Я был сильно не прав.
Спустя полгода их вышедшая меньше двух недель назад Mixtral показывает лучший результат среди опенсорсных моделей, уверенно обходя GPT 3.5 на лидерборде. Ее можно гонять на более или менее доступном железе, у нее свободная лицензия Apache, и ее вовсю успешно файнтюнят. Буквально вчера наткнулся на один такой нецензурированный вариант и - сугубо из любопытства - начал баловаться с запрещенными темами.
Модель дает неплохие советы, где скачать пиратский контент, как вести партизанские действия в городской застройке, как хитрить с налогами, не пытаясь при этом быть моральным компасом. Промпты про написание шуток, высмеивающие те или иные социальные группы, ее слегка корежат, но в итоге можно добиться несмешного, но осмысленного ответа, не утыкаясь в стену OpenAI's content policies.
Harness Saw-Tooth theory
Возникла идея что эволюция агентов идет в форме пилы. Sawtooth это известный алгоритм в TCP, который снижает перегруженность каналов в интернете. Скорость соединения растет, пока количество потерь пакетов не превысит порог, и затем скорость резко падает в два раза, затем снова растет, как на картинке.
То же самое происходит с агентами: 1. Лабы релизят новую модель, например GPT-4 или Opus 4.5 2. Харнессы позволяют стоить более продвинутых агентов и постепенно добавляют кучи логики в себя. В 2023 это был Auto-GPT, в 2025 Clawdbot. 3. Лабы тренируют новую модель (подозреваю, активно RL’я трейсы агентских харнесов)
И дальше все повторяется по кругу.
Почему это происходит? Агенты создают очень классный синтетический датасет, а сложность харнесов всегда упирается в надежность самой модели, поэтому они никогда не могут перейти определенный порог. Если твой харнесс имеет много кастомной логики, то его надежность падает с каждой новой фичей. С другой стороны, повышение надежности модели в агентских задачах делает доступным новые юзкейсы: например, факт что Opus 4.5 научился супер долго работать в баше и писать скрипты проверяя самого себя сделали его полезным для долгосрочных задач кодинга.
Огорчаюсь ситуации с длинными тире
Дело в том, что в англоязычном мире про них слышали только профессиональные редакторы. А нормальные люди, если что-то и ставят, то просто какую-то чёрточку, которая есть на клавиатуре, то есть дефис.
И тут появляется chatGPT и начинает в своей генерации обильно использовать настоящие длинные тире.
И естественно, эти самые тире тут же становятся ярким отличительным признаком сгенерированного текста.
Это у нас, русскоязычных людей, уже на заре интернета были Ководство Лебедева, раскладка Бирмана и вот это всё. И случилась удивительная история, что прямо многие не только узнали про существование тире, но ещё и научились и привыкли им пользоваться.
Это правда уникальная ситуация, в мире такого больше нет. А для нас так естественно стало, что мы даже не замечаем.
А теперь, получается, надо снова отучаться, если хочешь в переписке на английском выглядеть живым человеком.
Я прям бьюсь головой о клавиатуру перечитываю все свои сообщения перед отправкой и заменяю красивые тире на дефисы. Ну, если вспоминаю.
Я редко пишу здесь про новости, но про очередной релиз нового семейства LLM - на этот раз Claude 3 от Anthropic - напишу.
Дело даже не в том, что они утверждают, что побили GPT-4 по метрикам. Это первая модель, которая с первой попытки правильно ответила на вопрос, которым я люблю тестировать LLM-ки: "what manhattan project participant invented the dolphin kick for swimming?" 🐬. Остальные популярные модели (GPT-4, Mistral Large, Llama 2 70B...) или скатываются в галлюцинации (обычно про Фейнмана), или отвечают в духе "уважаемый, там физики работали, какое еще плавание".
Вопрос, конечно, вдохновлен этой книгой. На более нормальные промпты, которые я успел прогнать, кажется, отвечает +- на уровне GPT.
Предсказание: в ближайшие пару лет Rust наконец-то пойдет в массы.
Rust уже давно был в странной позиции самого любимого языка, на котором пишут в основном пет-проекты и редкие системы с повышенными требованиями к безопасности (читай веб3 и криптографию). Порог входа относительно высокий, разработчиков на рынке мало - нужно быть довольно рисковым, чтобы стартовать новый проект на нем. Но кажется, что для него есть еще две созревшие ниши: 1) очевидная - язык для dev-инструментов, 2) неочевидная - быть вторым языком в проекте.
Эти две ниши хорошо сочетаются.
Rust хорошо интегрируется с двумя самыми популярными языками современности: c Python через maturin, с JS через WebAssembly. Я не знаком с миром JS, видел краем глаза пару примеров дев-тулов на расте. В Python тусовке знаю больше: набирающий популярность линтер, два популярных токенайзера (второй используют OpenAI!), новая версия валидатора pydantic. Уверен, что в течение пары лет появится популярный Python веб-фреймворк типа FastAPI/Starlite с ядром, написанным на расте.
И тут я наконец вверну кусок про LLM. У нас на работе Rust уже давно использовался именно как второй язык бэкенда, для ускорения узких мест, и за день перед отпуском (не начинать же Большую Задачу) в обучающих целях я решил слегка ускорить кусок препроцессинга. Нашел профайлером пару относительно медленных функций, скормил их в GPT-4, получил аналог на расте, поправил пару мест, повозился с интеграцией, получил комментарий на ревью от человека, который, в отличие от меня, на расте писать умеет, починил, смержил. Короче, оно уже в проде (люблю запах деплоя пятничными вечерами!), экономит 1 ms на запрос (в масштабах тысяч RPS имеет некоторый смысл), а ведь я даже учебник по расту не дочитал.
В мире JS уже есть даже специальные курсы типа Rust for JS devs. Думаю, автор учебника Rust for Python developers будет крайне успешен. Если кто-то из читателей хочет этим заняться, но не знает, как начать, пишите - поделюсь опытом работы с издательством.
Меня поражает один простой трюк, которым chatGPT всё время пользуется, когда со мной разговаривает
Модель всегда начинает с того, что кратко повторяет, как она поняла мой запрос.
Кажется, это часть того, что в коммуникации называют активным слушанием.
Это так просто и так круто!
Иногда чуть надоедает, но плюсов вижу намного больше:
+ Сразу становится ясно, поняла меня модель в принципе или поняла как-то по-своему + Если переслать только ответ куда-то, то всем, кто его дальше увидит, тоже намного понятнее, про что этот ответ
Если бы люди в общении делали так же, мы жили бы в другом мире.
Учусь теперь тоже свои развёрнутые ответы начинать с того, как я понял вопрос.
Пока во всех ML-related каналах пишут о том, что OpenAI массово раздает доступ к плагинам для GPT, я спрятался от хайпа, добрался до watch later и посмотрел два старых видео про профайлинг: Performance matters и Python performance matters.
Оба видео - доклады Emery Berger, автора известных инструментов профайлинга, на конференции Strange Loop. Просмотр обоих толсто намекнул, что некоторые мои потуги в вопросах оптимизации были довольно наивны, а кроличья нора профайлинга - куда глубже, чем может показаться ("ну а че там, запускаешь функцию, меряешь время, все просто"). Если тема интересна, но жалко времени, то посмотрите хотя бы первое видео, чтобы узнать о роли memory layout в бенчмарках и о том, почему не все ускорения одинаково полезны.
Emery Berger - вообще очень интересный чувак. Например, еще в 2014 он работал над идеей автоматического поиска ошибок в Excel таблицах (и развил метод в работе 2019 года). В Scalene - Python-профайлере из второго видео - давно прикручен OpenAI для подсказок оптимизация. Еще одна похожая утилита про dev tools meeting generative AI - ChatDBG, дебаггер с интегрированным ChatGPT.
Спасибо, гпт! А я годами сохранял во временный файл
Я уже недавно писал, что в эпоху LLM регулярки снова стали актуальным инструментом так называемого AI. Regex-in-the-loop как промежуточный вариант между "слепо доверимся черному ящику" и относительно дорогим human-in-the-loop.
И вот для тех, кто уже перешел с ChatGPT на что-то опенсорсное из зоопарка парнокопытных, уже появился враппер, который заставляет LLM-ку отвечать в заданном формате. Идея очень простая:
ReLLM filters non-matching tokens pre-generation. For each token, ReLLM tests every possible completion against a partial regex. For the potential completions that do not match the pattern, ReLLM masks the logits so that the language model does not generate them.
У меня нет бенчмарков, потому голословно выскажу предположение, что для ряда нехитрых продакшен задач такой нехитрый костыль сильно сократит отставание опенсорсных LLM от великого и могучего OpenAI.
Два мелких наблюдения про GPT-driven написание кода:
1) за последний месяц написал больше регулярок, чем за всю предыдущую карьеру - нужно выковыривать результат из GPT и фиксить (например, добавлять пропущенные запятые в невалидный JSON). К счастью, писать их руками тоже необязательно, copilot справляется. 2) надо думать своей головой дважды (трижды для таких невнимательных людей, как я), принимая какие-то дизайн-решения на базе ответов ChatGPT. Недавно лопухнулся: спросил, как сделать некую интеграцию с гуглдоками, посмотрел код и подумал, что после мелких фиксов все заработает. После многих часов в попытках это завести обнаружил, что такого API не существует, есть вроде бы похожее, но совершенно не решающее мою задачу.
ChatGPT vs DeepSeek: итоги
ChatGPT — $20/мес за Plus, нужен VPN. Широкие возможности: картинки, голос, интеграции. Самый упоминаемый инструмент — 86% авторов.
DeepSeek — бесплатно, без VPN, доступен в России. По бенчмаркам рядом с GPT-4o. Упоминают 16% авторов, но доля растёт.
Типичный паттерн в каналах: ChatGPT для основной работы, DeepSeek как запасной вариант или для тех, кто не хочет платить.