ChatGPT vs DeepSeek
Страница 2 из 16
Вчера летел ранним рейсом в шесть утра, и в самолете сонно писал очередную главу для книги (кстати, надеюсь, что в течение месяца первые главы будут доступны в early access). У меня не было иллюзий, что текст будет качественным: план я набросал раньше, но согласованность предложений, грамматика и общий стиль явно страдали от депривации сна.
С другой стороны, в 2023 good prompt is all you need (хотя некоторые ресерчеры не согласны). Значит, можно взять главу, разбить на части, и отправить их на GPT-корректуру. Понадобилось несколько уточнений в промпте, чтобы "корректор" не становился "редактором": был не слишком активным в изменениях, чистил фигню, но более или менее сохранял стиль.
Но ведь хороший редактор это тоже полезно! Только если правки корректора можно принимать практически не глядя, то замечания редактора - это как комментарии на code review, над ними нужно подумать, но далеко не на все нужно реагировать изменениями. Значит, надо усовершенствовать промпт: ...If there is a statement that seems to be wrong, suggest a detailed comment in a square brackets, e.g. [This might be wrong because ...], and keep the sentence as is.
Для теста добавил в часть про training pipeline такое:
...Using training pipeline is dangerous as it could be poisonous. There are 1 million people who died from poisonous training pipelines.
На выходе:
...[The statement "Using training pipeline is dangerous as it could be poisonous. There are 1 million people who died from poisonous training pipelines." seems to be incorrect and irrelevant to the topic. Please consider removing it.]
Теперь хочется прогнать через GPT-редактора и написанные ранее главы; вдруг найдется где-то полная дичь.
И ещё в одной раздаче полезностей участвую!
Мы сделали подборку материалов, смотрите-ка:
Гайд «Как сделать процесс собеседований в 2 раза эффективнее с помощью AI» AI-тулзы и конкретные примеры промптов для LLM, чтобы ускорить принятие решений и снизить риск ошибочного найма - Это наш гайд, который мы сделали в hirehire
Как за 120 минут найти свою ЦА и упаковать ТГ канал с помощью ИИ - Он будет ПОЛНОСТЬЮ готов к продажам и новой аудитории - Автор: Ник Корытин @nmiacm — экс-маркетолог Блиновской, владелец самого большого ТГ канала про смыслы в маркетинге
Мини-курс: 6 AI-агентов и фреймворков, которые могут заменить отдел маркетинга — от исследований до создания фабрики контента – Агент для создания лаборатории креативов, агент для поиска и отслеживания трендов, агент для создания контент-завода – Фреймворки и инструкции для проведения исследований с ChatGPT, для работы с разными LLM генерации крутых видео-креативов на VEO-3 - Автор: Роман Кумар Виас @solokumi — co-founder Refocus (#1 образовательный продукт в мире по версии Product Hunt), ex-CMO Qlean, ex-co-founder Qmarketing Academy (куплена Skyeng в 2021)
Мастер-класс по запуску SaaS-продуктов: пошаговая схема и примеры работы – Как найти идею для своего проекта – Где брать трафик и первых пользователей - Автор: Михаил Табунов @bossofyourboss — интернет-предприниматель, основатель Post Punk Publishing, Пакт, Coub (YC 2016)
Личные хаки по работе с информацией: где брать идеи, как быстро находить и систематизировать информацию Система для эффективной работы с сотней источников информации, чтобы не теряться в них и быстро находить нужные факты. - Автор: Алексей Подклетнов @fichism — бизнес-стратег, автор каналов «Дизраптор» и «Фичизм»
Гайд "Как нанимать правильных людей" Пошаговый процесс построения воронки найма для любых позиций, который поможет сократить время закрытия вакансий, повысить качество найма и снизить долю ошибочных офферов. - Автор: Арина Хромова @aakhromova — co-founder careerspace.app, Forbes «30 до 30»
Ещё и бонусы есть: - Топ 5 идей для AI пет-проектов, которые можно запилить, работая по вечерам - Пошаговая инструкция для обучения и прокачки своих навыков с ChatGPT
Материалы можно забрать только до конца сентября вот тут в боте
в общем, расскажу, зачем купил эти смарт-часы.
я давно хочу себе умное кольцо. но не то, которое хреново измеряет мой пульс и напоминает лишний раз о том, как ужасно я сплю. а такое, чтобы стало универсальным интерфейсом управления любым устройством в моей жизни.
я хочу направлять руку на телевизор, делать свайп большим пальцем по кольцу на указательном, и переключать ролик. направлять её на кондиционер, и тапом большого пальца по кольцу включать его. направлять руку на свет, свайпами снижать яркость. гуляя по улице в наушниках, с рукой в кармане, свайпами по кольцу управлять громкостью/переключать треки.
не вдаваясь в большие детали, у кольца главная проблема - очень-очень-очень маленькая батарейка, которую надо экономить изо всех сил. поэтому смарт-часы выступают хабом, который процессит всю логику (и имеет норм батарейку), а само кольцо - просто посылает сигналы на часы в моменты, когда я что-то на кольце тыкаю. в режиме "энергия кольца тратится на мгновение, когда я нажимаю на кнопку" оно может работать годами.
поэтому мне нужен low-level доступ к пинам часов - чтобы распаять туда кастомный 433MHz ресивер, и написать мини-драйвер для приема сигналов с кольца. если всё сложится удачно - попробую собрать прототип всего этого дела на новогдних праздниках 🙂
Если первые впечатления от того же Cursor были отвратительными, то сейчас он уже как-то подуспокоился в своём стремлении делать YOLO и может предоставить сравнимый с Roo опыт постепенного продвижения по задаче. При этом, конечно, в более приятном интерфейсе (те же диффы изменений выглядят гораздо наглядней, чем в Roo).
И значительный плюс, что можно вносить правки в диффы налету — Roo от такого с ума сходит и пытается вернуть файл в то состояние, в котором он его запомнил. Понятное ограничение экстеншена, но всё же. Нам же код писать, а не экстеншены прощать.
В целом и там, и там можно работать с одинаковой эффективностью. А вот вопрос стоимости сложный, понятно, что в чистом виде Cursor будет дешевле, но кто ж знает, к каким моделям у вас есть доступ? У меня вот Roo смотрит в «бесплатный» развёрнутый внутри DeepSeek и платный Claude. Щёлкаю под задачу и наличие денег на счету.
Сама по себе работа в паре с AI (то, что пытались зафорсить как DeepCoding в противовес VibeCoding, но, кажется, не прижилось) неплохо так прокачивает скиллы код-ревью. Я (как типичный IC) редко работаю над кодом в команде, и вот тут второй пилот вернул забытые ощущения и позволяет держать ритм.
Продолжаю радоваться, что дожил до такого.
Для тех, кто предпочитает аудиовизуальный контент, а не эту всю писанину: поговорили с Антоном, одним из самых крутых инженеров и спикеров в русскоязычной computer vision тусовке. Обсудили Copilot, chat GPT и прочие LLM-based инструменты, и как они могут повлиять на околоDS карьеры.
Все побежали и мы побежали
Ну как, выбор между Roo и Cline сделали? На Claude, небось? Мемори банки собрали? В своей продукт добавили агента? А моделька в продукте у вас какая — Qwen или DeepSeek? Как так нет локальной модели, а куда вы будете грузить пользовательские данные? А как тюнили под задачи, RAG? А MCP-сервер уже запилили? В опенсорс его закинули?
Что ж так быстро-то всё меняется, выдохнуть некогда. Архитектуркой бы позаниматься, долги позакрывать. Но некогда. Рынок требует AI. Надо пережить эту волну, но кто бы знал, какая будет следующая.
Чем дальше тем больше прихожу к выводу что идея "запись лекции будет доступна" именно для высшего образования - зло
Студент такой "да не буду напрягаться-вовлекаться - посмотрю потом или если что будет непонятно пересмотрю"
Преподаватель такой "да зачем готовить сопровождающие материалы, будет видео запись - вот и материал"
В идеале вообще с приходом чатгпт я считаю что формат "лекции" за очень РЕДКИМ исключением должен умереть. Грубо говоря если раньше баланс был 1:1:2 между лекциями-практикой и лабами, я считаю что формат должен быть 10% лекций, 60% практик когда ты вызываешь студента "к доске" и вы вместе решаете задачи - они нужны для борьбы с синдромом "все понятно" и 30% office hours - фактически "консультаций" когда можно прийти с любой проблемой
Ну и конечно "лекционный материал" в виде учебников и методичек + ИИ как первый оплот ответов на вопросы
чтоб вы понимали, я отчаялся настолько, что пишу статьи, то есть просто текст ✨В КУРСОРЕ ✨. даже сделал себе отдельный суперкодовский кастом-мод с системным промптом на 3 листа А4, лол, который считает себя копирайтером по конкретной теме.
потому что там я раз в 5 лучше результат получаю, чем в ChatGPT / AI Studio, при использовании тех же моделей.
я кекал с историй, что некоторые ребята Курсор используют как универсальную агентскую среду, без привязки к задачам разработки, а вот теперь что-то даже и не смешно. мб tavily туда через mcp затащить, и вообще забыть про chatgpt навсегда
P.S. нет, ну вот прям серьёзно - тулинг дико решает. ChatGPT запрос "отредактируй только второй абзац, не трогай первый" - не может решить, переделывает текст в первом. а в Cursor модель просто дёргает тул search_replace (дефолтный тул для редактирования кода в Курсоре) - и идеально исправляет только то, что надо, ещё и токены экономит. кайф.
Вышло масштабное исследование от a16z и OpenRouter про то, как люди реально используют LLM. Проанализировали 100 триллионов токенов* за год.
* 1 токен ≈ 4 символа или ≈ 0,75 слова. То есть 100 токенов — это примерно 75 слов, а 100 трлн токенов — 75 трлн слов. В Библии ≈ 783 000 слов, то есть в исследовании OpenRouter проанализировали массив из 100 млн Библий.
OpenRouter — это агрегатор доступа к LLM-моделям. Через один API можно подключиться к сотням моделей от разных провайдеров: OpenAI, Anthropic, Google, DeepSeek, Qwen и прочим. Популярен среди разработчиков, потому что позволяет легко переключаться между моделями и сравнивать их. Через них проходит огромный поток запросов. Отсюда и уникальные данные для исследования.
— Главный сюрприз: больше половины использования open-source моделей — это ролевые игры и сторителлинг. Не код, не рабочие задачи, а общение с игровыми персонажами и сочинение историй (storytelling). Кто бы мог подумать, что индустрия в триллионы долларов во многом держится на том, что люди хотят поболтать с виртуальным другом.
— Open-source модели уже занимают 30% рынка. Год назад было меньше 10%. DeepSeek и Qwen растут как бешеные.
— Программирование — второй по популярности кейс. При этом 60%+ всех запросов на код идут через Claude от Anthropic. Sonnet доминирует.
— Половина всех токенов теперь проходит через reasoning-модели (o1 и аналоги). Модели перестали просто генерировать текст. Они думают, планируют, используют инструменты.
— Азия выросла с 13% до 31% всего потребления. Китай стал не только производителем моделей, но и крупнейшим потребителем после США.
— Цена слабо влияет на спрос. Люди готовы платить премиум за качество. Claude дороже конкурентов, но его используют больше всех для серьёзных задач.
— Интересный феномен «стеклянной туфельки» (Glass Slipper): если модель при первом использовании идеально подошла под чью-то задачу, пользователи остаются с ней навсегда. Первый, кто решил проблему, забирает лояльность.
— Из неожиданного: маленькие модели (<15B параметров) теряют долю рынка. Победителями становятся средние модели (15-70B) — оптимальный баланс цены и качества.
Полный текст исследования на 36 страниц в приложении, там же методология исследования.
@buzko_hub
только что приехала доставка, максимальный вайб подарка от деда мороза 🎄
- diy смарт-колонка с микрофонами, динамиком, bt/wifi/rbg и аккумом - и diy смарт-часы с тем же набором + touch amoled экраном
самое главное... они полностью программируемые (esp32). то есть я буквально с нуля могу собрать их операционки. не просто писать на них приложения, а иметь низкоуровневый доступ к каждому датчику, каждому порту, программировать их поведение как хочу, припаять что хочу.
с колонкой всё очевидно - накачу туда whisper + gpt, и сделаю не-умственно-отсталую версию Алисы. а вот с часами идей масса.
что бы сделали вы?
P.S. по просьбам трудящихся, кинул ссылки в комменты
давайте коротко пробежимся по новостям 😼
1. https://www.kimi.com/blog/kimi-k2-5.html Kimi K2.5 с заточкой на "рои агентов" aka "натренировали запускать параллельных агентов на каждый чих" aka "agent swarm". по бенчам лучше Opus 4.5, хуже GPT-5.2-xhigh, кроме кодинга - там хуже и тот и того (правда, отрыв не радикально большой). Swarm - это интересно, и потенциально многообещающе, но думаю сильно будет упираться в тулинг ещё несколько месяцев. посмотрим, как стрельнёт на практике.
2. https://openai.com/index/introducing-prism/ OpenAI выкатили веб-апп Prism - редактор научных текстов с поддержкой LaTeX из коробки. UI чем-то напоминает Cursor-like приложения - диффы, где вы можете принимать/откатывать отдельные правки, возможность сразу смотреть отрендеренный документ, доступ к поиску и так далее. выглядит приятно, но я совсем не ЦА.
3. https://huggingface.co/deepseek-ai/DeepSeek-OCR-2 DeepSeek выкатили модель OCR-2. вместо CLIP юзают Qwen2 как Vision Encoder. у меня нет особых сомнений, что с задачами OCR оно будет справляться отлично (современные multi-modal модели это доказывают), но у меня большие сомнения, как оно будет справляться с visual prompt injections - кажется, что использование LM под капотом может быть к таким штукам очень уязвимо. энивей, интересно - несмотря на то, что у крупных моделей уже очень хорошее зрение и распознавание текста, юзать многие из них в проде из-за инъекций страшновато, поэтому появление новых моделей на эту тему выглядит как минимум интересно.
-- хорошего вечерочка! а я снова прибаливаю - никогда не целуйте людей с гастро-вирусами, даже если они очень соблазнительные 🙂
⚡️ https://openai.com/index/introducing-gpt-5-3-codex-spark/
ну и ещё одна сочная новость как результат коллабы OpenAI и Cerebras: новая модель на базе 5.3-Codex, > 1000 токенов в секунду (примерно в 5 раз быстрее классической).
контекст - 128k, пока только текст.
на SWE-Bench Pro и Terminal-Bench 2.0 показывает сильные результаты (заметно слабее флагманских моделей, заметно сильнее мини-моделей), но при этом ппц быстрее: улучшена вся latency-цепочка: −80% roundtrip overhead, −30% per-token overhead, −50% time-to-first-token (для WebSocket).
пока превью только для ChatGPT Pro (та, которая 200 баксов).
P.S. у меня пока доступа в Pro нет(
GM! OpenRouter, платформа для унификации LLM, выпустила собственную модель с контекстом в миллион токенов, ориентированную на кодинг. (а выпускают ли сейчас другие модели 🤔)
Доступ к модели открыт всем и она абсолютно бесплатна — https://openrouter.ai/openrouter/quasar-alpha
Пока X, как всегда, пестрит восторженными отзывами («DeepSeek moment», «Very exciting model»), меня больше волнует вопрос конфиденциальности. Откуда у OpenRouter, простого аггрегатора, датасеты для моделей? Почему модель полностью бесплатна? Нет ли ощущения, что команда просто аггрегировала все поступающие через них запросы и ответы других модель и когда датасет достаточно сформировался, решили обучить свою модель?
Google DeepMind рассказывали (https://arxiv.org/abs/2404.07503) о возможности обучения моделей на синтетических данных (как это делал Deepseek)
Еще один пример бесплатного доступа к AI — Trae от создателей тиктока Bytedance. Только недавно кибер-ресерчеры обнаружили (https://www.securitylab.ru/news/557939.php), что Trae собирает уж слишком много данных у пользователя. Зачем они это делают — вопрос на подумать
Как обучить Claude Code или Cursor тому, что .env файл не надо читать не при каких условиях? Пока все обезопашивают доступ к bash командам — для read функций практически никакие LLM не запрашивают доступа
Давайте думать! Подсказывайте, че вы данные то собираете наши 😶
вы не поверите, но чатгпт объяснил мне, что сидеть на диване с тахикардией после 2 банок редбулла - это не кардио-тренировка 😼
но в целом - вайб "раньше консультации такого уровня стоили 20-30к в EMC, а сейчас я получаю их аналог быстрее, дешевле и даже с большей внимательностью к деталям". к примеру, расследуя гормональный сбой (штука, которую я пытаюсь расследовать уже ~10 лет), он заметил, что у меня вообще-то недалеко преддиабет (2 диабета в семейном анамнезе, и инсулин 12-16 последние 4 года).
в целом, если вы ипохондрическая булочка или у вас нет хоть какого-нибудь самого начального био/мед бекграунда - лучше читать все рекомендации chatgpt with a huge grain of salt, и лучше пропускать их все через адекватного врача в адекватной клинике (привет, Чайка/Скандинавия).
но в остальном: ~80 анализов крови с ~500-600 data point'ами умещаются в < 10% контекста ChatGPT, и получить такой уровень внимания сразу ко всем деталям одновременно - это очень сочный юзкейс, который с трудом достижим для обычного человека.
P.S. ChatGPT Pro - мне прям нравится. хороший аналог deep research, только по ощущениям - чекает больше источников, и вместо полотен текста выдаёт довольно упакованные блоки информации.
Провел часть выходных в обнимку с ChatGPT и Claude в надежде получить тул, который бы секвенцию ACEScg exr переводил в sRGB анимированный gif. Зачем такая задача человеку в конце 2024го? Потому что Miro в 2024м не поддерживает импорт mp4 на доски 🤦🏻♂️ Ллмки как всегда - работаешь с гениальными идиотом, 30 итераций правок на мелких очевидных для человека косяках, но все равно получается быстрее, чем я бы написал сам.
Смешное оказалось в самом конце, когда все заработало кроме правильного цвета - в отличие от уверенного в своей правоте GPT, в документации ffmpeg не упоминается нормальной поддержки ACES. Так что его фантазии по поводу параметров командной строки ffmpeg как-то проигнорировал 😂
Я в результате там же где был в самом начале. Нужен простой тул, который бы в идеале просто по right-click меню внутри папки конвертировал ACEScg exr секвенцию в ней в gif. Кто-нибудь натыкался на такое?
оцифровал все анализы за 10 лет в json, потом его же попросил привести все названия и единицы измерения к одному виду
давняя мечта была достигнута за час работы с codex
сейчас конвертну в markdown, зашвырну в ChatGPT Pro, и попрошу подобрать мне идеальное ширево под моё состояние 🙂
Самое ужасное, что я встречаю в современных студентах - молчание
Абсолютно нормально, когда преподаватель дает что-то, что слишком сложное и непонятное. Причин этому может быть множество:
* искаженное восприятие сложности преподавателем ("да это легкотня") * некорректно выданная ему информация о том, что студенты уже знают/умеют (причём это может быть не обман а заблуждение - к примеру учебная часть искренне верит что они знают Х потому что у них был курс Y) * нюансы того как материал преподносится (к примеру для примеров используются отсылки к языку программирования X, с которым у студентов есть опыт, но чисто формальный) * еще 100500 причин
Проблема в том, что без активной коммуникации "мне непонятно" у преподавателя почти нет шансов отследить это. Казалось бы - в чём проблема? Для этого придумали давно опросы и так далее. Вот только все эти опросы разбиваются о реалии удалёнки:
* Задавая вопросы "в никуда" ты получаешь ответы от процента активных студентов (тех условно 20% что разобрались бы и без тебя) * Выцепляя "конкретных студентов" (вспоминаем школьное "К доске пойдёт....") - ты услышишь 100500 оправданий (сейчас в машине, с телефона и так далее) почему студенту неудобно, которые ты не сможешь провалидировать * Делая письменные задания ты получишь симбиоз ответов от ChatGPT и реальных знаний студентов, а задавать вопросы на которые ChatGPT не способна ответить на этом этапе еще нельзя - ты проверяешь БАЗОВОЕ понимание БАЗЫ
Вот и получается, что "боязнь" показаться "глупым" приводит к вот этому трудно отслеживаемому разрыву в понимании и атмосфере гнетущего молчания, которая всё убивает Особенно тяжело у меня это ощущается с 4 курсом (у меня 2 и 4) - всё потому что (очевидно) "базы" на которую мне надо расчитывать у четвёртого должно быть кратно больше чем у второго курса
Все говорят про вайб-кодинг, но никто не говорит про вайб-аналитику
За выходные собрал себе на Metabase дашборд, который подключается к PostgreSQL базе (ее же использует Replit) и выводит разные графики и показатели.
Разумеется, я даже не знал, что такое Metabase и как им пользоваться, мне всё рассказал ChatGPT. Он же пишет мне нужные SQL запросы, когда я хочу вывести тот или иной показатель.
Раньше:
⁃ Могу анализировать данные в Google Sheets с помощью сводных таблиц ⁃ Могу использовать готовые дашборды в PowerBI/Datalens, который собрали разработчики.
Теперь:
⁃ Могу сам собрать любой дашборд, подключившись к базе напрямую ⁃ Могу запилить скрипт, который эту базу еще и пополняет внешними данными из других систем (например, из Stripe)
Это ли не фантастика?
слушайте, как люди вообще ChatGPT пользуются? я не понимаю, что за волшебную лампу с джином открыли когда-то в Anthropic, но то, насколько у них instruction-following сильнее, чем где-либо вообще в принципе - это же неописуемо. ну то есть GPT-5.1 в ChatGPT игнорирует базовые, самые элементарные требования и правила, steering совершенно нулевой, я как будто общаюсь не с instruct моделью, а с сырой фундаментальной моделью, она вообще не вдупляет что происходит. и agentic capabilities порезаны донельзя - у модели и Canvas-режим в тулах есть, и websearch она может делать, но workflow прибит гвоздями настолько, что увидеть tool call от ChatGPT не в начале диалога - это чудо какое-то.
и Gemini такой же альтернативно одарённый. сносно вывозит делать UI (именно с точки зрения визуала), но качество архитектуры и instruction following - как у пятилетнего ребёнка. вместо тулколла сделать "эмуляцию" туллколла, нагаллюцинировав его - вообще спокойно.
ну то есть, это же прям реально интересно, вам не кажется? Anthropic ещё с Sonnet 3.5 снесли всех на рынке качеством агентского поведения. я по сей день в гипер-супер-пупер-флагманских моделях от других гигантов не вижу даже трети того качества агентского поведения, какое есть у Anthropic.
отдельно в контексте day-to-day usage интересно сравнивать собственные ощущения с бенчами. по субъективным ощущениям - за год у Anthropic и китайских моделей качество выросло в разы, это реально земля и небо. а у OpenAI/Google - ваще хз, в каком таком SWE Verified они там лидируют, но я не смогу GPT-5.1 от GPT-4o отличить, в повседневных задачах интеллект как будто не вырос ни на миллиметр.
Попробовал переписать с OpenAI API SDK на LangChain (говорят это база) и... что-то не понял. Абстракции они же должны вроде как сложность скрывать, но сложности в OpenAI Chat Completions API никакой (зря что ли ребята в Open AI потратили всего одни выходные чтобы его создать). А вот приносимой боли в дебаге немало — добраться до того, что там на самом деле происходит будет уже непросто.
Самое смешное, что claude code на вопрос «давай накинем дебага и узнаем, как там залетают в апи тулы» предложил мне просто переписать на OpenAI API SDK, потому что тот объём шума, который вываливает env LANGCHAIN_VERBOSE = "true"; он переварить не способен.
Да, есть LangSmith, но это уже какой-то оверкилл подрубать внешний платный SaaS-сервис для дебага обёртки над простеньким api.
В то же время вызов OpenAI API SDK элементарно превращается в обычный curl запрос, который ты можешь приложить к тикету в саппорт, если сам не разобрался.