ChatGPT vs DeepSeek

Страница 2 из 16

partially unsupervised6 апреля 2023 г.9.2K просмотров

Вчера летел ранним рейсом в шесть утра, и в самолете сонно писал очередную главу для книги (кстати, надеюсь, что в течение месяца первые главы будут доступны в early access). У меня не было иллюзий, что текст будет качественным: план я набросал раньше, но согласованность предложений, грамматика и общий стиль явно страдали от депривации сна.

С другой стороны, в 2023 good prompt is all you need (хотя некоторые ресерчеры не согласны). Значит, можно взять главу, разбить на части, и отправить их на GPT-корректуру. Понадобилось несколько уточнений в промпте, чтобы "корректор" не становился "редактором": был не слишком активным в изменениях, чистил фигню, но более или менее сохранял стиль.

Но ведь хороший редактор это тоже полезно! Только если правки корректора можно принимать практически не глядя, то замечания редактора - это как комментарии на code review, над ними нужно подумать, но далеко не на все нужно реагировать изменениями. Значит, надо усовершенствовать промпт: ...If there is a statement that seems to be wrong, suggest a detailed comment in a square brackets, e.g. [This might be wrong because ...], and keep the sentence as is.

Для теста добавил в часть про training pipeline такое:

...Using training pipeline is dangerous as it could be poisonous. There are 1 million people who died from poisonous training pipelines.

На выходе:

...[The statement "Using training pipeline is dangerous as it could be poisonous. There are 1 million people who died from poisonous training pipelines." seems to be incorrect and irrelevant to the topic. Please consider removing it.]

Теперь хочется прогнать через GPT-редактора и написанные ранее главы; вдруг найдется где-то полная дичь.

Kostya Gorsky’s Channel25 сентября 2025 г.9.1K просмотров

И ещё в одной раздаче полезностей участвую!

Мы сделали подборку материалов, смотрите-ка:

Гайд «Как сделать процесс собеседований в 2 раза эффективнее с помощью AI» AI-тулзы и конкретные примеры промптов для LLM, чтобы ускорить принятие решений и снизить риск ошибочного найма - Это наш гайд, который мы сделали в hirehire

Как за 120 минут найти свою ЦА и упаковать ТГ канал с помощью ИИ - Он будет ПОЛНОСТЬЮ готов к продажам и новой аудитории - Автор: Ник Корытин @nmiacm — экс-маркетолог Блиновской, владелец самого большого ТГ канала про смыслы в маркетинге

Мини-курс: 6 AI-агентов и фреймворков, которые могут заменить отдел маркетинга — от исследований до создания фабрики контента – Агент для создания лаборатории креативов, агент для поиска и отслеживания трендов, агент для создания контент-завода – Фреймворки и инструкции для проведения исследований с ChatGPT, для работы с разными LLM генерации крутых видео-креативов на VEO-3 - Автор: Роман Кумар Виас @solokumi — co-founder Refocus (#1 образовательный продукт в мире по версии Product Hunt), ex-CMO Qlean, ex-co-founder Qmarketing Academy (куплена Skyeng в 2021)

Мастер-класс по запуску SaaS-продуктов: пошаговая схема и примеры работы – Как найти идею для своего проекта – Где брать трафик и первых пользователей - Автор: Михаил Табунов @bossofyourboss — интернет-предприниматель, основатель Post Punk Publishing, Пакт, Coub (YC 2016)

Личные хаки по работе с информацией: где брать идеи, как быстро находить и систематизировать информацию Система для эффективной работы с сотней источников информации, чтобы не теряться в них и быстро находить нужные факты. - Автор: Алексей Подклетнов @fichism — бизнес-стратег, автор каналов «Дизраптор» и «Фичизм»

Гайд "Как нанимать правильных людей" Пошаговый процесс построения воронки найма для любых позиций, который поможет сократить время закрытия вакансий, повысить качество найма и снизить долю ошибочных офферов. - Автор: Арина Хромова @aakhromova — co-founder careerspace.app, Forbes «30 до 30»

Ещё и бонусы есть: - Топ 5 идей для AI пет-проектов, которые можно запилить, работая по вечерам - Пошаговая инструкция для обучения и прокачки своих навыков с ChatGPT

Материалы можно забрать только до конца сентября вот тут в боте

ElKornacio26 декабря 2025 г.8.3K просмотров

в общем, расскажу, зачем купил эти смарт-часы.

я давно хочу себе умное кольцо. но не то, которое хреново измеряет мой пульс и напоминает лишний раз о том, как ужасно я сплю. а такое, чтобы стало универсальным интерфейсом управления любым устройством в моей жизни.

я хочу направлять руку на телевизор, делать свайп большим пальцем по кольцу на указательном, и переключать ролик. направлять её на кондиционер, и тапом большого пальца по кольцу включать его. направлять руку на свет, свайпами снижать яркость. гуляя по улице в наушниках, с рукой в кармане, свайпами по кольцу управлять громкостью/переключать треки.

не вдаваясь в большие детали, у кольца главная проблема - очень-очень-очень маленькая батарейка, которую надо экономить изо всех сил. поэтому смарт-часы выступают хабом, который процессит всю логику (и имеет норм батарейку), а само кольцо - просто посылает сигналы на часы в моменты, когда я что-то на кольце тыкаю. в режиме "энергия кольца тратится на мгновение, когда я нажимаю на кнопку" оно может работать годами.

поэтому мне нужен low-level доступ к пинам часов - чтобы распаять туда кастомный 433MHz ресивер, и написать мини-драйвер для приема сигналов с кольца. если всё сложится удачно - попробую собрать прототип всего этого дела на новогдних праздниках 🙂

melikhov.dev28 августа 2025 г.7.9K просмотров

Если первые впечатления от того же Cursor были отвратительными, то сейчас он уже как-то подуспокоился в своём стремлении делать YOLO и может предоставить сравнимый с Roo опыт постепенного продвижения по задаче. При этом, конечно, в более приятном интерфейсе (те же диффы изменений выглядят гораздо наглядней, чем в Roo).

И значительный плюс, что можно вносить правки в диффы налету — Roo от такого с ума сходит и пытается вернуть файл в то состояние, в котором он его запомнил. Понятное ограничение экстеншена, но всё же. Нам же код писать, а не экстеншены прощать.

В целом и там, и там можно работать с одинаковой эффективностью. А вот вопрос стоимости сложный, понятно, что в чистом виде Cursor будет дешевле, но кто ж знает, к каким моделям у вас есть доступ? У меня вот Roo смотрит в «бесплатный» развёрнутый внутри DeepSeek и платный Claude. Щёлкаю под задачу и наличие денег на счету.

Сама по себе работа в паре с AI (то, что пытались зафорсить как DeepCoding в противовес VibeCoding, но, кажется, не прижилось) неплохо так прокачивает скиллы код-ревью. Я (как типичный IC) редко работаю над кодом в команде, и вот тут второй пилот вернул забытые ощущения и позволяет держать ритм.

Продолжаю радоваться, что дожил до такого.

partially unsupervised30 декабря 2022 г.7.8K просмотров

Для тех, кто предпочитает аудиовизуальный контент, а не эту всю писанину: поговорили с Антоном, одним из самых крутых инженеров и спикеров в русскоязычной computer vision тусовке. Обсудили Copilot, chat GPT и прочие LLM-based инструменты, и как они могут повлиять на околоDS карьеры.

melikhov.dev16 мая 2025 г.7.7K просмотров

Все побежали и мы побежали

Ну как, выбор между Roo и Cline сделали? На Claude, небось? Мемори банки собрали? В своей продукт добавили агента? А моделька в продукте у вас какая — Qwen или DeepSeek? Как так нет локальной модели, а куда вы будете грузить пользовательские данные? А как тюнили под задачи, RAG? А MCP-сервер уже запилили? В опенсорс его закинули?

Что ж так быстро-то всё меняется, выдохнуть некогда. Архитектуркой бы позаниматься, долги позакрывать. Но некогда. Рынок требует AI. Надо пережить эту волну, но кто бы знал, какая будет следующая.

xanf.dev15 ноября 2024 г.7.6K просмотров

Чем дальше тем больше прихожу к выводу что идея "запись лекции будет доступна" именно для высшего образования - зло

Студент такой "да не буду напрягаться-вовлекаться - посмотрю потом или если что будет непонятно пересмотрю"

Преподаватель такой "да зачем готовить сопровождающие материалы, будет видео запись - вот и материал"

В идеале вообще с приходом чатгпт я считаю что формат "лекции" за очень РЕДКИМ исключением должен умереть. Грубо говоря если раньше баланс был 1:1:2 между лекциями-практикой и лабами, я считаю что формат должен быть 10% лекций, 60% практик когда ты вызываешь студента "к доске" и вы вместе решаете задачи - они нужны для борьбы с синдромом "все понятно" и 30% office hours - фактически "консультаций" когда можно прийти с любой проблемой

Ну и конечно "лекционный материал" в виде учебников и методичек + ИИ как первый оплот ответов на вопросы

ElKornacio4 декабря 2025 г.7.5K просмотров

чтоб вы понимали, я отчаялся настолько, что пишу статьи, то есть просто текст ✨В КУРСОРЕ ✨. даже сделал себе отдельный суперкодовский кастом-мод с системным промптом на 3 листа А4, лол, который считает себя копирайтером по конкретной теме.

потому что там я раз в 5 лучше результат получаю, чем в ChatGPT / AI Studio, при использовании тех же моделей.

я кекал с историй, что некоторые ребята Курсор используют как универсальную агентскую среду, без привязки к задачам разработки, а вот теперь что-то даже и не смешно. мб tavily туда через mcp затащить, и вообще забыть про chatgpt навсегда

P.S. нет, ну вот прям серьёзно - тулинг дико решает. ChatGPT запрос "отредактируй только второй абзац, не трогай первый" - не может решить, переделывает текст в первом. а в Cursor модель просто дёргает тул search_replace (дефолтный тул для редактирования кода в Курсоре) - и идеально исправляет только то, что надо, ещё и токены экономит. кайф.

ElKornacio8 декабря 2025 г.7.4K просмотров

Вышло масштабное исследование от a16z и OpenRouter про то, как люди реально используют LLM. Проанализировали 100 триллионов токенов* за год.

* 1 токен ≈ 4 символа или ≈ 0,75 слова. То есть 100 токенов — это примерно 75 слов, а 100 трлн токенов — 75 трлн слов. В Библии ≈ 783 000 слов, то есть в исследовании OpenRouter проанализировали массив из 100 млн Библий.

OpenRouter — это агрегатор доступа к LLM-моделям. Через один API можно подключиться к сотням моделей от разных провайдеров: OpenAI, Anthropic, Google, DeepSeek, Qwen и прочим. Популярен среди разработчиков, потому что позволяет легко переключаться между моделями и сравнивать их. Через них проходит огромный поток запросов. Отсюда и уникальные данные для исследования.

— Главный сюрприз: больше половины использования open-source моделей — это ролевые игры и сторителлинг. Не код, не рабочие задачи, а общение с игровыми персонажами и сочинение историй (storytelling). Кто бы мог подумать, что индустрия в триллионы долларов во многом держится на том, что люди хотят поболтать с виртуальным другом.

— Open-source модели уже занимают 30% рынка. Год назад было меньше 10%. DeepSeek и Qwen растут как бешеные.

— Программирование — второй по популярности кейс. При этом 60%+ всех запросов на код идут через Claude от Anthropic. Sonnet доминирует.

— Половина всех токенов теперь проходит через reasoning-модели (o1 и аналоги). Модели перестали просто генерировать текст. Они думают, планируют, используют инструменты.

— Азия выросла с 13% до 31% всего потребления. Китай стал не только производителем моделей, но и крупнейшим потребителем после США.

— Цена слабо влияет на спрос. Люди готовы платить премиум за качество. Claude дороже конкурентов, но его используют больше всех для серьёзных задач.

— Интересный феномен «стеклянной туфельки» (Glass Slipper): если модель при первом использовании идеально подошла под чью-то задачу, пользователи остаются с ней навсегда. Первый, кто решил проблему, забирает лояльность.

— Из неожиданного: маленькие модели (<15B параметров) теряют долю рынка. Победителями становятся средние модели (15-70B) — оптимальный баланс цены и качества.

Полный текст исследования на 36 страниц в приложении, там же методология исследования.

@buzko_hub

ElKornacio26 декабря 2025 г.7.1K просмотров

только что приехала доставка, максимальный вайб подарка от деда мороза 🎄

- diy смарт-колонка с микрофонами, динамиком, bt/wifi/rbg и аккумом - и diy смарт-часы с тем же набором + touch amoled экраном

самое главное... они полностью программируемые (esp32). то есть я буквально с нуля могу собрать их операционки. не просто писать на них приложения, а иметь низкоуровневый доступ к каждому датчику, каждому порту, программировать их поведение как хочу, припаять что хочу.

с колонкой всё очевидно - накачу туда whisper + gpt, и сделаю не-умственно-отсталую версию Алисы. а вот с часами идей масса.

что бы сделали вы?

P.S. по просьбам трудящихся, кинул ссылки в комменты

ElKornacio27 января 2026 г.7.0K просмотров

давайте коротко пробежимся по новостям 😼

1. https://www.kimi.com/blog/kimi-k2-5.html Kimi K2.5 с заточкой на "рои агентов" aka "натренировали запускать параллельных агентов на каждый чих" aka "agent swarm". по бенчам лучше Opus 4.5, хуже GPT-5.2-xhigh, кроме кодинга - там хуже и тот и того (правда, отрыв не радикально большой). Swarm - это интересно, и потенциально многообещающе, но думаю сильно будет упираться в тулинг ещё несколько месяцев. посмотрим, как стрельнёт на практике.

2. https://openai.com/index/introducing-prism/ OpenAI выкатили веб-апп Prism - редактор научных текстов с поддержкой LaTeX из коробки. UI чем-то напоминает Cursor-like приложения - диффы, где вы можете принимать/откатывать отдельные правки, возможность сразу смотреть отрендеренный документ, доступ к поиску и так далее. выглядит приятно, но я совсем не ЦА.

3. https://huggingface.co/deepseek-ai/DeepSeek-OCR-2 DeepSeek выкатили модель OCR-2. вместо CLIP юзают Qwen2 как Vision Encoder. у меня нет особых сомнений, что с задачами OCR оно будет справляться отлично (современные multi-modal модели это доказывают), но у меня большие сомнения, как оно будет справляться с visual prompt injections - кажется, что использование LM под капотом может быть к таким штукам очень уязвимо. энивей, интересно - несмотря на то, что у крупных моделей уже очень хорошее зрение и распознавание текста, юзать многие из них в проде из-за инъекций страшновато, поэтому появление новых моделей на эту тему выглядит как минимум интересно.

-- хорошего вечерочка! а я снова прибаливаю - никогда не целуйте людей с гастро-вирусами, даже если они очень соблазнительные 🙂

ElKornacio12 февраля 2026 г.6.6K просмотров

⚡️ https://openai.com/index/introducing-gpt-5-3-codex-spark/

ну и ещё одна сочная новость как результат коллабы OpenAI и Cerebras: новая модель на базе 5.3-Codex, > 1000 токенов в секунду (примерно в 5 раз быстрее классической).

контекст - 128k, пока только текст.

на SWE-Bench Pro и Terminal-Bench 2.0 показывает сильные результаты (заметно слабее флагманских моделей, заметно сильнее мини-моделей), но при этом ппц быстрее: улучшена вся latency-цепочка: −80% roundtrip overhead, −30% per-token overhead, −50% time-to-first-token (для WebSocket).

пока превью только для ChatGPT Pro (та, которая 200 баксов).

P.S. у меня пока доступа в Pro нет(

dev.insuline.eth4 апреля 2025 г.6.5K просмотров

GM! OpenRouter, платформа для унификации LLM, выпустила собственную модель с контекстом в миллион токенов, ориентированную на кодинг. (а выпускают ли сейчас другие модели 🤔)

Доступ к модели открыт всем и она абсолютно бесплатна — https://openrouter.ai/openrouter/quasar-alpha

Пока X, как всегда, пестрит восторженными отзывами («DeepSeek moment», «Very exciting model»), меня больше волнует вопрос конфиденциальности. Откуда у OpenRouter, простого аггрегатора, датасеты для моделей? Почему модель полностью бесплатна? Нет ли ощущения, что команда просто аггрегировала все поступающие через них запросы и ответы других модель и когда датасет достаточно сформировался, решили обучить свою модель?

Google DeepMind рассказывали (https://arxiv.org/abs/2404.07503) о возможности обучения моделей на синтетических данных (как это делал Deepseek)

Еще один пример бесплатного доступа к AI — Trae от создателей тиктока Bytedance. Только недавно кибер-ресерчеры обнаружили (https://www.securitylab.ru/news/557939.php), что Trae собирает уж слишком много данных у пользователя. Зачем они это делают — вопрос на подумать

Как обучить Claude Code или Cursor тому, что .env файл не надо читать не при каких условиях? Пока все обезопашивают доступ к bash командам — для read функций практически никакие LLM не запрашивают доступа

Давайте думать! Подсказывайте, че вы данные то собираете наши 😶

ElKornacio9 февраля 2026 г.6.5K просмотров

вы не поверите, но чатгпт объяснил мне, что сидеть на диване с тахикардией после 2 банок редбулла - это не кардио-тренировка 😼

но в целом - вайб "раньше консультации такого уровня стоили 20-30к в EMC, а сейчас я получаю их аналог быстрее, дешевле и даже с большей внимательностью к деталям". к примеру, расследуя гормональный сбой (штука, которую я пытаюсь расследовать уже ~10 лет), он заметил, что у меня вообще-то недалеко преддиабет (2 диабета в семейном анамнезе, и инсулин 12-16 последние 4 года).

в целом, если вы ипохондрическая булочка или у вас нет хоть какого-нибудь самого начального био/мед бекграунда - лучше читать все рекомендации chatgpt with a huge grain of salt, и лучше пропускать их все через адекватного врача в адекватной клинике (привет, Чайка/Скандинавия).

но в остальном: ~80 анализов крови с ~500-600 data point'ами умещаются в < 10% контекста ChatGPT, и получить такой уровень внимания сразу ко всем деталям одновременно - это очень сочный юзкейс, который с трудом достижим для обычного человека.

P.S. ChatGPT Pro - мне прям нравится. хороший аналог deep research, только по ощущениям - чекает больше источников, и вместо полотен текста выдаёт довольно упакованные блоки информации.

Being Danil Krivoruchko18 ноября 2024 г.6.3K просмотров

Провел часть выходных в обнимку с ChatGPT и Claude в надежде получить тул, который бы секвенцию ACEScg exr переводил в sRGB анимированный gif. Зачем такая задача человеку в конце 2024го? Потому что Miro в 2024м не поддерживает импорт mp4 на доски 🤦🏻‍♂️ Ллмки как всегда - работаешь с гениальными идиотом, 30 итераций правок на мелких очевидных для человека косяках, но все равно получается быстрее, чем я бы написал сам.

Смешное оказалось в самом конце, когда все заработало кроме правильного цвета - в отличие от уверенного в своей правоте GPT, в документации ffmpeg не упоминается нормальной поддержки ACES. Так что его фантазии по поводу параметров командной строки ffmpeg как-то проигнорировал 😂

Я в результате там же где был в самом начале. Нужен простой тул, который бы в идеале просто по right-click меню внутри папки конвертировал ACEScg exr секвенцию в ней в gif. Кто-нибудь натыкался на такое?

ElKornacio7 февраля 2026 г.6.2K просмотров

оцифровал все анализы за 10 лет в json, потом его же попросил привести все названия и единицы измерения к одному виду

давняя мечта была достигнута за час работы с codex

сейчас конвертну в markdown, зашвырну в ChatGPT Pro, и попрошу подобрать мне идеальное ширево под моё состояние 🙂

xanf.dev17 октября 2024 г.6.1K просмотров

Самое ужасное, что я встречаю в современных студентах - молчание

Абсолютно нормально, когда преподаватель дает что-то, что слишком сложное и непонятное. Причин этому может быть множество:

* искаженное восприятие сложности преподавателем ("да это легкотня") * некорректно выданная ему информация о том, что студенты уже знают/умеют (причём это может быть не обман а заблуждение - к примеру учебная часть искренне верит что они знают Х потому что у них был курс Y) * нюансы того как материал преподносится (к примеру для примеров используются отсылки к языку программирования X, с которым у студентов есть опыт, но чисто формальный) * еще 100500 причин

Проблема в том, что без активной коммуникации "мне непонятно" у преподавателя почти нет шансов отследить это. Казалось бы - в чём проблема? Для этого придумали давно опросы и так далее. Вот только все эти опросы разбиваются о реалии удалёнки:

* Задавая вопросы "в никуда" ты получаешь ответы от процента активных студентов (тех условно 20% что разобрались бы и без тебя) * Выцепляя "конкретных студентов" (вспоминаем школьное "К доске пойдёт....") - ты услышишь 100500 оправданий (сейчас в машине, с телефона и так далее) почему студенту неудобно, которые ты не сможешь провалидировать * Делая письменные задания ты получишь симбиоз ответов от ChatGPT и реальных знаний студентов, а задавать вопросы на которые ChatGPT не способна ответить на этом этапе еще нельзя - ты проверяешь БАЗОВОЕ понимание БАЗЫ

Вот и получается, что "боязнь" показаться "глупым" приводит к вот этому трудно отслеживаемому разрыву в понимании и атмосфере гнетущего молчания, которая всё убивает Особенно тяжело у меня это ощущается с 4 курсом (у меня 2 и 4) - всё потому что (очевидно) "базы" на которую мне надо расчитывать у четвёртого должно быть кратно больше чем у второго курса

Ночной Писаревский23 июня 2025 г.6.0K просмотров

Все говорят про вайб-кодинг, но никто не говорит про вайб-аналитику

За выходные собрал себе на Metabase дашборд, который подключается к PostgreSQL базе (ее же использует Replit) и выводит разные графики и показатели.

Разумеется, я даже не знал, что такое Metabase и как им пользоваться, мне всё рассказал ChatGPT. Он же пишет мне нужные SQL запросы, когда я хочу вывести тот или иной показатель.

Раньше:

⁃ Могу анализировать данные в Google Sheets с помощью сводных таблиц ⁃ Могу использовать готовые дашборды в PowerBI/Datalens, который собрали разработчики.

Теперь:

⁃ Могу сам собрать любой дашборд, подключившись к базе напрямую ⁃ Могу запилить скрипт, который эту базу еще и пополняет внешними данными из других систем (например, из Stripe)

Это ли не фантастика?

ElKornacio4 декабря 2025 г.6.0K просмотров

слушайте, как люди вообще ChatGPT пользуются? я не понимаю, что за волшебную лампу с джином открыли когда-то в Anthropic, но то, насколько у них instruction-following сильнее, чем где-либо вообще в принципе - это же неописуемо. ну то есть GPT-5.1 в ChatGPT игнорирует базовые, самые элементарные требования и правила, steering совершенно нулевой, я как будто общаюсь не с instruct моделью, а с сырой фундаментальной моделью, она вообще не вдупляет что происходит. и agentic capabilities порезаны донельзя - у модели и Canvas-режим в тулах есть, и websearch она может делать, но workflow прибит гвоздями настолько, что увидеть tool call от ChatGPT не в начале диалога - это чудо какое-то.

и Gemini такой же альтернативно одарённый. сносно вывозит делать UI (именно с точки зрения визуала), но качество архитектуры и instruction following - как у пятилетнего ребёнка. вместо тулколла сделать "эмуляцию" туллколла, нагаллюцинировав его - вообще спокойно.

ну то есть, это же прям реально интересно, вам не кажется? Anthropic ещё с Sonnet 3.5 снесли всех на рынке качеством агентского поведения. я по сей день в гипер-супер-пупер-флагманских моделях от других гигантов не вижу даже трети того качества агентского поведения, какое есть у Anthropic.

отдельно в контексте day-to-day usage интересно сравнивать собственные ощущения с бенчами. по субъективным ощущениям - за год у Anthropic и китайских моделей качество выросло в разы, это реально земля и небо. а у OpenAI/Google - ваще хз, в каком таком SWE Verified они там лидируют, но я не смогу GPT-5.1 от GPT-4o отличить, в повседневных задачах интеллект как будто не вырос ни на миллиметр.

melikhov.dev2 ноября 2025 г.5.9K просмотров

Попробовал переписать с OpenAI API SDK на LangChain (говорят это база) и... что-то не понял. Абстракции они же должны вроде как сложность скрывать, но сложности в OpenAI Chat Completions API никакой (зря что ли ребята в Open AI потратили всего одни выходные чтобы его создать). А вот приносимой боли в дебаге немало — добраться до того, что там на самом деле происходит будет уже непросто.

Самое смешное, что claude code на вопрос «давай накинем дебага и узнаем, как там залетают в апи тулы» предложил мне просто переписать на OpenAI API SDK, потому что тот объём шума, который вываливает env LANGCHAIN_VERBOSE = "true"; он переварить не способен.

Да, есть LangSmith, но это уже какой-то оверкилл подрубать внешний платный SaaS-сервис для дебага обёртки над простеньким api.

В то же время вызов OpenAI API SDK элементарно превращается в обычный curl запрос, который ты можешь приложить к тикету в саппорт, если сам не разобрался.