Дратути Антон

@blog_toxa·Фаундер

AI-саммари

Несколько месяцев отмахивался от вайбкодинга — а потом потратил выходные, признал: работает. За 20 минут в Claude Code разгрёб 100+ задач в Todoist, которые не мог разобрать неделями. Самый болезненный инсайт: перестроиться с «дообучи модель под задачу» на «задай поведение промптом» — неожиданно сложно, когда годами жил в парадигме файн-тюнинга. Показателем того, насколько освоился, стал мартовский эпизод: опубликовал на прод код от агента, не посмотрев на изменения. Профессионально строит VLM и OCR-системы в Яндексе — его команда отвечает за распознавание текста в моделях, работающих в Алисе, Умной камере и Маркете. В личном воркфлоу — Claude Code с командным режимом агентов и sub-агентами.

ChatGPT Claude DeepSeek-OCR

22 октября 2025 г.3.3K просмотров

Подкидываю идею ризонинг цепочек для задач на код

20 октября 2025 г.3.1K просмотров

llm-as-a-judge

Ни для кого не секрет, что LLM достаточно часто использую в качестве судьи. Это очень удобно: можно оценивать произвольный вход, делать бинарные или численные оценки, просить LLMку объяснить своё решение. Но есть и нюансики 👨‍🦳.

Зачастую, когда мы только начинаем разрабатывать бенчмарки, то судьи выдают качество 60-70%. Это крайне низкое качество, с которым замеряться нет смысла. Это ни плохо, ни хорошо — просто факт.

Из опыта хороший судья — дообученная LLMка на задачу оценки 🤓. Да, конечно, можно запромптить модель, и если у неё OOD +- ок, то вероятно, промпт поможет выжать качество до 90%+. Но ни разу не видел качество выше 95%, что может быть критично для маленьких бенчей (где доверительный интервал супер широкий).

Но даже если обучили судью — иногда это оборачивается коллапсом невероятного масштаба ❓. Если ваша модель стала отвечать сильно по другому, отлично от всего того, что вы видели раньше (естественно, не только на своих моделях), то неожиданно судья начинет... галлюцинировать.

И жизнь MLщика устроена таким образом, что он не будет в каждом эксперименте проверять выходы модели на десятках бенчмарков. Ну просто потому что бенчмарки созданы чтобы в том числе как-то упрощать работу (ну и для оценки качества, естесна). А потому однажды в какой-то момент ты можешь понять, что у тебя чего-то развалилось просто в бенчмарке (обычно сильно позже, чем хотелось бы).

Потому я предпочитают рядом с llm-as-a-judge держать какую-то dummy метрику, которая является градусником 🤨. Она не не показывает действительную картину, но является неплохой апроксимацией. Например, когда нужно в тексте что-то проверить, то можно написать dummy парсер и сравнивать ANLS. Будет работать криво/косо, но работать. Главное чтобы метрика корреллировала с судьёй.

В этом случае появляется отличный градусник, который показывает, что судья-то ненастоящий 🏥!

А что вы думаете про LLM-оценщиков?

26 сентября 2025 г.2.7K просмотров

VLM на PML

Простите, я сегодня разошёлся в постах, но дело безотлагательное 😍. У нас завтра состоится PML. Белой завистью завидую тем, кто будет оффлайн — мы (как программный комитет) и организаторы подготовили для вас очень классную программу!

Но сейчас не об этом. Практически в самый последний момент к нам в онлайн секцию залетел Даня Кашин. Это мегакрутой человечек, который руководит командой претрейна VLM и он расскажет в 13:45 про "практические аспекты претрейна мультимодальных LLM"!

Я слушал этот доклад — и это было сочно 🌿! Лишь малая часть инфы для вас не будет новой, если слушали мои доклады на разных конференциях, будет много нового и полезного (чего мы наделали за последнее время).

Ну а еще спалим некоторые наши чиселки 🔼!

Если не регистрировались, срочно делайте это здесь (доступен только онлайн): https://pmlconf.yandex.ru/2025/

Ну, а если зарегистрировались на онлайн — приходите слушать всех (ну и Даню в особенности в 13:45 по Мск) 😍!

24 сентября 2025 г.3.9K просмотров

Алиса в телеграме

Фича, которую в том числе мы как сотрудники очень ждали и просили — Алиса в телеграме!

Можете чатиться текстом, можете отправлять картинки и задавать вопросы к ним! На всё это будут отвечать модели, которые мы обучаем внутри🌿!

Огромная работа большого числа команд, ребята всех нас с запуском 👉!

Попробовать можно здесь: @alice_ya_bot

19 сентября 2025 г.3.2K просмотров

В поисках стажёра

Пару дней назад мы к себе в команду начали искать стажёра! В этот раз локация преимущественно в Москве. В прошлый раз через блог мне удалось найти человечка, возможно и в этот раз получится 😍!

Моя команда занимается развитием навыков VLMок, а именно там, где важен текст на изображении. Нет, это не только про то, чтобы распознать текст, но и также понимать его семантику, структуру; отбросить лишнее и оставить только нужное; уметь обработать информацию так, чтобы выдать лучший ответ на задачу 🤓.

Во всяких таких делишках может поучаствовать и наш будущий член команды. Придётся копаться в больших объёмах данных, обучать большие модельки на наших кластерах, возиться с эффективностью вычислений и множество других интересных задач 🌿.

Как итог — результаты нашей работы прямо попадают в мажорные релизы Яндекса 🔼 — Алису, Умную камеру, Нейроэксперта и ещё кучу сервисов. То есть изменения реально почувствуют миллионы пользователей. И это не является какой-то сказкой — это является нашим таргетом.

Если интересно — пиши мне в личку 😍, кидай резюме, я дальше расскажу, что нужно делать. Или пересылай пост друзьям, кому это может подойти 😍

16 сентября 2025 г.3.4K просмотров

Добавляем движений в ваши фотографии

У нас тут в Алисе новая фича прилетела 😍!

Можно сделать видео из фото по вашему промпту. Работает очень просто: добавляете фотку, пишете промпт что сделать надо (либо генерируете его) и видосик готов.

Ребятам из службы, кто делал — огромный респект🤨!

Уже доступно в приложении Алисы на мобилках.

13 сентября 2025 г.3.1K просмотров

big tech night

Вообще я планировал поездить по разным офисам, но что-то мне было так прикольно в нашем офисе (и удобно), что я решил остаться там.

Походил по разным стендам. На стенде нашего бизнес юнита спрашивал ребят, как работают наши же технологии (если что, не все меня узнают, я не то чтобы мегапопулярный человек) — было интересно послушать, как ребята интерпретируют устройство VLM, YandexART, Визуального поиска, OCR (ух, как много у нас в службе делается) 😀!

Походил по разным докладам (совсем чуть-чуть). Я бы не сказал, что был какой-то хардкор, просто обзорные докладики 🤓: — Лёша Гусаков (наш CTO) порассказывал про то, как мы строим современный поисковый и ассистентский стеки, про то, на что обращаем пристальное внимание, да и мемчики, которые в моменте казались багами невероятного масштаба, тоже показал — Дима Иванов (делает SourceCraft), рассказал про тренды инструментов разработки (и немного про факапы компании в этом направлении).

Было невероятное количество активностей 😍. Ребята на стенде инфры рассказывали, как они там запариваются с потоками воздуха, чтобы каждый сантиметрик обдувался эффективно, на стенде Алисы можно было посмотреть, как колоночки выглядят изнутри (кстати, я почему-то никогда не видел). Были всякие VR, DIY, написание кода, экскурсии и чего только не было (киселя, кстати, не было — не шарят).

А еще я всё же успел пообщаться с некоторыми ребятульками: — Одна из N-айтишниц нашла меня и мы классно пообсуждали то, как можно поспевать за трендами в динамично-меняющемся мире ML. Можно было бы сделать подкаст, но кажется не получится из-за новых ограничений — C Руковожопом поразгоняли, почему при росте в большие руководители иногда приходится быть "мудаком".

Конечно, жалко, что я поленился 😍 и не попал в другие офисы , но если вдруг кто был на других площадках — поделитесь, чего как там было!

P.S. в комменты немного фоточек накидаю!

P.P.S. Если вообще заходит такие life вещи, накидайте 🔥 или ❤️, буду понимать, что вам такое заходит. Ну или помидорами закидайте — тож можно! 😀

11 сентября 2025 г.2.3K просмотров

Воу-воу-воу, что-то намечается 🔼

https://github.com/huggingface/transformers/pull/40795

10 сентября 2025 г.3.1K просмотров

ML Тренировки — робототехника

Помню, в прошлом году общался с Радославом (лектор и уже как несколько лет организатор всей программы тренировок по ML), и мы тогда обсуждали, как прошли ML-тренировки. Тогда я задал вопрос, на который в то время я не получил ответ: какая будет следующая тема тренировок? 😍

Ну просто CV было, NLP было, классика была (recsys, кстати не помню, но если чо — Радослав, держи идею 🧠). Ну и чего нового ещё придумать?

Вот в этом году придумали робототехнику! Я сам не разбираюсь в последних трендах этой области, но я посмотрел приглашенных лекторов и практиков — и это классные ребята, они точно чего-то дельное да расскажут 🌿! Ну и Радослав как лектор — вышка.

Думаю, если вам просто интересна сама тема, хотите что-то про RL вспомнить, ну или просто чуть расширить кругозор — приходите на тренировки, они абсолютно бесплатные, и говорят там победителям есть какие-то плюшки 🤨.

В прошлом году, когда я выступал с лекцией про VLM, было неожиданно потом слышать от вообще незнакомных мне людей много приятных слов и о себе, и о тренировках 😍. Не скажу, что это прям кому-то помогло попасть на стажировку или вообще в штат, но тем не менее, некоторых ребят я встречаю в коридорах офисов 🔼!

В этом году у меня не получилось, но думаю, будет не менее круто!

Красивый лендинг здесь: https://yandex.ru/yaintern/training/ml-training

P.S. Первая лекция уже прошла!

8 сентября 2025 г.2.9K просмотров

Широта кругозора

Последние пару недель мне пришлось прыгать между разными задачами разработки в параллель с основными: от фиксов во фронте до ковыряния в бэкенде 🔥. И на этих выходных я поймал себя на мысли, что именно широта кругозора помогла справиться быстрее со всеми проблемами.

В универе я щупал всё подряд: фронт на React+Node, мобилки на Objective-C/Swift, бэкенды на Python, C++ и PHP, разные базы (от MSSQL до Mongo), и даже RabbitMQ зачем-то трогал 😀.

На текущий момент я могу сформировать два утверждения про технологии выше: 1. я не эксперт . Честно, как писать конкретный код для использования фреймворков я забыл; 2. я +- понимаю, зачем всё это нужно;

За второй факт я, собственно, и благодарен себе. Только потрогав технологии, в разных ситуациях, краевых случаях, начинаешь понимать зачем оно нужно. Более того, это позволяет тебе выходить на такой уровень абстрактного мышления, когда тебе в целом всё равно на конкретную реализацию, ты начинаешь понимать как оно работает, просто верхнеуровнево посмотрев на доку (не всегда, но часто) 🌿.

Сейчас всё стало проще, можно спросить у AI-помощников, что лучше заиспользовать, но в основе своей будет поверхностная информация. Но если знаешь, что искать — работа становится значительно быстрее. Я думаю, потратил бы куда больше времени, если помощников не было (как минимум, я очень давно не трогал TypeScript, после Python и С++ немного не привычно было).

Что касается первого факта, то как инженеру, мне, конечно же, очень грустно! Хочется быть экспертным экспертом во всём, но для этого нужно много работать непосредственно с самими технологиями, чего на позиции руководителя не сделаешь. Да и что там говорить, даже на позиции инженера это крайне сложная задача, далеко не каждому под силу осуществить.

Так что, пока есть время (в школе, универе, в свободное время) — щупайте технологии, играйтесь, ломайте. Через пару лет вы скажете себе спасибо 😍!

P.S. Глубина важна. Но широта — это тот навык, который однажды вам поможет решить задачу с большом стеке разнородных технологий.

22 августа 2025 г.4.3K просмотров

Как инферятся LLMки под капотом?

Совершенно случайно наткнулся на блогпост про инференс LLMок. Речь именно про реализацию движка на C++ своими ручками, с использованием CUDA и без каких-либо других сторонних библиотек. Я прочитал пост залпом, объяснения очень понятные и глубокие 🤓.

Всё, конечно, же игрушечное: single batch, single gpu, completion only (без prefill).

В посте идёт повествование про следующие топики: — Пишем наивную реализацию под CPU (и ускоряем за счёт SIMD); — Переносим на CUDA; — Думаем, как работает GPU и ускоряем matmul; — Фьюзим операции и еще ускорения matmul; — Профилируем attention и ускоряем его, включая длинные генерации; — Квантование и какие грабли подкидывает нам nvcc.

Определённо полезно будет тем, кому интересны топик инференса. Мне понравилось то, как автор показывает, что можно использовать различные инструменты профилировки и какие выводы из них можно сделать 🔼. Кайфанул с того, как пришлось упороться, чтобы повторить анролинг для FP16 ядер, по аналогии, как это делает комплиятор для FP32 ядер автоматически (ох уж эта боль) 🏥.

Ссылочка на пост: https://andrewkchan.dev/posts/yalm.html

12 августа 2025 г.2.8K просмотроврепост из Коворкинг Яндекса в ротонде Маяковки

🤖 Делаем универсального мультимодального телеграм-бота на мастер-классе

Если вы вдруг понимаете не все слова в этом заголовке, то ничего страшного: как раз на событии и разберётесь. Обещаем, что интересно будет вне зависимости от уровня подготовки.

План на вечер 19 августа такой:

🔴 Обсуждаем тренды в AI 🔴 Генерируем код-шаблон в YandexGPT 🔴 Делаем иллюстрации и стикеры в Шедевруме 🔴 Интегрируем всю эту красоту в вашего нового телеграм-бота

💫 Готово! Можно пользоваться… и рассказывать всем, что вы умеете вайбкодить.

Вести мастер-класс будут Антон Клочков, который руководит нашей командой распознавания текста в VLM в Яндексе, и Даниил Трабун, ИИ-евангелист, блогер, креативный директор и к тому же экс-яндексоид.

🛎 Собираемся к 18:30 — чтобы все успели прийти и порадоваться небольшому фуршету. Сам мастер-класс начнётся в 19:00 и закончится в 21:00.

✨ Зарегистрироваться можно здесь 📆 19 августа 🗺 Коворкинг Яндекса в ротонде Маяковки (Невский, 20)

💻 И главное — обязательно возьмите с собой ноутбук: без него сделать бота не получится!

Подписывайтесь: 💬 Коворкинг Яндекса в ротонде Маяковки

7 августа 2025 г.3.3K просмотров

Допустим 😀

Техрепорт GPT-5: https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

GPT-5 is a unified system (не одна модель).

6 августа 2025 г.2.4K просмотроврепост из БАШНЯ

СОЗВОН-ПОДКАСТ ❗️

Новый онлайн-подкаст состоится уже сегодня в 19:00 🔥

Наш гость - Антон Клочков, руководитель R&D команды в Яндексе 💸

Тема подкаста: «ML-инженерия и что из себя представляет профессия ML-инженера»👨‍💻

Не пропусти! Пиши свои вопросы в комментарии под этим постом и не забудь позвать своих друзей и коллег 👀

5 августа 2025 г.2.1K просмотров

Оказывается, ещё один релиз вышел — https://www.anthropic.com/news/claude-opus-4-1

за мем спасибо @denissexy

5 августа 2025 г.2.4K просмотров

https://github.com/huggingface/transformers/pull/39923/commits

Допустим Будем верить, что оно и правда работает 😀

4 августа 2025 г.2.4K просмотров

Data Dojo в Питере!

Я стараюсь посещать местные тусовки, хотя бы те, которые организованы Яндексом, просто потому что я о них узнаю внутри. ML Party, Data Dojo и многие другие. В первую очередь потому что люблю пообщаться с ребятами из разных компаний, послушать разные байки, да и самому чего-нибудь порассказывать 😀.

В этот раз я не смогу быть (из-за командировки 😊), тем не менее, можете придти вы! Программа классная, будут выступать очень классные гости, таких не часто встретишь на конференциях: — Коля Савушкин, руководитель команды рекомендашек, расскажет про тренды в его области; — Лёша Колесов, руководитель всея NLP, расскажет про весь R&D — чего сделали прикольного и чего хотим сделать.

Ещё будет разбор ML-задачки 🧠. Если вам есть что рассказать — записывайтесь!

Ну и самое важное — нетворк. Кажется, его должно быть много!

Записаться можно на лендосе: записаться.

P.S. Я не в курсе, будет ли кисель на мероприятии, но если будет — набирайте в своё удовольствие 🙂

27 июля 2025 г.2.6K просмотров

Visual SKETCHPAD

Давайте в это прекрасное воскресенье не про менеджерское, а про техническое 😍.

Читал я, значит, очередную статью про мультимодальный ризонинг и натыкаюсь в ней на другую годовалой давности. Не знаю, по каким причинам я её пропустил тогда (а их могут быть тысячи), но идея очень прикольная.

Когда только вышли мультимодальные системы серии O от OpenAI, вау-эффектом было то, что в рассуждениях они часто кропали, зумили и всячески модифицировали картинки. И вау было не от того, что как-то система учитывает их в контексте (это как раз база), а откуда и как она эти картинки модифицирует.

И тут меня опытный чтец остановит и спросит: а чо всмысле система? Почему не модель? И будет прав, потому что никто, кроме самих сотрудников, не знает, чо там под капотом, поэтому мне легче рассуждать в терминах системы.

И вот статья Visual SKETCHPAD как раз отвечает на то, как это можно попробовать реализовать чисто инженерно, без всяких обучений. Давайте просто из модели сделаем агента, которому мы дадим определённый набор инструментов для работы с картинками, такие, как: нарисовать линию, сегментировать, нарисовать график, сделать кроп, зазумить область и т.д. И будем просить генерировать CoT с учётом того, что она может использовать эти тулы.

Результаты репортят ещё на тогдашней GPT4o, в целом, растёт на всём, где-то прям очень много (задачи на графы, детекции на high-res картинках), где-то не так много (математика, геометрия).

Очень забавный подход, интересно, как он работает спустя год. А может быть это он и работает под капотом в рассуждающих моделях. Не знаю 😊

P.S. Когда писал пост, наткнулся на обзор https://t.me/gonzo_ML/2823. Почему я пропустил мне интереснее всё больше и больше 😀

26 июля 2025 г.2.2K просмотров

Intern-S1

В мультимодалках пополнение: — 235B MoE LLM (Qwen3) + 6B Vis Encoder (InternViT); — 5T мультимодальных токенов в обучении; — Thinking и Non-Thinking Modes; — По уровню такая же или чуть лучше текущих опенсорсов, как по мне, по идее хуже gemini 2.5 pro; — Бенчмарков маловато, хотелось бы побольше общеупотребимых, будем ждать народного инференса; — Важным выделяют то, что половина трейна — это научные данные.

Страничка на HF: https://huggingface.co/internlm/Intern-S1 Тех репорт: ждём 🙂 Потыкаться можно здесь: https://chat.intern-ai.org.cn/

Если кто-то развернёт у себя на маке, скиньте гайд, тож попробую 😀

25 июля 2025 г.2.3K просмотров

AdamW, это ты?