DeepSeek-OCR

2 автора упоминают этот инструмент

Дратути Антон29 ноября 2025 г.3.0K просмотров

Побубню за OCR

Тут у нас в CVTime вышел обзор DeepSeek-OCR в двух частях (раз, два), где задали интересный вопрос, на который я хочу попробовать развёрнуто подискутировать:

Нужно полный а4 лист текста прочитать за 1 секунду. Справится ? И чтобы не арендовать для этого суперкомпьютер, а например видюху уровня TESLAV100. Сомневаюсь. Даже обычные OCR работают очень долго - десятки или сотни миллисекунд. А LLM ки в продакшене для высоконагруженных систем, такое себе, если конечно вы не амазон или не гугл с бесконечными ресурсами

За последнее время понимание OCR сильно изменилось 😊: если раньше мы воспринимали этот процесс как извлечение текста и метаинформации о нём, то сейчас в основном это Image -> Markdown или KIE (Key Information Extraction). И конечно от тех, кто не погружен в область, достаточно часто можно услышать: а зачем нам ваш Paddle OCR или Yandex OCR, когда у меня есть замечательный Alice AI VLM/QWEN-VL/DeepSeek-OCR/Mistral OCR. Особенно это актуально в тех случаях, когда open-source классические системы проигрывают по качеству VLM.

Другой лагерь не про качество, а про скорость: "Да ентот ваш VLM жрёт знаете сколько? А работает долго! Пользователи не привыкли ждать! Особенно в такой простой задаче. А еще и мету отдавать не умеет." Обычно этот лагерь состоит из ребят, которые уже применяли OCR и что-то про него знают.

На самом деле, оба лагеря правы 😀, просто нужно выбирать инструмент исходя из своих потребностей и нужно будет идти на компромисс.

Что у вас на выходе? Выписать текст в виде markdown будет проще с помощью VLM — этот формат "нативнее" на мультимодальных сеток, нежели чем для OCR-системы. Post-processing результатов OCR для вывода в MD — это достаточно непростая инженерная задача.

Но если вам вдруг нужны координаты, например, для задачи фотоперевода, где важно на картинке поверх текущего текста наложить рендер переведенного текста, то здесь перспективнее использовать OCR. Хоть и куча бенчей, где VLM хороши в Grounding, но я пока еще не видел хорошей текстовой локализации в мультимодальности.

Что у вас на входе? Одно дело PDF-странички классических arxiv-like статей, другое дело — всевозможно по-разному расположенный текст на картинке. В этом случае вывод в MD для OCR становится очень тяжелой задачей , тогда как для VLM это вопрос максимум небольшого тюна.

Что с производительностью? VLM инференс будет кратно дороже OCR систем. Последние — это обычно каскад маленьких моделей и он работает часто супербыстро в том числе за счёт распараллеливания распознавания, в то время, как мультимодальные сетки обычно авторегрессионные, а потому генерация длинных текстов будет в десятки раз дольше.

Что с качеством? В проприетарной среде не всё так однозначно, но если говорим про open-source, то VLM однозначно по качеству извелечения текста будут в среднем выше. Думаю, тут не стоит объяснять, что на мультимодальные модели тратится существенно больше компьюта, нежели чем на OCR.

Если говорить про пример выше? Если говорим про домен из примера выше, что на A4 (условно статья arxiv) качество у VLM и OCR будет +- одинаковым, при этом OCR будет кратно быстрее и дешевле. Но если это будут A4 странички каких-будь буклетов, менюшек, постеров, то вероятно VLM будет использовать в этих доменах выгоднее.

Когда к нам внутри приходят ребята из разных команд, как раз наша задача проконсультировать их, как решать им задачу эффективнее: с точки зрения денег (стоимость разработки, стоимость компьюта), с точки зрения качества (смотрим на домены, оцениваем качество). И не всегда всё упирается в стоимость компьюта... Как-то так.

Расскажите, как у вас на практике с распознаванием текста? Для чего используете? Чего используете?

Робокорп - by Сэм Якушев22 октября 2025 г.682 просмотров

🧠 Шок-контент… Оказывается, распознавать документы нейросетям можно эффективнее и лучше не как текст, а как изображение!

Все геморрроились и делали экстракторы текста из документов. Есть целая куча сервисов для этого, а оказывается идти надо совсем другим путем и вообще в обратную сторону! Обожаю такие повороты!

Почему это важно? Потому что изображение несёт намного больше контекста о структуре документа — где таблицы, где подписи, где блоки текста, где схемы и чертежи. А значит, сеть может понять не только что написано, но и как это устроено.

DeepSeek релизнули новую модель — DeepSeek-OCR. Она использует принцип context optical compression — то есть сначала обрабатывает документ как изображение, потом извлекает текст и логику расположения элементов.

Ну и эффективность не просто чутка улучшается, а в разы! Даже при 20-кратном сжатии (в 20 раз меньше данных пихается в нейронку!) модель сохраняет точность выше 95 %. Это значит, что модель реально "понимает" структуру документа и не теряет качество, хотя "видит" в 10–20 раз меньше деталей.

🧩 В итоге:

Можно корректно работать с таблицами, схемами, формами и прочими нетекстовыми форматами.

В десятки раз меньше токенов — экономия при анализе больших документов.

Структура и взаимосвязи между элементами сохраняются.

И если подумать — это именно то, чего "из коробки" не хватало при формировании качественных RAG-ов для баз знаний, работы с технической документацией, интеграционных проектах, связанных с 1С.

Теперь можно не терять смысл из-за дистилляции текста документа и сохранять всё, как есть в оригинале.

🔥 Уже не терпится попробовать это в работе. Молодцы, DeepSeek, черт побери, реально делают что-то новое и прорывное, в сферах где это действительно нужно, а не еще один браузер с агентом внутри ;)

Ссылка на их релиз — deepseek.ai/blog/deepseek-ocr-context-compression

И на GitHub - https://github.com/deepseek-ai/DeepSeek-OCR?tab=readme-ov-file

ЗЫ Это всё еще и по MIT лицензии - соответственно любые твои капризы и пожелания выполнимы, всё доступно для изменения, копирования, доработки и перепродажи.

Часто упоминают вместе с DeepSeek-OCR

ChatGPT87%Claude66%Comet3%Cursor69%Gemini43%DeepSeek18%