
OCR для Data Lakehouse: от Apache Tika к собственному решению на базе Docling
diasoft 15 минут назад OCR для Data Lakehouse: от Apache Tika к собственному решению на базе Docling 10 мин 509 Блог компании Диасофт Программирование * Хранение данных * IT-инфраструктура * Data Engineering * Привет,...
Значимый прорыв формирует отрасль ИИ: diasoft 15 минут назад OCR для Data Lakehouse: от Apache Tika к собственному решению на базе Docling 10 мин 509 Блог компании Диасофт Программирование * Хранение данных * IT-инфраструктура * Data Engineering * Привет, Хабр! Это Андрей Ловлин, руководитель команды «Фабрика данных. Платформа» компании Диасофт.
В предыдущей статье мы рассказывали про S3 Архипелаг – слой хранения для нашей «Фабрики данных» (Digital Q. Сегодня речь пойдет о другой задаче: построение конвейера интеллектуального распознавания документов, загружаемых в нашу «Фабрику данных». PDF-файлы, сканы, фотографии договоров – все это накапливается в организациях годами.
Технические детали
Для построения RAG-систем и работы с LLM эти данные необходимо извлечь из неструктурированных документов и преобразовать в структурированный формат. Задача, на первый взгляд, тривиальная. На практике – не совсем.
Требования к решениюПрежде чем выбирать технологию, мы сформулировали ключевые требования:On-premise развертывание – данные не покидают контур заказчика. Это требование не обсуждается. Импортонезависимость – в Диасофте мы работаем с open source, но не просто используем готовые решения.
Мы форкаем проекты, дорабатываем их и берем на себя ответственность за поддержку. Это позволяет гарантировать Заказчикам стабильность и независимость от внешних вендоров. Структурированный вывод – Markdown или JSON, пригодный для дальнейшей обработки LLM.
Отраслевые последствия
Kubernetes – отказоустойчивость и горизонтальное масштабированиеС этими требованиями мы начали исследование доступных OCR-решений. Этап 1: Выбор инструмента для парсинга документов Вариант 1: Apache TikaApache Tika – зрелый проект с большим сообществом. Поддерживает сотни форматовдокументов, имеет хорошую документацию.
Логика выбора была простой: берем проверенное решение, интегрируем Tesseract для OCR, получаем рабочий пайплайн. Практический опытНа практике все оказалось сложнее. Интеграция с Tesseract потребовала установки дополнительных библиотек, языковых пакетов и шрифтов.
Конфигурация через tika-config. xml : rus+eng Препроцессинг изображений – основная сложность. Tesseract хорошо работает с качественными сканами.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.




