diasoft 15 минут назад OCR для Data Lakehouse: от Apache Tika к собственному решению на базе Docling 10 мин 509 Блог компании Диасофт Программирование * Хранение данных * IT-инфраструктура * Data Engineering * Привет,...

Значимый прорыв формирует отрасль ИИ: diasoft 15 минут назад OCR для Data Lakehouse: от Apache Tika к собственному решению на базе Docling 10 мин 509 Блог компании Диасофт Программирование * Хранение данных * IT-инфраструктура * Data Engineering * Привет, Хабр! Это Андрей Ловлин, руководитель команды «Фабрика данных. Платформа» компании Диасофт.

В предыдущей статье мы рассказывали про S3 Архипелаг – слой хранения для нашей «Фабрики данных» (Digital Q. Сегодня речь пойдет о другой задаче: построение конвейера интеллектуального распознавания документов, загружаемых в нашу «Фабрику данных». PDF-файлы, сканы, фотографии договоров – все это накапливается в организациях годами.

Технические детали

Для построения RAG-систем и работы с LLM эти данные необходимо извлечь из неструктурированных документов и преобразовать в структурированный формат. Задача, на первый взгляд, тривиальная. На практике – не совсем.

Требования к решениюПрежде чем выбирать технологию, мы сформулировали ключевые требования:On-premise развертывание – данные не покидают контур заказчика. Это требование не обсуждается. Импортонезависимость – в Диасофте мы работаем с open source, но не просто используем готовые решения.

Мы форкаем проекты, дорабатываем их и берем на себя ответственность за поддержку. Это позволяет гарантировать Заказчикам стабильность и независимость от внешних вендоров. Структурированный вывод – Markdown или JSON, пригодный для дальнейшей обработки LLM.

Отраслевые последствия

Kubernetes – отказоустойчивость и горизонтальное масштабированиеС этими требованиями мы начали исследование доступных OCR-решений. Этап 1: Выбор инструмента для парсинга документов Вариант 1: Apache TikaApache Tika – зрелый проект с большим сообществом. Поддерживает сотни форматовдокументов, имеет хорошую документацию.

Логика выбора была простой: берем проверенное решение, интегрируем Tesseract для OCR, получаем рабочий пайплайн. Практический опытНа практике все оказалось сложнее. Интеграция с Tesseract потребовала установки дополнительных библиотек, языковых пакетов и шрифтов.

Конфигурация через tika-config. xml : rus+eng Препроцессинг изображений – основная сложность. Tesseract хорошо работает с качественными сканами.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

OCR для Data Lakehouse: от Apache Tika к собственному решению на базе Docling

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News