15.04.2011Компания Cognitive Technologies представляет новую технологию Cognitive ScanPack
Компания Cognitive Technologies объявляет о выходе новой технологии, предназначенной для пакетного сканирования, обработки и сжатия документов — Cognitive ScanPack. Ее создание стало возможно благодаря новым алгоритмам анализа изображений, разработка которых является очередным этапом в решении задачи понимания документов. Технология предназначена для широкого класса бизнес-документов (факсы, договоры, деловые письма, счета, накладные, таблицы и т.д.), доля которых в отечественном документообороте составляют более 90%. В настоящее время технология Cognitive ScanPack уже применяется в системах ввода документов мощностью 10 000 – 100 000 страниц в день, созданных специалистами Cognitive Technologies. При работе с оцифрованными документами, книгами и журналами и т.д. существует две основные проблемы. Во-первых, требуется получить их приемлемое визуальное качество. Однако, известно, что качественное изображение практически всегда занимает чрезмерные объемы дискового пространства. С громоздкими оцифрованными документами неудобно работать, дорого хранить, при их передаче по сетям связи генерируется значительный трафик. Во-вторых, существует необходимость улучшения качества изображения (например, для его дальнейшего распознавания) - очищения от различного рода помех и искажений: следов маркера, капель чернил, следов некачественной печати, следов от дырокола. Да и исходный документ может быть ветхим, напечатанным на плохой бумаге, или быть плохой копией оригинала. Разработанная в компании Cognitive Technologies технология Cognitive ScanPack позволяет решить обе эти проблемы и автоматизировать весь процесс оцифровки бумажных документов - от сканирования до сжатия и упаковки в файлы. Главным отличием технологии Cognitive ScanPack от существующего программного обеспечения для пакетного сканирования и ввода документов является реализация возможностей эффективного сжатия изображений документов. Данный результат был получен за счет реализации в технологии некоего подобия экспертной системы — Cognitive ScanPack умеет понимать тип и структуру документа и автоматически подбирает наиболее подходящий режим обработки. После удаления искажений и помех изображение автоматически разделяется на так называемые слои (текст, иллюстрации, печати, подписи и т. п.). При этом система сама принимает разумное решение - выбирает для каждого слоя свой - наиболее оптимальный алгоритм сжатия с целью получения наиболее качественное и одновременно компактного изображения. В Cognitive ScanPack предусмотрена возможность распознавания текстовых слоев при помощи встроенного ядра OCR-системы CuneiForm (OpenOCR). После обработки и сжатия все слои (включая слой с распознанным текстом) собираются в одностраничный или многостраничный файл в формате PDF/A (стандарт для долговременного хранения документов ISO 19005-1:2005). Данный подход позволяет снизить объем оцифрованных документов в среднем до 10 раз. Например, страховой полис ОСАГО при сохранении в формате JPEG с качеством, пригодным для работы, будет занимать объем 2,42 МБ. Сжатие того же документа с помощью Cognitive ScanPack даст файл объемом 408 КБ, при аналогичном (в некоторых случаях и более лучшем) качестве результата. На разработку технологии Cognitive ScanPack разработчиками было затрачено два года (около 10 000 человеко-часов). Технология имеет значительный потенциал для наращивания качества обработки и сжатия изображений за счет развития алгоритмов понимания структуры документа и анализа изображений. Также в ближайших планах разработчиков расширение набора типов обрабатываемых документов цветными печатными изданиями: газетами, журналами и т.п. Мировой рынок технологий и систем, подобных Cognitive ScanPack, еще не сформирован, но по предварительным оценкам только в российском сегменте его потенциальный объем составит порядка одного миллиарда долларов США. Использование технологии Cognitive ScanPack позволяет автоматизировать процесс сканирования и обработки документов и получать компактные и одновременно качественные оцифрованные документы для долговременного хранения, пригодные для полнотекстового поиска по ним. О компании Cognitive Technologies