06.12.2006От распознавания символов к пониманию документов
Cognitive Technologies представляет принципиально новoe решение класса IDR (intelligent document recognition) на базе технологии распознавания многокомпонентных частично-структурированных документов CogniDocs™. Существует ли сегодня такая интеллектуальная система, в которую можно ввести роман Пушкина «Евгений Онегин» и, задав ей вопрос: «назови мне отчество Татьяны Лариной?» получить правильный ответ? К сожалению, пока еще нет. Но решение этой задачи, по глубокому убеждению руководства Cognitive Technologies, будет получено во вполне обозримое время. Для разработчиков Cognitive Technologies решение данной задачи является своего рода ориентиром, к которому компания стремится практически с момента своего создания. В этой процессе можно выделить следующие основные этапы: 1. Создание систем оптического распознавания печатных и раздельно написанных рукописных символов (OCR и ICR систем). Действительно, в начале текст необходимо в систему каким-то образом ввести. Со многими вариантами постановки этой задачи российские разработчики успешно справились до середины 90-х годов прошлого века. (Хотя следует отметить, что способность человека читать печатный текст низкого качества до сих пор превосходит способности компьютера). 2. Создание систем обработки форм (или систем форм-процессинга - forms processing systems), обеспечивающих ввод данных из документов печатного и рукописного заполнения на основе геометрических шаблонов, а также решений из смежных областей, связанных с анализом структурированной информации (классификаторы, поиск по ключевым словам, полнотекстовая индексация, и т.д.). Такого рода системы были доведены до уровня промышленного применения в России к концу 90-х годов. Дальнейшим развитием этого этапа стало направление обработки гибких форм документов – документов, поля которых не являются фиксированными, по сравнению с обычными формами, а допускают незначительные (гибкие) смещения в границах документа (примером таких форм являются платежные поручения, требования). 3. Дальнейшее развитие систем форм-процессинга включало обработку документов, в которых реквизиты не имели четко заданного геометрического положения или табличной упорядоченности. Документов, в которых важные реквизиты представляют собой, так сказать, «плавающие» части документа. Для идентификации такого рода реквизитов системы распознавания стали использовать более широкий набор методов – т.е. определять границы искомого фрагмента графического образа не только на основе геометрического расположения на странице, но и с учетом распознанного текста, его соответствия предопределенному синтаксису реквизита, формату, стилю заполнения, в зависимости от правил бизнес-логики и контекста – наличия поблизости ключевых слов и т.п. К этому моменту термин «система оптического распознавания символов» стал явно устаревать и ему на смену недавно пришел более адекватный термин – система класса IDR (intelligent document recognition), или система интеллектуального распознавания документов. Фактически, IDR-система решает ту же задачу, что и система обработки форм, т.е. выделяет из документа значимые структурные элементы, распознает их с применением тех или иных механизмов распознавания, передает во внешнюю информационную систему. Но при этом спектр документов, на котором решается эта задача, существенно расширяется и теперь включает в себя частично структурированные и неструктурированные документы. Примерами таких документов являются различные газетные и журнальные статьи, аналитические обзоры, художественные произведения и т.д. Но с точки зрения бизнеса, в первую очередь интерес представляют востребованные рынком деловые (или профессиональные) документы. Это договоры и соглашения, формальная деловая переписка, технические статьи, резюме, разного рода балансы, бухгалтерская отчетность и т.п. Эти документы содержат известный перечень реквизитов (от лат. requisitum - требуемое, необходимое), автоматическое извлечение которых позволяет ускорить и упростить многие бизнес-процессы. Реальный пример: система распознает адресата в тексте входящего на факс-сервер корпорации документа, регистрирует документ и пересылает его на электронный адрес сотрудника. Эволюцию систем ввода и обработки документов, которую на сегодня можно кратко выразить слоганом «от распознавания символов к пониманию документов», легко проследить на продуктах и технологиях, разрабатываемых Cognitive Technologies с начала 90-х годов, начиная с мультифонтовой OCR Tiger и омнифонтовой OCR Cuneiform. Старожилы рынка, наверное, помнят первую разработку класса IDR- систему ввода визитных карточек Business Card Wizard, разработанную Cognitive в 1994 году, которая распознавала и автоматически разбирала содержание карточки – ФИО, должность, название организации, телефон, адрес и другие реквизиты, которые обычно размещают на карточке. Технология интеллектуального извлечения дат и временных отрезков, упоминаемых в тексте документа (в том числе и неявно, например «в конце II столетия», «в период Великой Отечественной войны»), которая обеспечивала организацию запросов, таких как «найти все документы, в которых упоминаются кочевники и имеются ссылки на период с 1200 по1350» до сих пор остается уникальной особенностью продукта Евфрат-Офис, выпущенного в середине 90-х годов прошлого века. Многие технологические решения такого рода были реализованы в проектных решениях, например, в системе управления документами, разработанной для компании «Городисский и партнеры». Первое промышленное применение разработанной в Cognitive Technologies ICR-технологии распознавания рукописных символов состоялось в 1995 году, когда компания реализовала свой первый проект по массовому вводу стандартных форм документов (по заказу ГНИ Республики Башкортостан). Это были заполненные от руки декларации о доходах, представленные в виде многостраничных машиночитаемых анкет. Затем последовали ввод анкет для Московского отделения Пенсионного фонда РФ и другие крупные проекты, в которых использовалась система форм-процессинга Cognitive Forms. За десятилетнюю историю своего развития в рамках Cognitive Forms были реализованы: - технология автоматического разбора и проверки составных полей (таких как «адрес» или «кем выдан паспорт»), - технология ввода гибких форм документов и атрибутивного поиска реквизитов FlexiDocs, - технологии контекстно-зависимой обработки графических образов Scanify и ряд других инновационных технологических решений, многие из которых являются уникальными на мировом рынке IDR-систем. Сегодня Cognitive Technologies представляет новое ядро распознавания Cognitive Forms 2007, построенное на разработанной в компании технологии распознавания многокомпонентных частично-структурированных документов CogniDocsТМ. Принципиальным новшеством технологии является возможность обработки документов, состоящих из частей (секций), которые могут «стыковаться» между собой по определенным правилам, заданным в описании документа (аналогично молекулам органических соединений). Формальное описание такого класса документов включает описание секций и возможных вариантов их стыковки. Тем самым создается компактное описание, покрывающее многообразие вариантов компоновки и форматирования реальных документов. Для реализации технологии в компании разработаны формальная модель документа, язык описания документа и алгоритмы анализа, которые обеспечивают идентификацию секций (декомпозицию документа) и контролируют выполнение связей между ними. Вложенные алгоритмы обеспечивают анализ секций и выделение реквизитов документа. Важными свойствами технологии являются возможность работы с документами, содержимое которых перетекает со страницы на страницу, а также работа с документами, содержащими переменное количество реквизитов (например, строк таблицы). Разработка CogniDocsТМ была начата в 2002 году, первые лабораторные образцы были получены в 2003 году. С 2004 года началась опытная эксплуатация системы ввода счетов-фактур на одном из крупнейших промышленных предприятий страны. С 2005 года система работает в режиме промышленной эксплуатации. В настоящий момент система позволяет вводить шестнадцать видов документов – счета-фактуры, акты, накладные, регистрационные документы контрагентов, договоры и ряд других документов. Ограниченный по функциональности вариант технологии включен в состав новой конфигурации встраиваемого ядра распознавания Scanify API: Bank&Office, обеспечивающего ввод счетов-фактур, платежных поручений и других деловых документов. О компании Cognitive Technologies