09.09.2004Библиотека анализа текста RCO Semantic Network 3.0 - инструмент для компьютерной разведки
Компания «Гарант-Парк-Интернет» объявляет о выходе новой версии программного продукта RCO Semantic Network 3.0, который предназначен для аналитической обработки текста на русском языке. При создании версии 3.0 особое внимание уделено разбору текста, связанного с персонами и организациями, которые наиболее часто являются объектами мониторинга в задачах компьютерной разведки. Новый класс алгоритмов обеспечивает не только высокоточное распознавание в тексте заранее неизвестных персон и организаций, но и отождествление их различных обозначений, включая полные, краткие и косвенные наименования. Базовый функционал продукта позволяет выделять элементы смысла текста и их взаимосвязи, строить различного вида дайджесты. С учетом новых возможностей продукт превратился в мощное средство для построения систем мониторинга активности целевых объектов, автоматизированного сбора информации к досье. Продукт поставляется в виде динамической библиотеки (dll) для Windows и позволяет разработчикам включать анализ текста в собственные приложения. Отследить и классифицировать все упоминания об объектах в информационном поле, установить их связи с другими объектами и событиями, получить различные виды дайджестов по объектам и связям - вот базовый набор функций, которые предоставляет RCO Semantic Network для обеспечения аналитической деятельности. Помимо этого библиотека незаменима в тех задачах, где требуется построение информационного портрета документа: автоматической классификации и рубрицировании документов, экспресс-анализе и визуализации больших информационных массивов. Выпуск новой версии продукта прокомментировал руководитель группы компьютерной лингвистики компании "Гарант-Парк-Интернет", канд. техн. наук Александр Ермаков: "Уже начиная с версии 2.0 библиотека RCO Semantic Network стала нашей заслуженной гордостью! Простой в эксплуатации и относительно недорогой, это единственный коммерческий продукт для анализа русского текста, основанный не на математическом шаманстве с цепочками байтов, а на сложных лингвистических алгоритмах, в которые воплотились реальные знания о языке, плод многих лет труда инженеров и лингвистов. Выход новой версии для нас, разработчиков, прежде всего ознаменовал успешное завершение нового класса алгоритмов. В комплексе были решены сразу три взаимосвязанные задачи. Во-первых, это хорошее бессловарное выделение в тексте обозначений персон и организаций, число которых потенциально неисчислимо и которые могут писаться самыми разнообразными способами. Во-вторых, это превосходное выделение объектов, заданных подробными описаниями, что позволяет даже различать персоны с одинаковыми ФИО, должностями и т.п. В-третьих, это отождествление различных наименований одного и того же объекта, иногда даже местоимений - проблема кореферентности. На сегодняшний день в России эти задачи решены только у нас, и для их решения потребовалось привлечь всю мощь ранее разработанных алгоритмов - словарного и бессловарного морфологического анализа, синтаксического анализа, снятия омонимии. Особенности реализованной схемы мы, по традиции, осветим в ближайших публикациях. Приятно осознавать, что технологические новшества привели не просто к повышению качества работы программы, но и к открытию новых сфер ее применения, прорыву в новую нишу рынка, до сих пор остававшуюся свободной. Пропагандируемые сегодня инструменты для компьютерной конкурентной разведки до сих пор не могли полноценно использовать средства машинного анализа текста, так как те не умели распознавать даже упоминания об объекте анализа с приличной точностью". Подробную информацию о продукте, включая документацию, можно получить на сайте http://www.rco.ru. О КОМПАНИИ «ГАРАНТ-ПАРК-ИНТЕРНЕТ»