23.01.2003 Вышла новая версия библиотеки анализа текста RCO Semantic Network
Компания "Гарант-Парк-Интернет" объявила о выходе новой версии программного продукта RCO Semantic Network 2.0. Продукт предназначен для разработчиков информационно-поисковых и аналитических систем и позволяет выявить ключевые понятия документа с их взаимосвязями на основе грамматического и статистического анализа текста, а также получить несколько видов рефератов документа. Средства библиотеки RCO Semantic Network позволяют автоматически анализировать содержание текстовых документов, представляя его в форме ассоциативной семантической сети, узлами которой служат значимые понятия-темы, выделенные из текста. Выделение тем происходит путем синтактико-семантического анализа текста, который позволяет выделять различные семантические типы понятий текста. Для последующей обработки результатов используется тезаурус, который отождествляет синонимы и приводит слова к обобщающим понятиям-темам, а также фильтрует общеупотребимую лексику из числа тем. Так, словам "российский", "россиянин" и "Российская федерация" будет соответствовать тема "Россия", а слова "концепция" и "развитие", обладающие общим значением, не выделятся в качестве отдельных тем, но могут образовать тему в сочетании с другими словами, например "концепция развития сельского хозяйства". Дополнительно между темами сети устанавливаются ассоциативные связи, которые отражают совместное упоминание тем в тексте и могут использоваться для расширения или уточнения запроса при поиске в информационных массивах, а также выявления информации о различных взаимосвязях между целевыми объектами в аналитических задачах. Основное отличие новой версии от предшествующей заключается в использовании новых лингвистических алгоритмов, которые не только существенно повысили качество анализа, но и позволили выделять понятия различных семантических категорий, например: наименования организаций, физических лиц, географические названия, действия. Кроме того, библиотека теперь позволяет получать несколько видов реферата текста: общий, по заданной теме или по связи заданных тем. Область применения RCO Semantic Network охватывает задачи построения информационного портрета документа, тематического индексирования полнотекстовых баз данных, выявления скрытых взаимосвязей между объектами в тексте и другие. Продукт поставляется в виде динамической библиотеки (dll) для Windows. |