01.05.2004 Компания "Яндекс" объявила об открытии сайта "Национальный корпус русского языка"
Компания "Яндекс" объявила об открытии сайта "Национальный корпус русского языка" объемом более 20 млн слов. Корпус русского языка - это собрание грамматически размеченных русских текстов XIX–XXI вв. в электронной форме, удобной для автоматического поиска и научных исследований. В его состав входят тексты самых разных жанров, причем не только произведения художественной литературы, но также - в сбалансированном объеме - научные, научно-популярные, религиозные и иные сочинения, публицистика, производственно-технические, юридические и многие другие тексты. Благодаря этому Корпус максимально представительно отражает русский литературный язык во всем многообразии его письменных форм. Каждому слову и каждому тексту в Корпусе приписана лингвистическая аннотация на основе специального стандарта, разработанного при участии ведущих российских специалистов. Корпус предназначен для всех, кто интересуется вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык. Работа над Национальным корпусом осуществляется большой группой лингвистов из Москвы, Санкт-Петербурга и других городов России в рамках программы "Филология и информатика" РАН (поддержку оказал также Российский гуманитарный научный фонд). Эта работа продолжается, в дальнейшем предполагается существенно увеличить количество входящих в Корпус текстов и расширить их состав. Поиск по корпусу с учетом морфологии, расстояния и грамматических признаков, предоставлен Яндексом. |