Mystem

Материал из LingvoWiki
Перейти к навигацииПерейти к поиску
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.
Important.png Недоступное программное обеспечение
Описанный в данной статье программный продукт на данный момент недоступен, статья имеет в первую очередь историческую ценность.
Вместо него можно использовать {{#ask: функция::Морфологический анализ поддержка языка::Русский язык | intro=программы с подобной функциональностью: }}.

mystem (вероятно, от англ. my stemmer) — функция::морфологический анализатор для русского языка от компании Яндекс. Позволяет привести слова к начальной форме, узнать их грамматические характеристики и частоту встречаемости в русском тексте. В версии 1.0 также существовала возможность провести морфологический анализ и английского текста. По состоянию на июль 2012 года возможности скачать программу с официального сайта уже нет.

Программа была бесплатна для некоммерческого использования. Существуют версии для платформа::Windows, платформа::Linux, платформа::FreeBSD и платформа::MacOS X.

Анализатор mystem используется в продуктах компании автор::Яндекс, он лёг в основу анализатора для Национального корпуса русского языка[1]

Принципы работы

Программа использует словарь часто встречаемых русских слов, а для остальных предлагает гипотетическую начальную форму.

Классификация словоформ

Принципы классификации словоформ значительно отличаются от общепринятых:

  • в одну парадигму включены многие глаголы совершенного и несовершенного вида, отличающиеся суффиксом (закрывать{закрывать}, закрыть{закрывать})
  • времена делятся на прошедшее и непрошедшее

Источники

  1. «Программное обеспечение для морфологической разметки Корпуса разработано Д. В. Панкратовым, А. Е. Поляковым и В. А. Титовым на базе программ автоматического морфологического анализа русских письменных текстов Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко)» (О проекте. Национальный корпус русского языка)

Ссылки