Mystem

Материал из LingvoWiki

Перейти к: навигация, поиск
Недоступное программное обеспечение
Описанный в данной статье программный продукт на данный момент недоступен, статья имеет в первую очередь историческую ценность.
Вместо него можно использовать программы с подобной функциональностью: PhpMorphy, Pymorphy.

mystem (вероятно, от англ. my stemmer) — морфологический анализатор для русского языка от компании Яндекс. Позволяет привести слова к начальной форме, узнать их грамматические характеристики и частоту встречаемости в русском тексте. В версии 1.0 также существовала возможность провести морфологический анализ и английского текста. По состоянию на июль 2012 года возможности скачать программу с официального сайта уже нет.

Программа была бесплатна для некоммерческого использования. Существуют версии для Windows, Linux, FreeBSD и MacOS X.

Анализатор mystem используется в продуктах компании Яндекс, он лёг в основу анализатора для Национального корпуса русского языка[1]

Содержание

Принципы работы

Программа использует словарь часто встречаемых русских слов, а для остальных предлагает гипотетическую начальную форму.

Классификация словоформ

Принципы классификации словоформ значительно отличаются от общепринятых:

  • в одну парадигму включены многие глаголы совершенного и несовершенного вида, отличающиеся суффиксом (закрывать{закрывать}, закрыть{закрывать})
  • времена делятся на прошедшее и непрошедшее

Источники

  1. «Программное обеспечение для морфологической разметки Корпуса разработано Д. В. Панкратовым, А. Е. Поляковым и В. А. Титовым на базе программ автоматического морфологического анализа русских письменных текстов Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко)» (О проекте. Национальный корпус русского языка)

Ссылки

Личные инструменты