Тегирование

Материал из LingvoWiki
Перейти к навигацииПерейти к поиску

Это статья о тегировании в лингвистике. У этого термина существует более широкое значение.

Тегирование в компьютерной лингвистике — классификация словоформ путём присвоения тегов, т.е. специальных пометок. Тегированием занимается специальный программный компонент — морфологический анализатор, однако полностью автоматизировать этот процесс нельзя. В простейшем случае вместо морфологического анализатора можно просто использовать словарь, в котором будут содержаться все формы какого-то слова с тегами и ссылкой на начальную форму: это позволяет ускорить работу программы, но затрудняет

Выбор тегов

Стандартного набора тегов не существует. Обычно они определяются для каждого конкретного проекта отдельно, в зависимости от целей программы и простоты реализации.

Например, для упрощения алгоритма аналитические формы могут рассматриваться по частям: буду делать можно рассмотреть формы двух глаголов, настоящего времени от глагола буду и инфинитива от глагола делать.

Пример результата

Ниже приведён пример с тегами в формате, используемом анализатором Mystem (обратите внимание, что текст к такому виду был приведён вручную, т.к. сам анализатор предоставляет несколько вариантов разбора словоформ):

Любите{любить=V,несов=непрош,мн,изъяв,2-л,пе}
ли{ли=PART=}
Вы{вы=SPRO,мн,2-л=им}
Лингвофорум{лингвофорум=S,муж,неод=вин,ед}
так{так=ADVPRO=}
как{как=ADVPRO=}
люблю{любить=V,несов=непрош,ед,изъяв,1-л,пе}
его{=SPRO,ед,3-л,муж=вин}
я{я=SPRO,ед,1-л=им}

Обратите внимание на отличия от традиционной классификации: вместо синтетического будущего и настоящего времени использутеся тег непрош (непрошедшее).