Тегирование
Это статья о тегировании в лингвистике. У этого термина существует более широкое значение.
Тегирование в компьютерной лингвистике — классификация словоформ путём присвоения тегов, т.е. специальных пометок. Тегированием занимается специальный программный компонент — морфологический анализатор, однако полностью автоматизировать этот процесс нельзя. В простейшем случае вместо морфологического анализатора можно просто использовать словарь, в котором будут содержаться все формы какого-то слова с тегами и ссылкой на начальную форму: это позволяет ускорить работу программы, но затрудняет
Выбор тегов
Стандартного набора тегов не существует. Обычно они определяются для каждого конкретного проекта отдельно, в зависимости от целей программы и простоты реализации.
Например, для упрощения алгоритма аналитические формы могут рассматриваться по частям: буду делать можно рассмотреть формы двух глаголов, настоящего времени от глагола буду и инфинитива от глагола делать.
Пример результата
Ниже приведён пример с тегами в формате, используемом анализатором Mystem (обратите внимание, что текст к такому виду был приведён вручную, т.к. сам анализатор предоставляет несколько вариантов разбора словоформ):
Любите{любить=V,несов=непрош,мн,изъяв,2-л,пе} ли{ли=PART=} Вы{вы=SPRO,мн,2-л=им} Лингвофорум{лингвофорум=S,муж,неод=вин,ед} так{так=ADVPRO=} как{как=ADVPRO=} люблю{любить=V,несов=непрош,ед,изъяв,1-л,пе} его{=SPRO,ед,3-л,муж=вин} я{я=SPRO,ед,1-л=им}
Обратите внимание на отличия от традиционной классификации: вместо синтетического будущего и настоящего времени использутеся тег непрош (непрошедшее).