Тегирование: различия между версиями

Материал из LingvoWiki
Перейти к навигацииПерейти к поиску
(написал, правьте)
 
м
 
(не показана 1 промежуточная версия этого же участника)
Строка 1: Строка 1:
''Это статья о тегировании в лингвистике. У этого существует более широкое значение.''
+
''Это статья о тегировании в лингвистике. У этого термина существует более широкое значение.''
  
'''Тегирование''' в [[Компьютерная лингвистика|компьютерной лингвистике]] — классификация [[Словоформа|словоформ]] путём присвоения тегов, т.е. специальных пометок. Тегированием занимается специальный программный компонент — морфологический анализатор, однако полностью автоматизировать этот процесс нельзя. В простейшем случае вместо морфологического анализатора можно просто использовать словарь, в котором будут содержаться все формы какого-то слова с тегами и ссылкой на начальную форму: это позволяет ускорить работу программы, но затрудняет  
+
'''Тегирование''' в [[Компьютерная лингвистика|компьютерной лингвистике]] — классификация [[Словоформа|словоформ]] путём присвоения тегов, т.е. специальных пометок. Тегированием занимается специальный программный компонент — морфологический анализатор, однако полностью автоматизировать этот процесс нельзя. В простейшем случае вместо [[морфологического анализ]]атора можно просто использовать словарь, в котором будут содержаться все формы какого-то слова с тегами и ссылкой на начальную форму: это позволяет ускорить работу программы, но затрудняет  
  
 
== Выбор тегов ==
 
== Выбор тегов ==

Текущая версия на 16:48, 18 июля 2010

Это статья о тегировании в лингвистике. У этого термина существует более широкое значение.

Тегирование в компьютерной лингвистике — классификация словоформ путём присвоения тегов, т.е. специальных пометок. Тегированием занимается специальный программный компонент — морфологический анализатор, однако полностью автоматизировать этот процесс нельзя. В простейшем случае вместо морфологического анализатора можно просто использовать словарь, в котором будут содержаться все формы какого-то слова с тегами и ссылкой на начальную форму: это позволяет ускорить работу программы, но затрудняет

Выбор тегов

Стандартного набора тегов не существует. Обычно они определяются для каждого конкретного проекта отдельно, в зависимости от целей программы и простоты реализации.

Например, для упрощения алгоритма аналитические формы могут рассматриваться по частям: буду делать можно рассмотреть формы двух глаголов, настоящего времени от глагола буду и инфинитива от глагола делать.

Пример результата

Ниже приведён пример с тегами в формате, используемом анализатором Mystem (обратите внимание, что текст к такому виду был приведён вручную, т.к. сам анализатор предоставляет несколько вариантов разбора словоформ):

Любите{любить=V,несов=непрош,мн,изъяв,2-л,пе}
ли{ли=PART=}
Вы{вы=SPRO,мн,2-л=им}
Лингвофорум{лингвофорум=S,муж,неод=вин,ед}
так{так=ADVPRO=}
как{как=ADVPRO=}
люблю{любить=V,несов=непрош,ед,изъяв,1-л,пе}
его{=SPRO,ед,3-л,муж=вин}
я{я=SPRO,ед,1-л=им}

Обратите внимание на отличия от традиционной классификации: вместо синтетического будущего и настоящего времени использутеся тег непрош (непрошедшее).