Tatodetect: различия между версиями

Материал из LingvoWiki
Перейти к навигацииПерейти к поиску
м (Ордхограбхия имени )))
м (URL поменялся)
 
Строка 5: Строка 5:
 
Словарь содержит частые n-граммы для всех рассматриваемых языков. Вначале программа пробует определить язык по пентаграммам, т.е. по сочетаниям пяти символов. Если в словаре недостаточно пентаграмм, производится проверка с использованием тетраграмм, триграмм и биграмм. Это позволяет эффективно работать как с европейскими языками, так и с восточноазиатскими.
 
Словарь содержит частые n-граммы для всех рассматриваемых языков. Вначале программа пробует определить язык по пентаграммам, т.е. по сочетаниям пяти символов. Если в словаре недостаточно пентаграмм, производится проверка с использованием тетраграмм, триграмм и биграмм. Это позволяет эффективно работать как с европейскими языками, так и с восточноазиатскими.
  
* [https://github.com/sysko/Tatodetect Код проекта sysko/Tatodetect на github’t]
+
* [https://github.com/allan-simon/Tatodetect Код проекта sysko/Tatodetect на github’t]
 
* [http://tatoeba.org/rus/wall/show_message/13151#message_13151 Обсуждение на стене Татоэбы]
 
* [http://tatoeba.org/rus/wall/show_message/13151#message_13151 Обсуждение на стене Татоэбы]
  

Текущая версия на 13:39, 10 июля 2013

Tatodetect — программа для определения языка текста на основании n-граммных моделей языка, использующаяся на проекте Tatoeba. Автор — автор::Аллан Симон (Simon Allan). Программа написана на языке язык программирования::C++ (с использованием возможностей нового стандарта C++11) и работает как сервер, к которому обращаются клиенты. Распространяется по лицензии лицензия::AGPL 3.

Проверена работоспособность на в ОС GNU/платформа::Linux (дистрибутивы Ubuntu и Debian). Программа использует библиотеки CppCMS, Boost.Locale, CppDB и sqlite3.

Словарь содержит частые n-граммы для всех рассматриваемых языков. Вначале программа пробует определить язык по пентаграммам, т.е. по сочетаниям пяти символов. Если в словаре недостаточно пентаграмм, производится проверка с использованием тетраграмм, триграмм и биграмм. Это позволяет эффективно работать как с европейскими языками, так и с восточноазиатскими.