Tatodetect

Материал из LingvoWiki

Перейти к: навигация, поиск

Tatodetect — программа для определения языка текста на основании n-граммных моделей языка, использующаяся на проекте Tatoeba. Автор — Аллан Симон (Simon Allan). Программа написана на языке C++ (с использованием возможностей нового стандарта C++11) и работает как сервер, к которому обращаются клиенты. Распространяется по лицензии AGPL 3.

Проверена работоспособность на в ОС GNU/Linux (дистрибутивы Ubuntu и Debian). Программа использует библиотеки CppCMS, Boost.Locale, CppDB и sqlite3.

Словарь содержит частые n-граммы для всех рассматриваемых языков. Вначале программа пробует определить язык по пентаграммам, т.е. по сочетаниям пяти символов. Если в словаре недостаточно пентаграмм, производится проверка с использованием тетраграмм, триграмм и биграмм. Это позволяет эффективно работать как с европейскими языками, так и с восточноазиатскими.

Личные инструменты