Tatodetect
Tatodetect — программа для определения языка текста на основании n-граммных моделей языка, автор — автор::Аллана Симона (Simon Allan), использующаяся на проекте Tatoeba. Программа написана на языке язык программирования::C++ (с использованием возможностей нового стандарта C++11) и работает как сервер, к которому обращаются клиенты. Распространяется по лицензии лицензия::AGPL 3.
Проверена работоспособность на в ОС GNU/платформа::Linux (дистрибутивы Ubuntu и Debian). Программа использует библиотеки CppCMS, Boost.Locale, CppDB и sqlite3.
Словарь содержит частые n-граммы для всех рассматриваемых языков. Вначале программа пробует определить язык по пентаграммам, т.е. по сочетаниям пяти символов. Если в словаре недостаточно пентаграмм, производится проверка с использованием тетраграмм, триграмм и биграмм. Это позволяет эффективно работать как с европейскими языками, так и с восточноазиатскими.