Tatodetect: различия между версиями
Fujhi (обсуждение | вклад) м (пусть тут будет, а то потеряется) |
Клоняра (обсуждение | вклад) м (URL поменялся) |
||
(не показаны 2 промежуточные версии 2 участников) | |||
Строка 1: | Строка 1: | ||
− | '''Tatodetect''' — программа для [[функция::определение языка|определения языка]] текста на основании [[n-граммы|n-граммных]] [[Модель языка|моделей языка]], | + | '''Tatodetect''' — программа для [[функция::определение языка|определения языка]] текста на основании [[n-граммы|n-граммных]] [[Модель языка|моделей языка]], использующаяся на проекте [[Tatoeba]]. Автор — [[автор::Аллан Симон]] (Simon Allan). Программа написана на языке [[язык программирования::C++]] (с использованием возможностей нового стандарта C++11) и работает как сервер, к которому обращаются клиенты. Распространяется по лицензии [[лицензия::AGPL]] 3. |
Проверена работоспособность на в ОС GNU/[[платформа::Linux]] (дистрибутивы Ubuntu и Debian). Программа использует библиотеки [http://cppcms.com/wikipp/en/page/main CppCMS], [http://www.boost.org/doc/libs/1_50_0/libs/locale/doc/html/index.html Boost.Locale], [http://cppcms.com/sql/cppdb/ CppDB] и [http://sqlite.org/ sqlite3]. | Проверена работоспособность на в ОС GNU/[[платформа::Linux]] (дистрибутивы Ubuntu и Debian). Программа использует библиотеки [http://cppcms.com/wikipp/en/page/main CppCMS], [http://www.boost.org/doc/libs/1_50_0/libs/locale/doc/html/index.html Boost.Locale], [http://cppcms.com/sql/cppdb/ CppDB] и [http://sqlite.org/ sqlite3]. | ||
Строка 5: | Строка 5: | ||
Словарь содержит частые n-граммы для всех рассматриваемых языков. Вначале программа пробует определить язык по пентаграммам, т.е. по сочетаниям пяти символов. Если в словаре недостаточно пентаграмм, производится проверка с использованием тетраграмм, триграмм и биграмм. Это позволяет эффективно работать как с европейскими языками, так и с восточноазиатскими. | Словарь содержит частые n-граммы для всех рассматриваемых языков. Вначале программа пробует определить язык по пентаграммам, т.е. по сочетаниям пяти символов. Если в словаре недостаточно пентаграмм, производится проверка с использованием тетраграмм, триграмм и биграмм. Это позволяет эффективно работать как с европейскими языками, так и с восточноазиатскими. | ||
− | * [https://github.com/ | + | * [https://github.com/allan-simon/Tatodetect Код проекта sysko/Tatodetect на github’t] |
* [http://tatoeba.org/rus/wall/show_message/13151#message_13151 Обсуждение на стене Татоэбы] | * [http://tatoeba.org/rus/wall/show_message/13151#message_13151 Обсуждение на стене Татоэбы] | ||
Текущая версия на 13:39, 10 июля 2013
Tatodetect — программа для определения языка текста на основании n-граммных моделей языка, использующаяся на проекте Tatoeba. Автор — автор::Аллан Симон (Simon Allan). Программа написана на языке язык программирования::C++ (с использованием возможностей нового стандарта C++11) и работает как сервер, к которому обращаются клиенты. Распространяется по лицензии лицензия::AGPL 3.
Проверена работоспособность на в ОС GNU/платформа::Linux (дистрибутивы Ubuntu и Debian). Программа использует библиотеки CppCMS, Boost.Locale, CppDB и sqlite3.
Словарь содержит частые n-граммы для всех рассматриваемых языков. Вначале программа пробует определить язык по пентаграммам, т.е. по сочетаниям пяти символов. Если в словаре недостаточно пентаграмм, производится проверка с использованием тетраграмм, триграмм и биграмм. Это позволяет эффективно работать как с европейскими языками, так и с восточноазиатскими.