Tatoeba: различия между версиями

Материал из LingvoWiki
Перейти к навигацииПерейти к поиску
 
(не показано 16 промежуточных версий 6 участников)
Строка 4: Строка 4:
 
Администратор и создатель корпуса — француженка Хо Нгок Фуонг Чанг (Ho Ngoc Phuong Trang). Позже к ней присоединился второй администратор, Симон Аллан, также француз.
 
Администратор и создатель корпуса — француженка Хо Нгок Фуонг Чанг (Ho Ngoc Phuong Trang). Позже к ней присоединился второй администратор, Симон Аллан, также француз.
  
Основную часть корпуса до сих пор составляют предложения на английском и на японском, импортированные из [[Корпус Ясухито Танаки|корпуса Ясухито Танаки]], являющегося общественным достоянием. Большая часть переводов с японского на французкий была импортирована с сайта [http://tokidoki.fr/].
+
Основную часть корпуса до сих пор составляют предложения на английском и на японском, импортированные из [[Корпус Ясухито Танаки|корпуса Ясухито Танаки]], являющегося общественным достоянием. Большая часть переводов с японского на французкий была импортирована с сайта [http://tokidoki.fr/ TokiDoki.fr].
  
Первоначально заявлялось, что корпус Tatoeba является общественным достоянием. Однако, так как проект находится во Франции, где отсутствует возможность объявить свою работу общественным достоянием, 12 декабря 2009 года было принято решение распространять корпус по свободной лицензией Creative Commons Attribution<ref>[http://blog.tatoeba.org/2009/12/tatoeba-update-dec-12th-2009.html Tatoeba Project Blog: Tatoeba update (Dec 12th, 2009]</ref>.
+
Первоначально заявлялось, что корпус Tatoeba является общественным достоянием. Однако, так как проект находится во Франции, где отсутствует возможность объявить свою работу общественным достоянием, 12 декабря 2009 года было принято решение распространять корпус по свободной лицензией Creative Commons Attribution<ref>[http://blog.tatoeba.org/2009/12/tatoeba-update-dec-12th-2009.html Tatoeba Project Blog: Tatoeba update (12 декабря 2009)]</ref>.
  
 
В результате соглашения с ассоциацией [[Shtooka]] к некоторым предложениям появились аудиозаписи.
 
В результате соглашения с ассоциацией [[Shtooka]] к некоторым предложениям появились аудиозаписи.
  
 
== Поддерживаемые языки ==
 
== Поддерживаемые языки ==
* Более 100 000 предложений: [[английский язык]], [[японский язык]]
+
На данный момент (лето 2012 года) проект поддерживает 114 языков<ref>[http://tatoeba.org/eng/stats/sentences_by_language http://tatoeba.org/eng/stats/sentences_by_language / Дата доступа: 14 августа 2012 года]</ref>, причём наибольшее количество предложений на следующих языках:
* Более 10 000 предложений: [[китайский язык]], [[немецкий язык]], [[польский язык]], [[французкий язык]]
+
* [[Английский язык|английский]] (занял первое место по количеству предложений 4 сентября 2010 года<ref>[http://tatoeba.org/eng/wall/show_message/2662#message_2662 Сообщение на стене]</ref>)
* Более 5 000 предложений: [[итальянский язык]], [[испанский язык]], [[русский язык]]
+
* [[эсперанто]]
* Более 3 000 предложений:  [[голландский язык]], литературный [[арабский язык]], [[португальский язык]]
+
* [[Немецкий язык|немецкий]]
* Более 1 000 предложений: [[исландский язык]], [[норвежский язык]] (букмол), [[уйгурский язык]], [[украинский язык]]
+
* [[Французкий язык|французский]]
* Более 500 предложений: [[гуандунский китайский язык]], [[финский язык]], [[шанхайский китайский язык]], [[шведский язык]], [[эсперанто]]
+
 
* Более 100 предложений: [[баскский язык]], [[болгарский язык]], [[вьетнамский язык]], [[грузинский язык]], египетский [[арабский язык]], [[индонезийский язык]], [[иврит]], [[корейский язык]] [[румынский язык]], [[турецкий язык]]
+
Кроме того, значительные объёмы предложений есть на следующих языках:
 +
* [[Испанский язык|испанский]], [[Японский язык|японский]] (в данный момент добавляется не очень много предложений, однако за счёт предложений из корпуса профессора Танаки язык долгое время был на первом месте по количеству предложений) (более 172 000)
 +
* [[Турецкий язык|турецкий]], [[Итальянский язык|итальянский]], [[Португальский язык|португальский]] (более 111 000)
 +
* [[Русский язык|русский]], [[Польский язык|польский]] (более 53 000);
 +
* [[иврит]], [[Китайский язык|китайский]] ([[путунхуа]]), [[Голландский язык|голландский]] (более 31 000).
 +
* [[Венгерский язык|венгерский]], [[Украинский язык|украинский]], [[берберский]], [[Нижнесаксонский язык|нижнесаксонский]], [[фарси]] (более 13 500)
 +
* [[Арабский язык|арабский]] (литературный), [[Исландский язык|исландский]], [[Латинский язык|латинский]], [[Датский язык|датский]] (более 6 900 предложений)
 +
* [[Финский язык|финский]], [[Ложбан|ложбан]], [[Вьетнамский язык|вьетнамский]] (более 5 600)
 +
 
 +
Среди языков есть искусственные. Самым успешным является [[эсперанто]], но также существуют предложения на [[ложбан]]е, [[клингон]]е, [[Интерлингва|интерлингве]], [[идо]], [[Токи-пона|токи-поне]], [[волапюк]]е.
 +
 
 +
== Посещаемость ==
 +
В сентябре сайт посетило 22 тысячи человек, которые просмотрели на нём 369 тысяч страниц<ref>[http://blog.tatoeba.org/2010/10/some-stats.html Tatoeba Project Blog: Some stats (14 октября 2010)]</ref>.
 +
 
 +
== Критика ==
 +
Можно отметить следующие неоднозначные моменты:
 +
* Языки на сайте обозначаются флагами: иногда флагом государства, где говорят на языке, иногда выдуманным флагом. Некоторые флаги спорны (например, жители США высказывались против обозначения английского флагом Великобритании; для уйгурского языка используется флаг, запрещённый в Китае).
 +
* Среди примеров есть достаточно большое количество одинаковых или незначительно отличающихся предложений.
 +
 
 +
 
 +
== Программы ==
 +
 
 +
Некоторая функциональность представляется отдельными программами, работающими в фоновом режиме, по следующим причинам:
 +
# Их можно использовать в других проектах,
 +
# Неполадки в работе одного сервиса не остановят работу всей программы,
 +
# При необходимость любой сервис можно остановить,
 +
# Возможность перенести любой сервис на отдельный сервер для обеспечения масштабируемости,
 +
# Легче разделять работу между несколькими программистами. <ref>[http://tatoeba.org/rus/wall/show_message/13196#message_13196 Сообщение Алана Симона на стене проекта Tatoeba]</ref>
 +
 
 +
=== Определение языка ===
 +
 
 +
Для определения языка используется программа [[Tatodetect]].
 +
 
 +
=== Транскрипция китайского ===
 +
 
 +
Транскрипция для кантонского китайского и путунхуа генерируется с помощью созданного Симоном Алланом приложения [[Sinoparser]]. Транскрипция для шанхайского китайского генерируется отдельным приложением, которое недоступно для загрузки. Однако для генерации шанхайской транскрипции используется та же база данных, что и в [[cjklib]].
  
 
== Источники ==
 
== Источники ==
Строка 24: Строка 59:
 
== Ссылки ==
 
== Ссылки ==
 
* [http://www.tatoeba.org/ Сайт проекта]
 
* [http://www.tatoeba.org/ Сайт проекта]
 +
 +
[[Категория:Интернет-проекты]]
 +
[[Категория:Лингвистические сайты]]

Текущая версия на 13:48, 10 июля 2013

Tatoeba (от яп. たとえば например) — многоязычный корпус предложений, пополняемый сообществом пользователей. Все предложения из корпуса доступны для загрузки под свободной лицензией CC-BY.

История проекта

Администратор и создатель корпуса — француженка Хо Нгок Фуонг Чанг (Ho Ngoc Phuong Trang). Позже к ней присоединился второй администратор, Симон Аллан, также француз.

Основную часть корпуса до сих пор составляют предложения на английском и на японском, импортированные из корпуса Ясухито Танаки, являющегося общественным достоянием. Большая часть переводов с японского на французкий была импортирована с сайта TokiDoki.fr.

Первоначально заявлялось, что корпус Tatoeba является общественным достоянием. Однако, так как проект находится во Франции, где отсутствует возможность объявить свою работу общественным достоянием, 12 декабря 2009 года было принято решение распространять корпус по свободной лицензией Creative Commons Attribution[1].

В результате соглашения с ассоциацией Shtooka к некоторым предложениям появились аудиозаписи.

Поддерживаемые языки

На данный момент (лето 2012 года) проект поддерживает 114 языков[2], причём наибольшее количество предложений на следующих языках:

Кроме того, значительные объёмы предложений есть на следующих языках:

Среди языков есть искусственные. Самым успешным является эсперанто, но также существуют предложения на ложбане, клингоне, интерлингве, идо, токи-поне, волапюке.

Посещаемость

В сентябре сайт посетило 22 тысячи человек, которые просмотрели на нём 369 тысяч страниц[4].

Критика

Можно отметить следующие неоднозначные моменты:

  • Языки на сайте обозначаются флагами: иногда флагом государства, где говорят на языке, иногда выдуманным флагом. Некоторые флаги спорны (например, жители США высказывались против обозначения английского флагом Великобритании; для уйгурского языка используется флаг, запрещённый в Китае).
  • Среди примеров есть достаточно большое количество одинаковых или незначительно отличающихся предложений.


Программы

Некоторая функциональность представляется отдельными программами, работающими в фоновом режиме, по следующим причинам:

  1. Их можно использовать в других проектах,
  2. Неполадки в работе одного сервиса не остановят работу всей программы,
  3. При необходимость любой сервис можно остановить,
  4. Возможность перенести любой сервис на отдельный сервер для обеспечения масштабируемости,
  5. Легче разделять работу между несколькими программистами. [5]

Определение языка

Для определения языка используется программа Tatodetect.

Транскрипция китайского

Транскрипция для кантонского китайского и путунхуа генерируется с помощью созданного Симоном Алланом приложения Sinoparser. Транскрипция для шанхайского китайского генерируется отдельным приложением, которое недоступно для загрузки. Однако для генерации шанхайской транскрипции используется та же база данных, что и в cjklib.

Источники

Ссылки