Tatoeba: различия между версиями
Tempuser (обсуждение | вклад) м |
Demetrius (обсуждение | вклад) |
||
Строка 19: | Строка 19: | ||
Кроме того, значительные объёмы предложений есть на следующих языках: | Кроме того, значительные объёмы предложений есть на следующих языках: | ||
− | * [[Испанский язык|испанский]], [[Польский язык|польский]] (более | + | * [[Испанский язык|испанский]], [[Польский язык|польский]] (более 30 000) |
− | * [[Китайский язык|китайский]] ([[путунхуа]]), [[Русский язык|русский]] (более | + | * [[Китайский язык|китайский]] ([[путунхуа]]), [[Русский язык|русский]] (более 25 000); |
− | * [[Итальянский язык|итальянский]], [[Голландский язык|голландский]], [[Украинский язык|украинский]] (более | + | * [[Итальянский язык|итальянский]], [[Голландский язык|голландский]], [[Украинский язык|украинский]] (более 15 000). |
− | * [[Венгерский язык|венгерский]], [[иврит]], [[фарси]] (более | + | * [[Венгерский язык|венгерский]], [[иврит]], [[фарси]] (более 10 000) |
− | * [[Португальский язык|португальский]], [[Арабский язык|арабский]] (литературный), [[Исландский язык|исландский]], [[Турецкий язык|турецкий]], [[Нижнесаксонский язык|нижнесаксонский]], [[Датский язык|датский]] (более | + | * [[Португальский язык|португальский]], [[Арабский язык|арабский]] (литературный), [[Исландский язык|исландский]], [[Турецкий язык|турецкий]], [[Нижнесаксонский язык|нижнесаксонский]], [[Датский язык|датский]] (более 5 000 предложений) |
− | * [[Болгарский язык|болгарский]], [[Уйгурский язык|уйгурский]], [[хинди]], [[Шанхайский китайский язык|шанхайский китайский]], [[Вьетнамский язык|вьетнамский]] (более | + | * [[Болгарский язык|болгарский]], [[Уйгурский язык|уйгурский]], [[хинди]], [[Шанхайский китайский язык|шанхайский китайский]], [[Вьетнамский язык|вьетнамский]] (более 3 000) |
− | * [[Белорусский язык|белорусский]], [[клингон]], [[ложбан]] (более | + | * [[Белорусский язык|белорусский]], [[клингон]], [[ложбан]] (более 2 000) |
Среди языков есть искусственные. Самым успешным является [[эсперанто]], но также существуют предложения на [[клингон]]е, [[ложбан]]е, [[Интерлингва|интерлингве]], [[Токи-пона|токи-поне]] и [[волапюк]]е. | Среди языков есть искусственные. Самым успешным является [[эсперанто]], но также существуют предложения на [[клингон]]е, [[ложбан]]е, [[Интерлингва|интерлингве]], [[Токи-пона|токи-поне]] и [[волапюк]]е. | ||
Строка 36: | Строка 36: | ||
* Языки на сайте обозначаются флагами: иногда флагом государства, где говорят на языке, иногда выдуманным флагом. Некоторые флаги спорны (например, жители США высказывались против обозначения английского флагом Великобритании; для уйгурского языка используется флаг, запрещённый в Китае). | * Языки на сайте обозначаются флагами: иногда флагом государства, где говорят на языке, иногда выдуманным флагом. Некоторые флаги спорны (например, жители США высказывались против обозначения английского флагом Великобритании; для уйгурского языка используется флаг, запрещённый в Китае). | ||
* Среди примеров есть достаточно большое количество одинаковых или незначительно отличающихся предложений. | * Среди примеров есть достаточно большое количество одинаковых или незначительно отличающихся предложений. | ||
+ | |||
+ | == Транскрипция китайского == | ||
+ | |||
+ | Транскрипция для кантонского китайского и путунхуа генерируется с помощью созданного автором приложения. | ||
+ | |||
+ | Пока что предварительную версию можно загрузить по адресу [http://downloads.tatoeba.org/sinoparserd.tar.gz http://downloads.tatoeba.org/sinoparserd.tar.gz]. | ||
Версия 21:27, 14 января 2012
Tatoeba (от яп. たとえば например) — многоязычный корпус предложений, пополняемый сообществом пользователей. Все предложения из корпуса доступны для загрузки под свободной лицензией CC-BY.
История проекта
Администратор и создатель корпуса — француженка Хо Нгок Фуонг Чанг (Ho Ngoc Phuong Trang). Позже к ней присоединился второй администратор, Симон Аллан, также француз.
Основную часть корпуса до сих пор составляют предложения на английском и на японском, импортированные из корпуса Ясухито Танаки, являющегося общественным достоянием. Большая часть переводов с японского на французкий была импортирована с сайта TokiDoki.fr.
Первоначально заявлялось, что корпус Tatoeba является общественным достоянием. Однако, так как проект находится во Франции, где отсутствует возможность объявить свою работу общественным достоянием, 12 декабря 2009 года было принято решение распространять корпус по свободной лицензией Creative Commons Attribution[1].
В результате соглашения с ассоциацией Shtooka к некоторым предложениям появились аудиозаписи.
Поддерживаемые языки
На данный момент (весна 2011 года) проект поддерживает 88 языков[2], причём наибольшее количество предложений на следующих языках:
- английский (занял первое место по количеству предложений 4 сентября 2010 года[3])
- японский (в данный момент добавляется не очень много предложений, однако за счёт предложений из корпуса профессора Танаки язык долгое время был на первом месте по количеству предложений)
- эсперанто
- французский
- немецкий
Кроме того, значительные объёмы предложений есть на следующих языках:
- испанский, польский (более 30 000)
- китайский (путунхуа), русский (более 25 000);
- итальянский, голландский, украинский (более 15 000).
- венгерский, иврит, фарси (более 10 000)
- португальский, арабский (литературный), исландский, турецкий, нижнесаксонский, датский (более 5 000 предложений)
- болгарский, уйгурский, хинди, шанхайский китайский, вьетнамский (более 3 000)
- белорусский, клингон, ложбан (более 2 000)
Среди языков есть искусственные. Самым успешным является эсперанто, но также существуют предложения на клингоне, ложбане, интерлингве, токи-поне и волапюке.
Посещаемость
В сентябре сайт посетило 22 тысячи человек, которые просмотрели на нём 369 тысяч страниц[4].
Критика
Можно отметить следующие неоднозначные моменты:
- Языки на сайте обозначаются флагами: иногда флагом государства, где говорят на языке, иногда выдуманным флагом. Некоторые флаги спорны (например, жители США высказывались против обозначения английского флагом Великобритании; для уйгурского языка используется флаг, запрещённый в Китае).
- Среди примеров есть достаточно большое количество одинаковых или незначительно отличающихся предложений.
Транскрипция китайского
Транскрипция для кантонского китайского и путунхуа генерируется с помощью созданного автором приложения.
Пока что предварительную версию можно загрузить по адресу http://downloads.tatoeba.org/sinoparserd.tar.gz.