Tatoeba
Tatoeba (от яп. たとえば например) — многоязычный корпус предложений, пополняемый сообществом пользователей. Все предложения из корпуса доступны для загрузки под свободной лицензией CC-BY.
История проекта
Администратор и создатель корпуса — француженка Хо Нгок Фуонг Чанг (Ho Ngoc Phuong Trang). Позже к ней присоединился второй администратор, Симон Аллан, также француз.
Основную часть корпуса до сих пор составляют предложения на английском и на японском, импортированные из корпуса Ясухито Танаки, являющегося общественным достоянием. Большая часть переводов с японского на французкий была импортирована с сайта [1].
Первоначально заявлялось, что корпус Tatoeba является общественным достоянием. Однако, так как проект находится во Франции, где отсутствует возможность объявить свою работу общественным достоянием, 12 декабря 2009 года было принято решение распространять корпус по свободной лицензией Creative Commons Attribution[1].
В результате соглашения с ассоциацией Shtooka к некоторым предложениям появились аудиозаписи.
Поддерживаемые языки
- Более 100 000 предложений: английский язык, японский язык
- Более 10 000 предложений: китайский язык, немецкий язык, польский язык, французкий язык
- Более 5 000 предложений: итальянский язык, испанский язык, русский язык
- Более 3 000 предложений: голландский язык, литературный арабский язык, португальский язык
- Более 1 000 предложений: исландский язык, норвежский язык (букмол), уйгурский язык, украинский язык
- Более 500 предложений: гуандунский китайский язык, финский язык, шанхайский китайский язык, шведский язык, эсперанто
- Более 100 предложений: баскский язык, болгарский язык, вьетнамский язык, грузинский язык, египетский арабский язык, индонезийский язык, иврит, корейский язык румынский язык, турецкий язык