Tatoeba es una base de datos en línea colaborativa gratuita de oraciones de ejemplo dirigidas a estudiantes de idiomas extranjeros . Su nombre proviene del término japonés "tatoeba" (例 え ば), que significa "por ejemplo". A diferencia de otros diccionarios en línea , que se enfocan en palabras, Tatoeba se enfoca en la traducción de oraciones completas . Además, la estructura de la base de datos y la interfaz enfatizan las relaciones de uno a muchos . No solo una oración puede tener múltiples traducciones dentro de un solo idioma, sino que sus traducciones a todos los idiomas son fácilmente visibles, al igual que las traducciones indirectas que involucran una cadena de enlaces escalonados de un idioma a otro.
![]() | |
Tipo de sitio | "Diccionario de oraciones" multilingüe colaborativo abierto |
---|---|
Disponible en | 25 idiomas de la interfaz; contenido en 301 idiomas (mayo de 2016) |
Dueño | Trang Ho, Allan Simon |
Creado por | Trang Ho, Allan Simon |
URL | tatoeba |
Comercial | No |
Registro | Opcional |
Lanzado | 2006 |
Estado actual | En línea; beta |
Licencia de contenido | Reconocimiento 2.0 de Creative Commons |
El objetivo del proyecto
El objetivo del Proyecto Tatoeba es crear una base de datos de oraciones y traducciones que pueda ser utilizada por cualquier persona que desarrolle una aplicación de aprendizaje de idiomas . La idea es que el proyecto cree los datos, por lo que los programadores pueden concentrarse en codificar la aplicación.
Los datos recopilados por el proyecto están disponibles gratuitamente bajo una licencia Creative Commons Attribution (CC-BY) .
Contenido
A junio de 2019, el Tatoeba Corpus tiene más de 7.500.000 oraciones en 337 idiomas. Los 10 idiomas principales constituyen el 73% del corpus. Noventa y ocho de estos idiomas tienen más de 1.000 frases. Los 14 idiomas principales tienen más de 100.000 frases cada uno.
Tatoeba es también el hogar actual del Tanaka Corpus, una serie de dominio público de aproximadamente 150.000 pares de oraciones en inglés y japonés compilada por el profesor de la Universidad de Hyogo Yasuhito Tanaka, publicada por primera vez en 2001, y donde está pasando por sus últimas revisiones. [1] [2]
Las estadísticas para todos los idiomas se encuentran en [1] .
Historia
Tatoeba fue fundada por Trang Ho en 2006. Originalmente organizó el proyecto en Sourceforge con el nombre de proyecto "multilangdict". [3]
Interfaz
Los usuarios, incluso aquellos que no están registrados, pueden buscar palabras en cualquier idioma para recuperar frases que las utilicen. Cada oración en la base de datos de Tatoeba se muestra junto a sus posibles traducciones en otros idiomas; Se diferencian las traducciones directas e indirectas. Las oraciones se etiquetan por contenido como tema, dialecto o vulgaridad ; también cada uno tiene hilos de comentarios individuales para facilitar la retroalimentación y las correcciones de otros usuarios y notas culturales. A principios de 2016, más de 200.000 oraciones en 19 idiomas tenían lecturas de audio de diferente calidad. Las oraciones también se pueden buscar por idioma, etiqueta o audio.
Los usuarios registrados pueden agregar nuevas oraciones o traducir o revisar las existentes, incluso si su idioma de destino no es su lengua materna. Sin embargo, se prefiere que los usuarios traduzcan a su idioma nativo o "más fuerte" y agreguen oraciones de su idioma nativo en lugar de traducir o agregar desde su idioma de destino. [4]
Esto significa que el corpus de texto no está libre de errores; todos los usuarios pueden traducir oraciones incluso si no tienen idea sobre este idioma específico; debido a la cantidad de oraciones, no es posible verificar ninguna oración si es correcta o no. Además, a finales de 2019, incluso los términos de uso del sitio web no están traducidos.
Las traducciones se vinculan a la oración original automáticamente. Los usuarios pueden editar libremente sus oraciones, "adoptar" y corregir oraciones sin un propietario y comentar las oraciones de otros. Los contribuyentes avanzados, con un rango superior a los contribuyentes ordinarios, pueden etiquetar, vincular y desvincular oraciones. Los mantenedores de corpus, que se encuentran por encima de los contribuyentes avanzados, pueden quitar la etiqueta y eliminar frases. También pueden modificar las oraciones propias, aunque normalmente lo hacen solo si el propietario no responde a una solicitud para realizar el cambio.
Estructura de la base de datos
La estructura de datos básica de Tatoeba es una serie de nodos y enlaces. Cada oración es un nodo; cada vínculo une dos oraciones con el mismo significado. [5]
Licencia
Toda la base de datos de Tatoeba se publica bajo una licencia Creative Commons Attribution 2.0 , [6] que la libera para uso académico y de otro tipo.
Subsidios
Tatoeba recibió una subvención de Mozilla Drumbeat en diciembre de 2010. [7] [8]
Algunos trabajos en la infraestructura de Tatoeba fueron patrocinados por Google Summer of Code , edición de 2014. [9]
En mayo de 2018 recibieron una subvención del programa Mozilla Open Source Support (MOSS) de $ 25,000. [10]
En agosto de 2019, recibieron una subvención del programa Mozilla Open Source Support (MOSS) de $ 15,000. [11]
Uso
Los corpus de texto paralelo, como Tatoeba, se utilizan para una variedad de tareas de procesamiento del lenguaje natural , como la traducción automática . Los datos Tatoeba se ha utilizado como datos para treebanking japonesa [12] y la traducción automática estadística, [13] así como la WWWJDIC diccionario japonés-Inglés y los pares de frases bilingües y de lectura japonés y práctica de la traducción en www.ManyThings.org.
Edición sin conexión
El contenido seleccionado de Tatoeba - 83,932 frases en esperanto junto con todas sus traducciones a otros idiomas - ha aparecido en la tercera edición del DVD multilingüe Esperanto Elektronike ("Esperanto electrónico") publicado en 6,000 copias por E @ I en julio de 2011.
Los datos delimitados por tabuladores listos para importar a Anki y software similar se pueden descargar directamente en el sitio web de Tatoeba.
Ver también
- Libro de frases
- Lista de oraciones de ejemplo lingüísticas
Referencias
- ^ "Tanaka Corpus" . Wiki de EDRDG . Grupo de Investigación y Desarrollo de Diccionario Electrónico. 3 de febrero de 2011 . Consultado el 20 de marzo de 2011 .
- ^ Breen, Jim (2 de marzo de 2011). "WWWJDIC - Información" . WWWJDIC . Universidad de Monash . Consultado el 20 de marzo de 2011 .
- ^ "Proyecto del diccionario de Trang" . sourceforge.net .
- ^ http://en.wiki.tatoeba.org/articles/show/quick-start
- ^ Ho, Trang (23 de febrero de 2010). "Cómo ser un buen colaborador en Tatoeba" . Blog del proyecto Tatoeba . Consultado el 20 de marzo de 2011 .
- ^ "Condiciones de uso" . Tatoeba.org . Consultado el 20 de marzo de 2011 .
- ^ Ho, Trang (17 de enero de 2011). "Beca de Mozilla Drumbeat" . Blog del proyecto Tatoeba . Consultado el 20 de marzo de 2011 .
- ^ Moltke, Henrik (30 de diciembre de 2010). "Mejores proyectos de Drumbeat: Tatoeba - una base de datos libre y abierta de oraciones" . Yoyodyne.cc . Archivado desde el original el 2 de enero de 2011 . Consultado el 20 de marzo de 2011 .
... la Fundación Mozilla quiere alentar y ayudar al proyecto Tatoeba otorgándole una beca Mozilla Drumbeat de USD 2.5K.
- ^ https://www.google-melange.com/gsoc/org2/google/gsoc2014/tatoeba
- ^ https://blog.tatoeba.org/2018/05/moss-award-for-tatoeba.html
- ^ https://blog.tatoeba.org/2019/08/a-second-moss-award.html
- ^ Francis Bond, 栗林 孝行 [Takayuki Kuribayashi], 橋本 力 [Hashimoto Chikara] (2008) HPSG に 基 づ く フ リ ー な 日本語 ツ リ ー バ ン ク の 構築 [Un banco de árboles japonés gratuito basado en HPSG]. En la 14ª Reunión Anual de la Asociación para el Procesamiento del Lenguaje Natural, Tokio.
- ^ Eric Nichols, Francis Bond, Darren Scott Appling y Yuji Matsumoto (2010) parafraseando los datos de formación para la traducción automática estadística. Journal of Natural Language Processing, 17 (3), páginas 101–122.
enlaces externos
- Página web oficial
- (Youtube) Video que presenta las ideas clave detrás del Proyecto Tatoeba