El Proyecto Moby es una colección de recursos léxicos de dominio público. Fue creado por Grady Ward . Los recursos se dedicaron al dominio público y ahora se reflejan en el Proyecto Gutenberg . En 2007 [actualizar], contiene la base de datos fonética gratuita más grande, con 177.267 palabras y las pronunciaciones correspondientes. [ cita requerida ]
Guionista
El Moby Hyphenator II contiene guiones de 187,175 palabras y frases (incluidas 9,752 entradas donde no se dan guiones, como por y avoir ). La codificación de caracteres parece ser MacRoman y la separación de sílabas se indica con una viñeta (valor de carácter 165 decimal o A5 hexadecimal). Sin embargo, algunas entradas tienen una combinación de guiones reales y el carácter 165, como "bar • ber-sur • geon".
Hay poca o ninguna documentación sobre las opciones de separación por sílabas realizadas; los siguientes ejemplos pueden dar una idea del estilo de separación de palabras utilizado: at • mos • phere; asistente; capacidad; un • col • o • a • ble.
Idioma
Moby Language II contiene listas de palabras de cinco idiomas: francés , alemán , italiano , japonés y español :
Idioma | Palabras | Tamaño (en bytes ) |
---|---|---|
francés | 138,257 | 1,524,757 |
alemán | 159,809 | 2,055,986 |
italiano | 60,453 | 561,981 |
japonés | 115,523 | 934,783 |
Español | 86,059 | 850,523 |
Total | 560,101 | 5.928.030 |
Sin embargo, algunas de las listas están contaminadas, por ejemplo, la lista japonesa contiene palabras en inglés como anormal y no palabras como abcdefgh y m ,. / . También hay peculiaridades inusuales en la clasificación de estas listas, ya que la lista francesa contiene una lista alfabética directa, mientras que la lista alemana contiene la lista alfabética de palabras tradicionalmente en mayúscula y luego la lista alfabética de palabras tradicionalmente en minúsculas. La lista de palabras italianas, sin embargo, no contiene ninguna palabra en mayúscula.
La lista de idiomas extranjeros no utiliza caracteres acentuados, por lo que "e ^ tre" es la forma en que un usuario buscaría la palabra francesa être ("ser").
Parte del discurso
Moby Part-of-Speech contiene 233,356 palabras completamente descritas por parte (s) del discurso , enumeradas en orden de prioridad. El formato del archivo es palabra \ partes del discurso , con las siguientes partes del discurso identificadas:
Parte del discurso | Código |
---|---|
Sustantivo | norte |
Plural | pag |
Frase sustantiva | h |
Verbo (generalmente participio ) | V |
Verbo transitivo | t |
Verbo intransitivo | I |
Adjetivo | A |
Adverbio | v |
Conjunción | C |
Preposición | PAG |
Interjección | ! |
Pronombre | r |
Artículo determinado | D |
Articulo indefinido | I |
Nominativo | o |
Pronunciator
El Moby Pronunciator II contiene 177.267 entradas con las pronunciaciones correspondientes. La mayoría de las entradas describen una sola palabra, pero aproximadamente 79.000 [1] contienen frases, nombres o lexemas con guiones o con varias palabras . La distribución del Proyecto Gutenberg también contiene una copia del cmudict v0.3. El archivo contiene líneas de la pronunciación de la palabra de formato [/ parte del discurso] . Cada línea termina con el carácter de retorno de carro ASCII (CR, '\ r', 0x0D, 13 en decimal).
El campo de palabras puede incluir apóstrofes (por ejemplo, no lo es ), guiones (por ejemplo, para personas sin discapacidad ) y varias palabras separadas por guiones bajos (por ejemplo, llave_mono ). Las palabras que no están en inglés generalmente se traducen, como se indica en la documentación, sin acentos u otros signos diacríticos. Sin embargo, en 36 entradas (por ejemplo, São_Miguel ), quedan algunos caracteres sin acento ASCII, representados con codificación Mac OS Roman .
El campo de la parte gramatical se utiliza para eliminar la ambigüedad de 770 de las palabras que tienen pronunciaciones diferentes dependiendo de su parte gramatical. Por ejemplo, para las palabras deletreadas cerca, el verbo tiene la pronunciación / k l oʊ z / , mientras que el adjetivo es / k l oʊ s / . A las partes del discurso se les han asignado los siguientes códigos:
Parte del discurso | Código |
---|---|
Sustantivo | norte |
Verbo | v |
Adjetivo | aj |
Adverbio | AV |
Interjección | interj |
A continuación de esto está la pronunciación. Hay varios símbolos especiales presentes:
Símbolo | Significado |
---|---|
_ | Se usa para separar palabras |
' | Acentuación primaria en la siguiente sílaba |
, | Acentuación secundaria en la siguiente sílaba |
El resto de los símbolos se utilizan para representar caracteres IPA . Las pronunciaciones son generalmente consistentes con un dialecto general americano del inglés, que exhibe fusión padre-molesto , fusión apresurada-peluda y división entre lotes , pero no muestra fusión atrapada en la cuna o fusión entre vino y lloriqueo . Cada fonema está representado por una secuencia de uno o más caracteres. Algunas de las secuencias están delimitadas con un carácter de barra "/", como se muestra en la siguiente tabla, pero tenga en cuenta que la secuencia para / ɔɪ / está delimitada por dos caracteres de barra en cada extremo:
Símbolo | IPA |
---|---|
/ & / | æ |
/ - / | ə |
/ @ / | ʌ, ə |
/ [@] / r | ɜr, ər |
/A/ | ɑ, ɑː |
/ai/ | aɪ |
/ AU / | aʊ |
B | B |
D | D |
/D/ | D |
/ dZ / | dʒ |
/MI/ | ɛ |
/ eI / | eɪ |
F | F |
gramo | ɡ |
h | h |
hw | hw |
/I/ | I |
/I/ | ɪ |
/ j / | j |
/ ju / | juː |
k | k |
l | l |
metro | metro |
norte | norte |
/NORTE/ | norte |
/ O / | ɔ, ɔː |
// Oi // | ɔɪ |
/UNED/ | oʊ |
pag | pag |
r | r |
s | s |
/S/ | ʃ |
t | t |
/ T / | θ |
/ tS / | tʃ |
/ u / | uː |
/ U / | ʊ |
v | v |
w | w |
z | z |
/ Z / | ʒ |
A esta colección se agregan varias secuencias adicionales que representan fonemas que se encuentran en varios otros idiomas. Se utilizan para codificar las palabras, frases y nombres que no están en inglés y que se incluyen en la base de datos. La siguiente tabla contiene estos fonemas adicionales, pero tenga en cuenta que no está claro hasta qué punto algunos de ellos pueden existir debido a errores de codificación.
Símbolo | IPA |
---|---|
A | a |
mi | e, ɛ |
I | yo, ɪ |
norte | Nasalización de la vocal precedente |
o | o |
O | [intención no clara] |
R | ʁ |
S | s |
tu | tu |
V | v, β, ʋ |
W | w |
/X/ | X |
/ y / | ø |
Y | y |
/ z / | ts |
Z | z |
Shakespeare
Moby Shakespeare contiene las obras íntegras completas de Shakespeare . Este recurso específico no está disponible en Project Gutenberg.
Tesauro
El Tesauro II de Moby contiene 30.260 palabras raíz, con 2.520.264 sinónimos y términos relacionados, un promedio de 83,3 por palabra raíz. Cada línea consta de una lista de valores separados por comas , donde el primer término es la palabra raíz y todas las palabras siguientes son términos relacionados.
Grady Ward colocó este diccionario de sinónimos en el dominio público en 1996. También está disponible como paquete Debian .
Palabras
Moby Words II es la lista de palabras más grande del mundo. [2] [Se necesitan citas adicionales ] La distribución consta de los siguientes 16 archivos:
Nombre del archivo | Palabras | Descripción |
---|---|---|
ACRÓNIMOS.TXT | 6.213 | Siglas y abreviaturas comunes |
COMMON.TXT | 74,550 | Palabras comunes presentes en dos o más diccionarios publicados |
COMPOUND.TXT | 256,772 | Frases, nombres propios y acrónimos no incluidos en el archivo de palabras comunes |
CROSSWD.TXT | 113,809 | Palabras incluidas en la primera edición del Diccionario oficial de jugadores de Scrabble |
CRSWD-D.TXT | 4.160 | Adiciones al Diccionario oficial de jugadores de Scrabble en la segunda edición |
FICCIÓN.TXT | 467 | Una lista de las subcadenas que aparecen con más frecuencia en el libro The Joy Luck Club |
FREQ.TXT | 1.000 | Palabras que aparecen con más frecuencia en el idioma inglés , enumeradas en orden descendente |
FREQ-INT.TXT | 1.000 | Palabras que aparecen con más frecuencia en Usenet en 1992, enumeradas con el porcentaje correspondiente en orden decreciente |
KJVFREQ.TXT | 1,185 | Subcadenas que aparecen con mayor frecuencia en la versión King James de la Biblia , enumeradas en orden descendente |
NAMES.TXT | 21,986 | Nombres más comunes usados en los Estados Unidos y Gran Bretaña |
NOMBRES-F.TXT | 4.946 | Común Inglés femeninos nombres |
NOMBRES-M.TXT | 3.897 | Común Inglés masculinos nombres |
OFTENMIS.TXT | 366 | Palabras inglesas mal escritas más comunes |
LUGARES.TXT | 10.196 | Nombres de lugares en los Estados Unidos |
SINGLE.TXT | 354,984 | Palabras sueltas que excluyen sustantivos propios, acrónimos, palabras compuestas y frases, pero que incluyen palabras arcaicas y variantes ortográficas significativas. |
USACONST.TXT | 7,618 | Constitución de los Estados Unidos, incluidas todas las enmiendas vigentes hasta 1993 |
Total | 863,149 | No el total de palabras únicas. |
Total Uniq | 639,995 | Total de nombres propios, acrónimos y palabras y frases compuestas (todos los archivos que contienen palabras únicas). |
Referencias
- ^ Se obtiene ejecutando el comando de UNIX grep '. * [-_]. *. *' Mobypron.unc | wc -l después de convertir los finales de línea y corregir algunos errores de codificación.
- ^ Diccionarios electrónicos
enlaces externos
- Página de inicio del Proyecto Moby , Universidad de Sheffield; copia realizada por Wayback Machine de la página tal como estaba el 30 de septiembre de 2017. ("Última modificación: 24 de octubre de 2000")
- Descargas de Project Gutenberg
- Buscando rimas con Perl ; código correspondiente