Proyecto Moby

El Proyecto Moby es una colección de recursos léxicos de dominio público. Fue creado por Grady Ward . Los recursos se dedicaron al dominio público y ahora se reflejan en el Proyecto Gutenberg . En 2007 ^[actualizar], contiene la base de datos fonética gratuita más grande, con 177.267 palabras y las pronunciaciones correspondientes. ^{[ cita requerida ]}

Guionista

El Moby Hyphenator II contiene guiones de 187,175 palabras y frases (incluidas 9,752 entradas donde no se dan guiones, como por y avoir ). La codificación de caracteres parece ser MacRoman y la separación de sílabas se indica con una viñeta (valor de carácter 165 decimal o A5 hexadecimal). Sin embargo, algunas entradas tienen una combinación de guiones reales y el carácter 165, como "bar • ber-sur • geon".

Hay poca o ninguna documentación sobre las opciones de separación por sílabas realizadas; los siguientes ejemplos pueden dar una idea del estilo de separación de palabras utilizado: at • mos • phere; asistente; capacidad; un • col • o • a • ble.

Idioma

Moby Language II contiene listas de palabras de cinco idiomas: francés , alemán , italiano , japonés y español :

Idioma	Palabras	Tamaño (en bytes )
francés	138,257	1,524,757
alemán	159,809	2,055,986
italiano	60,453	561,981
japonés	115,523	934,783
Español	86,059	850,523
Total	560,101	5.928.030

Sin embargo, algunas de las listas están contaminadas, por ejemplo, la lista japonesa contiene palabras en inglés como anormal y no palabras como abcdefgh y m ,. / . También hay peculiaridades inusuales en la clasificación de estas listas, ya que la lista francesa contiene una lista alfabética directa, mientras que la lista alemana contiene la lista alfabética de palabras tradicionalmente en mayúscula y luego la lista alfabética de palabras tradicionalmente en minúsculas. La lista de palabras italianas, sin embargo, no contiene ninguna palabra en mayúscula.

La lista de idiomas extranjeros no utiliza caracteres acentuados, por lo que "e ^ tre" es la forma en que un usuario buscaría la palabra francesa être ("ser").

Parte del discurso

Moby Part-of-Speech contiene 233,356 palabras completamente descritas por parte (s) del discurso , enumeradas en orden de prioridad. El formato del archivo es palabra \ partes del discurso , con las siguientes partes del discurso identificadas:

Parte del discurso	Código
Sustantivo	norte
Plural	pag
Frase sustantiva	h
Verbo (generalmente participio )	V
Verbo transitivo	t
Verbo intransitivo	I
Adjetivo	A
Adverbio	v
Conjunción	C
Preposición	PAG
Interjección	!
Pronombre	r
Artículo determinado	D
Articulo indefinido	I
Nominativo	o

Pronunciator

El Moby Pronunciator II contiene 177.267 entradas con las pronunciaciones correspondientes. La mayoría de las entradas describen una sola palabra, pero aproximadamente 79.000 ^[1] contienen frases, nombres o lexemas con guiones o con varias palabras . La distribución del Proyecto Gutenberg también contiene una copia del cmudict v0.3. El archivo contiene líneas de la pronunciación de la palabra de formato [/ parte del discurso] . Cada línea termina con el carácter de retorno de carro ASCII (CR, '\ r', 0x0D, 13 en decimal).

El campo de palabras puede incluir apóstrofes (por ejemplo, no lo es ), guiones (por ejemplo, para personas sin discapacidad ) y varias palabras separadas por guiones bajos (por ejemplo, llave_mono ). Las palabras que no están en inglés generalmente se traducen, como se indica en la documentación, sin acentos u otros signos diacríticos. Sin embargo, en 36 entradas (por ejemplo, São_Miguel ), quedan algunos caracteres sin acento ASCII, representados con codificación Mac OS Roman .

El campo de la parte gramatical se utiliza para eliminar la ambigüedad de 770 de las palabras que tienen pronunciaciones diferentes dependiendo de su parte gramatical. Por ejemplo, para las palabras deletreadas cerca, el verbo tiene la pronunciación / k l oʊ z / , mientras que el adjetivo es / k l oʊ s / . A las partes del discurso se les han asignado los siguientes códigos:

Parte del discurso	Código
Sustantivo	norte
Verbo	v
Adjetivo	aj
Adverbio	AV
Interjección	interj

A continuación de esto está la pronunciación. Hay varios símbolos especiales presentes:

Símbolo	Significado
_	Se usa para separar palabras
'	Acentuación primaria en la siguiente sílaba
,	Acentuación secundaria en la siguiente sílaba

El resto de los símbolos se utilizan para representar caracteres IPA . Las pronunciaciones son generalmente consistentes con un dialecto general americano del inglés, que exhibe fusión padre-molesto , fusión apresurada-peluda y división entre lotes , pero no muestra fusión atrapada en la cuna o fusión entre vino y lloriqueo . Cada fonema está representado por una secuencia de uno o más caracteres. Algunas de las secuencias están delimitadas con un carácter de barra "/", como se muestra en la siguiente tabla, pero tenga en cuenta que la secuencia para / ɔɪ / está delimitada por dos caracteres de barra en cada extremo:

Símbolo	IPA
/ & /	æ
/ - /	ə
/ @ /	ʌ, ə
/ [@] / r	ɜr, ər
/A/	ɑ, ɑː
/ai/	aɪ
/ AU /	aʊ
B	B
D	D
/D/	D
/ dZ /	dʒ
/MI/	ɛ
/ eI /	eɪ
F	F
gramo	ɡ
h	h
hw	hw
/I/	I
/I/	ɪ
/ j /	j
/ ju /	juː
k	k
l	l
metro	metro
norte	norte
/NORTE/	norte
/ O /	ɔ, ɔː
// Oi //	ɔɪ
/UNED/	oʊ
pag	pag
r	r
s	s
/S/	ʃ
t	t
/ T /	θ
/ tS /	tʃ
/ u /	uː
/ U /	ʊ
v	v
w	w
z	z
/ Z /	ʒ

A esta colección se agregan varias secuencias adicionales que representan fonemas que se encuentran en varios otros idiomas. Se utilizan para codificar las palabras, frases y nombres que no están en inglés y que se incluyen en la base de datos. La siguiente tabla contiene estos fonemas adicionales, pero tenga en cuenta que no está claro hasta qué punto algunos de ellos pueden existir debido a errores de codificación.

Símbolo	IPA
A	a
mi	e, ɛ
I	yo, ɪ
norte	Nasalización de la vocal precedente
o	o
O	[intención no clara]
R	ʁ
S	s
tu	tu
V	v, β, ʋ
W	w
/X/	X
/ y /	ø
Y	y
/ z /	ts
Z	z

Shakespeare

Moby Shakespeare contiene las obras íntegras completas de Shakespeare . Este recurso específico no está disponible en Project Gutenberg.

Tesauro

El Tesauro II de Moby contiene 30.260 palabras raíz, con 2.520.264 sinónimos y términos relacionados, un promedio de 83,3 por palabra raíz. Cada línea consta de una lista de valores separados por comas , donde el primer término es la palabra raíz y todas las palabras siguientes son términos relacionados.

Grady Ward colocó este diccionario de sinónimos en el dominio público en 1996. También está disponible como paquete Debian .

Palabras

Moby Words II es la lista de palabras más grande del mundo. ^[2]^{[Se necesitan citas adicionales ]} La distribución consta de los siguientes 16 archivos:

Nombre del archivo	Palabras	Descripción
ACRÓNIMOS.TXT	6.213	Siglas y abreviaturas comunes
COMMON.TXT	74,550	Palabras comunes presentes en dos o más diccionarios publicados
COMPOUND.TXT	256,772	Frases, nombres propios y acrónimos no incluidos en el archivo de palabras comunes
CROSSWD.TXT	113,809	Palabras incluidas en la primera edición del Diccionario oficial de jugadores de Scrabble
CRSWD-D.TXT	4.160	Adiciones al Diccionario oficial de jugadores de Scrabble en la segunda edición
FICCIÓN.TXT	467	Una lista de las subcadenas que aparecen con más frecuencia en el libro The Joy Luck Club
FREQ.TXT	1.000	Palabras que aparecen con más frecuencia en el idioma inglés , enumeradas en orden descendente
FREQ-INT.TXT	1.000	Palabras que aparecen con más frecuencia en Usenet en 1992, enumeradas con el porcentaje correspondiente en orden decreciente
KJVFREQ.TXT	1,185	Subcadenas que aparecen con mayor frecuencia en la versión King James de la Biblia , enumeradas en orden descendente
NAMES.TXT	21,986	Nombres más comunes usados en los Estados Unidos y Gran Bretaña
NOMBRES-F.TXT	4.946	Común Inglés femeninos nombres
NOMBRES-M.TXT	3.897	Común Inglés masculinos nombres
OFTENMIS.TXT	366	Palabras inglesas mal escritas más comunes
LUGARES.TXT	10.196	Nombres de lugares en los Estados Unidos
SINGLE.TXT	354,984	Palabras sueltas que excluyen sustantivos propios, acrónimos, palabras compuestas y frases, pero que incluyen palabras arcaicas y variantes ortográficas significativas.
USACONST.TXT	7,618	Constitución de los Estados Unidos, incluidas todas las enmiendas vigentes hasta 1993
Total	863,149	No el total de palabras únicas.
Total Uniq	639,995	Total de nombres propios, acrónimos y palabras y frases compuestas (todos los archivos que contienen palabras únicas).

Referencias

^ Se obtiene ejecutando el comando de UNIX grep '. * [-_]. *. *' Mobypron.unc | wc -l después de convertir los finales de línea y corregir algunos errores de codificación.
^ Diccionarios electrónicos

enlaces externos

Página de inicio del Proyecto Moby , Universidad de Sheffield; copia realizada por Wayback Machine de la página tal como estaba el 30 de septiembre de 2017. ("Última modificación: 24 de octubre de 2000")
Descargas de Project Gutenberg
Buscando rimas con Perl ; código correspondiente

[1] ^ Se obtiene ejecutando el comando de UNIX grep '. * [-_]. *. *' Mobypron.unc | wc -l después de convertir los finales de línea y corregir algunos errores de codificación.

[2] Diccionarios electrónicos

[1]