En informática , las palabras vacías son palabras que se filtran antes o después del procesamiento de datos en lenguaje natural (texto). [1] Aunque las "palabras vacías" generalmente se refieren a las palabras más comunes en un idioma, no existe una lista universal única de palabras vacías utilizadas por todas las herramientas de procesamiento del lenguaje natural y, de hecho, no todas las herramientas utilizan dicha lista. Algunas herramientas evitan específicamente eliminar estas palabras vacías para admitir la búsqueda de frases .
Se puede elegir cualquier grupo de palabras como palabras vacías para un propósito determinado. Para algunos motores de búsqueda , estas son algunas de las palabras de función cortas más comunes, como the , is , at , which y on . En este caso, las palabras vacías pueden causar problemas al buscar frases que las incluyan, particularmente en nombres como " El quién ", " El " o " Toma eso ". Otros motores de búsqueda eliminan algunas de las palabras más comunes, incluidas las palabras léxicas , como "querer", de una consulta para mejorar el rendimiento. [2]
Hans Peter Luhn , uno de los pioneros en la recuperación de información , tiene el mérito de acuñar la frase y utilizar el concepto. [3] La frase "palabra de parada", que no está en la presentación de Luhn de 1959, y los términos asociados "lista de parada" y "lista de parada" aparecen en la literatura poco después. [4]
Se utilizó un concepto predecesor para crear algunas concordancias . Por ejemplo, la primera concordancia hebrea, Me'ir nativ, contenía una lista de una página de palabras no indexadas, con preposiciones y conjunciones no sustantivas que son similares a las palabras vacías modernas. [5]
En la terminología de SEO , las palabras vacías son las palabras más comunes que la mayoría de los motores de búsqueda evitan, con el propósito de ahorrar espacio y tiempo en el procesamiento de grandes datos durante el rastreo o la indexación . Esto ayuda a los motores de búsqueda a ahorrar espacio en sus bases de datos. [6]
Ver también
Referencias
- ^ Rajaraman, A .; Ullman, JD (2011). "Minería de datos" (PDF) . Minería de conjuntos de datos masivos . págs. 1-17. doi : 10.1017 / CBO9781139058452.002 . ISBN 9781139058452.
- ^ Stackoverflow : "Una de nuestras principales optimizaciones de rendimiento para la consulta de" preguntas relacionadas "es eliminar las 10.000 palabras más comunes del diccionario de inglés (según lo determinado por la búsqueda de Google) antes de enviar la consulta al motor de texto completo de SQL Server 2008. Es impactante cómo poco queda de la mayoría de las publicaciones una vez que eliminas las 10k principales palabras del diccionario de inglés. Esto ayuda a limitar y acotar los resultados devueltos, lo que hace que la consulta sea mucho más rápida ".
- ^ Luhn, HP (1959). "Índice de palabras clave en contexto para la literatura técnica (índice KWIC)". Documentación americana . Yorktown Heights, Nueva York: International Business Machines Corp. 11 (4): 288–295. doi : 10.1002 / asi.5090110403 .
- ^ Inundación, Barbara J. (1999). "Nota histórica: el inicio de una lista de detención en resúmenes biológicos". Revista de la Sociedad Estadounidense de Ciencias de la Información . 50 (12): 1066. doi : 10.1002 / (SICI) 1097-4571 (1999) 50:12 <1066 :: AID-ASI5> 3.0.CO; 2-A .
- ^ Weinberg, Bella Hass (2004). "Predecesores de las estructuras de indexación científica en el ámbito de la religión" (PDF) . Segunda Conferencia sobre Historia y Patrimonio de los Sistemas de Información Científica y Técnica : 126-134 . Consultado el 17 de febrero de 2016 .
- ^ "Stop Words e impacto en SEO - Search Engine Nation" . Nación del motor de búsqueda . 2018-04-24 . Consultado el 24 de mayo de 2018 .
enlaces externos
- Lista de palabras vacías en inglés (matriz PHP, CSV)
- Palabras vacías de texto completo en MySQL
- Palabras vacías en inglés (CSV)
- Palabras de detención Indonesia Query PHP Array
- Palabras vacías alemanas , palabras vacías y frases alemanas , otra lista de palabras vacías alemanas
- Palabras de parada polacas
- Colección de palabras vacías en 29 idiomas ( archivo )
- Lista de palabras de parada en hindi