Wikipedia: prueba de motor de búsqueda

Atajos

WP: ESTABLECER
WP: GOOG
WP: GOOGLE
WP: GOOGLETEST
WP: GTEST

Un motor de búsqueda enumera páginas web en Internet . Esto facilita la investigación al ofrecer una variedad inmediata de opciones aplicables. Los elementos posiblemente útiles de la lista de resultados incluyen el material de origen o las herramientas electrónicas que puede proporcionar un sitio web, como un diccionario, pero la lista en sí, en su conjunto, también puede indicar información importante. Sin embargo, discernir esa información puede requerir conocimiento.

Hacer referencia a los resultados del motor de búsqueda es una forma rápida de presentar (lo que es notable ) o eliminar (lo que no es verificable ) material de origen, dependiendo de su confiabilidad. Existe una gran demanda de fiabilidad en Wikipedia . Discernir la confiabilidad del material de origen es una habilidad especialmente fundamental para usar la web, mientras que el wiki en sí solo facilita la creación de múltiples borradores. A medida que avanzan las presentaciones y las eliminaciones, esta variedad de opciones de entrada tiende a producir el objetivo deseado: un punto de vista neutral . Dependiendo del tipo de consulta y tipo de motor de búsqueda, esta variedad puede abrirse a un solo autor.

Algunas pruebas de motores de búsqueda

Popularidad : consulte la herramienta de tendencias de Google a continuación.
Uso : identifica la notoriedad de un término. (Consulte, por ejemplo, la herramienta ngram de Google ).
Autenticidad : identifique un engaño falso o una leyenda urbana .
Notabilidad : decida si una página debe nominarse para su eliminación.
Existencia : descubra qué fuentes (incluidos sitios web) existen realmente para una posible presentación.
Información : revise la confiabilidad de los hechos y las citas.
Nombres y terminología : identifique los nombres utilizados para las cosas (incluidos los nombres alternativos y la terminología).
Derechos de autor : identifique si el material está copiado y, de ser así, verifique la licencia.

Esta página describe tanto estas pruebas de búsqueda web como las herramientas de búsqueda web que pueden ayudar a desarrollar Wikipedia, y describe sus sesgos y limitaciones.

Las ventajas de un motor de búsqueda específico se pueden distinguir mediante el uso de una variedad de motores de búsqueda comunes. Las distintas ventajas de cada uno son su interfaz de usuario y, menos obviamente, sus algoritmos para compilar y buscar sus propios índices. Debido a que un rastreador web puede bloquearse, ya sea específico o simplemente en general, diferentes motores de búsqueda pueden enumerar diferentes sitios web, y hay más sitios web disponibles por URL de los que están indexados en cualquier base de datos.

Los motores de búsqueda más comunes se encuentran en Google , Bing y Yahoo . Existen motores de búsqueda especializados para medicina , ciencia , noticias y derecho, entre otros. Existen varios motores de búsqueda generalizados. Estos adaptan su consulta a muchos motores de búsqueda. Consulte § Motores de búsqueda comunes a continuación. Esta página usa principalmente Google en lugar de Bing o Yahoo , pero apunta a la generalidad donde puede. Por ejemplo, describe Google Groups (grupos de Usenet), Google Scholar (academia), Google News y Google Books .

Búsqueda de buena fe: una regla de oro

Atajos

WP: GFG
WP: GOOGLECHECK

Si una adición sin fuente a un artículo parece plausible, considere tomarse un momento para usar un motor de búsqueda adecuado para encontrar una fuente confiable antes de decidir si revertir.

Pruebas de motores de búsqueda

Dependiendo del tema y del cuidado con que se utilice, una prueba de motor de búsqueda puede ser muy eficaz y útil, o producir resultados engañosos o no útiles. En la mayoría de los casos, una prueba de motor de búsqueda es una heurística de primer paso o una " regla empírica ".

Qué puede hacer una prueba de búsqueda y qué no

Un motor de búsqueda puede indexar páginas y texto que otros han colocado en Internet, como un gran índice al final de un libro.

Los motores de búsqueda pueden:

Proporcione información y dirija a páginas que lo ayuden con los objetivos anteriores.
Confirmar "quién dice haber dicho qué" según las fuentes (útil para citas neutrales)
Proporcionar a menudo copias completas citadas de los documentos originales.
Confirme aproximadamente qué tan popularmente se hace referencia a una expresión. Sin embargo, tenga en cuenta que las búsquedas de Google pueden informar de muchas más visitas de las que jamás se devolverán al usuario, especialmente para las expresiones entre comillas exactas. Por ejemplo, una búsqueda en Google de "el pez de colores verde", con comillas, en 2021 inicialmente reporta alrededor de 209,000 resultados, sin embargo, al pasar a la última página de resultados de búsqueda, se muestra que el número devuelto de resultados es 303. Consulte también aquí para calcular las estadísticas. significado. ^[1]
Busque más específicamente dentro de ciertos sitios web, o por frases combinadas y alternativas (o excluya ciertas palabras y frases que de otro modo confundirían los resultados).

Los motores de búsqueda no pueden:

Garantice que los resultados sean confiables o "verdaderos" (los motores de búsqueda indexan cualquier texto que la gente elija poner en línea, verdadero o falso).
Garantice por qué se menciona mucho algo y que no se debe al marketing , a la publicación como un meme de Internet , al spam oa la autopromoción, más que a la importancia.
Garantice que los resultados reflejen los usos a los que se refiere, en lugar de otros usos. (Por ejemplo, una búsqueda de un John Smith específico puede encontrar muchos "John Smiths" que no son los indicados, muchas páginas que contienen "John" y "Smith" por separado, y también perder todas las referencias útiles indexadas en "J . Smith "o, si el término se pone entre comillas," John Michael Smith "y" Smith, John ")
Garantice que no se perderán referencias cruciales mediante la elección de la expresión de búsqueda.
Garantice que los elementos que se mencionan poco o no se mencionan automáticamente no son importantes.
Garantice que un resultado en particular es la instancia original de un fragmento de texto y no una reimpresión, extracto, cita, cita incorrecta o violación de derechos de autor.

y los motores de búsqueda a menudo no:

Proporcione la investigación más reciente en profundidad en la misma medida que las revistas y los libros, para temas de rápido desarrollo.
Sea neutral .

Una prueba de motor de búsqueda no puede ayudarlo a evitar el trabajo de interpretar sus resultados y decidir qué muestran realmente. La aparición en un índice por sí sola no suele ser prueba de nada.

Pruebas de motores de búsqueda y políticas de Wikipedia

Verificabilidad

Las pruebas de los motores de búsqueda pueden arrojar resultados ficticios, sesgados, engañosos o similares. Es importante considerar si la información utilizada proviene de fuentes confiables antes de usarla o citarla. Las fuentes menos confiables pueden ser inútiles o necesitar que se aclare su estado y base, de modo que otros lectores obtengan una comprensión neutra e informada para juzgar cuán confiables son las fuentes.

Neutralidad

Google (y otros sistemas de búsqueda) no apuntan a un punto de vista neutral . Wikipedia lo hace. Google indexa las páginas de medios y las páginas de creación propia que no tienen una política de neutralidad. Wikipedia tiene una política de neutralidad que es obligatoria y se aplica a todos los artículos y a toda la actividad editorial relacionada con los artículos.

Como tal, Google es específicamente no una fuente de títulos neutros - solamente de los populares. La neutralidad es obligatoria en Wikipedia (incluida la decisión de cómo se llaman las cosas) incluso si no en otro lugar, y específicamente, la neutralidad triunfa sobre la popularidad.

(Consulte WP: NPOV § Neutralidad y verificabilidad para obtener información sobre el equilibrio de las políticas sobre verificabilidad y neutralidad, y WP: NPOV § Nomenclatura de artículos sobre cómo deben nombrarse los artículos)

Notabilidad

El recuento de "aciertos" (resultado de búsqueda) sin procesar es una medida de importancia muy burda. Algunos temas sin importancia tienen muchos "aciertos", algunos notables tienen pocos o ninguno, por las razones que se analizan más adelante en esta página.

Los números de recuento de aciertos por sí solos solo rara vez pueden "probar" algo sobre la notabilidad , sin más discusión sobre el tipo de aciertos, lo que se ha buscado, cómo se buscó y qué interpretación dar a los resultados. Por otra parte, el examen de los tipos de golpe que surge ^{[ aclaración necesaria ]} (o su falta) a menudo hace proporcionar información útil relacionada con la notabilidad.

Además, los motores de búsqueda no eliminan la ambigüedad y tienden a coincidir con búsquedas parciales. (Sin embargo, como se describe a continuación, puede eliminar coincidencias parciales citando la frase que se va a emparejar): Si bien Madonna of the Rocks es ciertamente una entrada enciclopédica y notable, no es un ícono de la cultura pop. Sin embargo, debido a la coincidencia de Madonna como una coincidencia parcial, así como a otras referencias de Madonna no relacionadas con la pintura, los resultados de un recuento de resultados de búsqueda de Google o Bing serán desproporcionados en comparación con cualquier pintura renacentista igualmente notable. Para excluir coincidencias parciales al buscar en Google la frase, cite la frase que se corresponderá de la siguiente manera: "Madonna of the Rocks" .

Usando motores de búsqueda

Expresiones del motor de búsqueda (ejemplos y tutorial)

Esta sección explica algunas expresiones de búsqueda utilizadas en la búsqueda web de Google . ^[2] Enfoques similares funcionarán en muchos otros motores de búsqueda y otras búsquedas de Google, pero siempre lea sus páginas de ayuda para obtener más información, ya que las capacidades y el funcionamiento de los motores de búsqueda a menudo difieren. Tenga en cuenta que si ha iniciado sesión en una cuenta de Google cuando realiza una búsqueda en Google, esto puede afectar los resultados que obtenga, según su historial de búsqueda. ^[3] Asegúrese también de marcar "Idiomas para mostrar resultados (de búsqueda)" en "Configuración de búsqueda". ^[4] )

La herramienta de motor de búsqueda más útil puede ser el uso de comillas para encontrar una coincidencia exacta para una frase. Sin embargo, un motor de búsqueda como Google tiene una búsqueda fácil y avanzada con más opciones de búsqueda. La búsqueda avanzada hace que sea más fácil ingresar opciones avanzadas, que pueden ayudar en su búsqueda. Las siguientes secciones plegables cubren ejemplos básicos y ayuda para usar motores de búsqueda con Wikipedia.

Los motores de búsqueda especializados, como los archivos de documentos médicos, tienen su propia estructura de búsqueda especializada que no se incluye aquí.

Usos específicos de los motores de búsqueda en Wikipedia

Google Trends puede permitirle encontrar qué representación de una palabra o nombre es la más buscada, como esta (nota: categoría de deportes) o así . Ejemplo de "maremoto" frente a "tsunami" , consulte también el ejemplo de Google Libros a continuación.
Google Books tiene un patrón de cobertura que está más de acuerdo con el contenido de las enciclopedias tradicionales que la Web, considerada en su conjunto; si tiene un sesgo sistémico, es un sesgo sistémico muy diferente al de las búsquedas web de Google. Varios resultados en una frase exacta en la búsqueda de libros de Google proporcionan evidencia convincente del uso real de la frase o el concepto. Puede comparar el uso de términos, como "Maremoto" frente a "Tsunami" . La búsqueda de libros de Google puede encontrar testimonios publicados en forma impresa sobre la importancia de una persona, evento o concepto. También se puede utilizar para reemplazar un hecho de "conocimiento común" sin fuente con una versión impresa del mismo hecho. ^[5]
Los Grupos de Google u otros medios con sello de fecha pueden ayudar a establecer el momento y el contexto de las primeras referencias a una palabra o frase. Búsqueda de Grupos de Google .
Google News puede ayudar a evaluar si algo es de interés periodístico. Google News solía ser menos susceptible a la manipulación por parte de los autopromotores, pero con el advenimiento de los sitios de pseudo-noticias diseñados para recaudar ingresos publicitarios o para promover agendas específicas, esta prueba a menudo no es más confiable que otras en áreas de interés popular, y indexa muchas fuentes de "noticias" que reflejan puntos de vista específicos. El archivo de noticias se remonta a muchos años atrás, pero es posible que no sea gratuito más allá de un período limitado. Los resultados de las noticias a menudo incluyen comunicados de prensa, que no son fuentes independientes neutrales.
Google Scholar proporciona evidencia de cuántas veces una publicación, documento o autor ha sido citado o citado por otros. Ideal para temas científicos o académicos. Puede incluir trabajos de tesis de maestría y doctorado, patentes y documentos legales. Búsqueda de Google Académico .
Se puede marcar el tipo de referencia y la popularidad de los temas supuestamente notables por referencia popular. Un supuesto problema notable que solo tiene unos pocos cientos de referencias en Internet puede no ser muy notable; Los memes de Internet verdaderamente populares pueden tener millones o incluso decenas de millones de referencias. ^[6] Sin embargo, tenga en cuenta que en algunas áreas, un tema notable puede tener muy pocas referencias; por ejemplo, uno solo podría esperar un puñado de referencias a algún asunto arqueológico , y algunos asuntos no se reflejarán en línea en absoluto.
Los temas supuestamente genuinos se pueden verificar para probar si son referenciados por fuentes independientes confiables; esta es una buena prueba para engaños y cosas por el estilo.
Las infracciones de derechos de autor de los sitios web a menudo se pueden identificar (como se describe anteriormente).
Se pueden comprobar las frecuencias relativas de ortografías y usos alternativos (por ejemplo, para un debate que es el más común de dos términos igualmente neutrales y aceptables). Google Trends puede comparar el uso en la categoría "Noticias" ( ejemplo "Maremoto" frente a "Tsunami" ), pero esto puede no ser confiable para noticias más antiguas. ^[7]

Interpretación de resultados

General

Atajo

WP: HITS

Nunca se debe confiar en un recuento de aciertos en bruto para demostrar la notoriedad. Atención lugar se debe prestar a lo que (los libros, artículos de noticias, artículos académicos, y páginas web) se encuentra, y si realmente lo demuestran notabilidad o no notabilidad, caso por caso. Los recuentos de aciertos siempre han sido, y muy probablemente siempre seguirán siendo, una herramienta extremadamente errónea para medir la notabilidad, y no deben considerarse definitivos ni concluyentes. Una muestra manejable de los resultados encontrados debe abrirse individualmente y leerse para verificar realmente su relevancia.

En el caso de Google (y otros motores de búsqueda como Bing y Yahoo!), El recuento de visitas en la parte superior de la página no es confiable y, por lo general, no se debe informar. El recuento de visitas informado en la penúltima (penúltima) página de resultados puede ser un poco más preciso. Para búsquedas con pocos resultados reportados (menos de 1000), el recuento real de resultados necesarios para llegar al final de la última página de resultados puede ser más preciso, pero incluso esto no es seguro. Google devuelve diferentes resultados de búsqueda dependiendo de factores como su historial de búsqueda anterior y en qué servidor de Google ingresa. ^[8]^[9]

Otras consideraciones útiles para interpretar los resultados son:

Alcance del artículo: si es estrecho, se requieren menos referencias. Trate de categorizar el punto de vista, ya sea NPoV u otro; por ejemplo, observe la diferencia entre Ontología y Ontología (informática) .
Asunto del artículo: si se trata de algún personaje histórico, una o dos menciones en textos fiables pueden ser suficientes; si se trata de algo de neologismo de Internet o de una canción pop , puede que tenga 700 páginas y aún no se considere lo suficientemente "existente" para mostrar alguna notabilidad, para los propósitos de Wikipedia.

Sesgos a tener en cuenta

En la mayoría de los casos, los resultados de la búsqueda deben revisarse con conciencia y escepticismo cuidadoso antes de confiar en ellos. Los sesgos comunes incluyen:

Sesgos generales

General (Internet o personas en general):

Sesgo personal : tendencia a ser más receptivo a las creencias con las que uno está familiarizado, con las que está de acuerdo o que son comunes en la cultura cotidiana, y a descartar creencias y puntos de vista que contradicen los puntos de vista preferidos.
Sesgo cultural y de uso de la computadora: sesgo hacia la información de los países desarrollados que usan Internet y las partes ricas de la sociedad (acceso a Internet). Los países donde el uso de computadoras no es tan común a menudo tendrán tasas más bajas de referencia a material igualmente notable, que por lo tanto puede parecer (erróneamente) no notable.
Peso indebido : puede representar de manera desproporcionada algunos asuntos, especialmente relacionados con la cultura popular (a algunos asuntos se les puede dar mucho más espacio y a otros mucho menos, de lo que representa justamente su posición): la popularidad no es la notoriedad .
Fuentes no fácilmente accesibles : algunas fuentes son accesibles para todos, pero muchas son solo de pago o no se informan en línea.

Motores de búsqueda web generales (Google, búsqueda web Bing, etc.):

Red oscura : los motores de búsqueda excluyen una gran cantidad de páginas, y esto puede incluir un sesgo sistemático de modo que algunos asuntos se excluyan de manera desproporcionada (por ejemplo, porque son comúnmente visibles en sitios que no permiten la indexación de Google, o el contenido por razones técnicas no puede estar indexado ( Flash , sitios web basados en imágenes, etc.)
Motores de búsqueda como herramienta de promoción : existe una industria que busca influir en la posición del sitio, la popularidad y las calificaciones en dichas búsquedas, o vender espacios publicitarios relacionados con búsquedas y posiciones de búsqueda. Algunos temas, como los actores pornográficos , están tan dominados por estos que las búsquedas no se pueden utilizar de forma fiable para ganar popularidad.
El proceso de revisión varía; algunos sitios aceptan cualquier información, mientras que otros tienen algún tipo de sistema de revisión o verificación.
Auto-espejo : a veces, otros sitios clonan contenido de Wikipedia, que luego se transmite por Internet, y se crean más páginas basadas en él (y a menudo no se citan), lo que significa que, en realidad, la fuente de gran parte de los hallazgos del motor de búsqueda son en realidad solo copias del propio texto anterior de Wikipedia, no de fuentes genuinas.
Sesgo de uso popular: el uso popular y la leyenda urbana a menudo se informa sobre la corrección
- Ejemplos:
  1. Una búsqueda del Charles Windsor incorrecto da 10 veces más resultados que el Charles Mountbatten-Windsor correcto .
  2. Una búsqueda de la ortografía más común de El Niño a menudo indicará que se deletrea "El Niño", sin el diacrítico .
  3. Las leyendas urbanas a menudo se informan ampliamente, por ejemplo, cientos de sitios informan que el USS Constitution zarpó en 1779, aunque la fecha correcta es 1797.
Es probable que se den más informes sobre las opiniones y percepciones populares . Por ejemplo, puede haber muchas referencias a la acupuntura y la confirmación de que las personas a menudo son alérgicas al pelaje de los animales , pero es posible que solo con una investigación cuidadosa se revele que hay evaluaciones médicas revisadas por pares de la primera, y que las personas generalmente no lo son. alérgico al pelaje, pero a la piel pegajosa y las partículas de saliva ( caspa ) dentro del pelaje.
Sesgo de selección de idioma : por ejemplo, un hablante de árabe que busque información sobre la homosexualidad en árabe probablemente encontrará páginas que reflejen un sesgo diferente al de un hablante de inglés que busque en inglés sobre el mismo tema, ya que las opiniones y creencias populares y de los medios sobre la homosexualidad pueden diferir ampliamente entre países de habla inglesa (EE.UU., Reino Unido, Australia, etc.) que tienden a incluir una mayor proporción de grupos que aceptan la homosexualidad, y países de habla árabe (Oriente Medio) que tienden a incluir una proporción menor.

Otro:

Tenga en cuenta que otras búsquedas de Google, particularmente la Búsqueda de libros de Google , tienen un sesgo sistémico diferente de las búsquedas web de Google y brindan una verificación cruzada interesante y una vista algo independiente.

Calificaciones de Alexa

Atajo

WP: ALEXA

En algunos casos, es útil estimar la popularidad relativa de un sitio web. Alexa Internet es una herramienta para esto ( Hitwise y Quantcast son otros). Para probar la clasificación de Alexa para un sitio web en particular, visite alexa.com e ingrese la URL.

El sistema de medición de Alexa se basa en una barra de herramientas que los usuarios deben elegir para instalar, que se puede instalar en varios navegadores, incluidos Internet Explorer y Mozilla Firefox, en diferentes sistemas operativos. Las fuentes de sesgo incluyen tanto los sitios web cuyos usuarios de manera desproporcionada no instalan dichas barras de herramientas, como los webmasters que instalan Alexa Toolbar con el único propósito de mejorar sus calificaciones. Específicamente, las clasificaciones de Alexa no forman parte de las pautas de notabilidad para sitios web por varias razones:

Por debajo de cierto nivel, las clasificaciones de Alexa carecen esencialmente de sentido debido al tamaño limitado de la muestra. La propia Alexa dice que los rangos inferiores a 100.000 no son fiables. ^[10]
Las clasificaciones de Alexa varían e incluyen un sesgo sistemático significativo, lo que significa que las clasificaciones a menudo no reflejan la popularidad, sino solo la popularidad entre ciertos grupos de usuarios (Ver Alexa Internet § Preocupaciones ). En términos generales, Alexa califica según las mediciones de una barra de herramientas instalada por el usuario , pero esta es una herramienta muy variable y hay una gran parte de la comunidad de usuarios de Internet (especialmente los usuarios corporativos, muchos usuarios avanzados, muchos usuarios de código abierto y que no son de Windows). ) que no lo utilizan y, por tanto, se ignora el uso de referencia en Internet.
Las clasificaciones de Alexa no reflejan la notoriedad enciclopédica y la existencia de material fuente confiable, si es así. Es posible que un sitio web altamente clasificado no tenga nada escrito al respecto, o un sitio web mal clasificado puede tener mucho escrito sobre él.
Varios temas indudablemente notables tienen sitios web con mala clasificación de Alexa.

Calificaciones de Quantcast

Para obtener estadísticas, visite http://quantcast.com , ingrese la URL y haga clic en "Buscar".
Para las entidades que suscriben Quantcast servicio 's, Quantcast declara que sus mediciones de tráfico se 'verifica'. Esto puede proporcionar una mayor confiabilidad que los resultados de Alexa, ya que no depende de la instalación de un complemento por parte del usuario.
Para las entidades que no se suscriben para ser "cuantificadas", Quantcast declara que sus mediciones de tráfico son "estimaciones".
Aquí se aplican las mismas disposiciones de confiabilidad y notoriedad enumeradas en § Clasificaciones de Alexa .

Idiomas extranjeros, alfabetos no latinos y nombres antiguos

A menudo, en el caso de elementos de origen no inglés o con escrituras no latinas, una cantidad considerablemente mayor de resultados resulta de la búsqueda en la escritura correcta o de varias transcripciones. Asegúrese de marcar " Idiomas para mostrar resultados (de búsqueda) " en " Buscar Configuración ". ^[4] Un nombre árabe , por ejemplo, debe buscarse en el guión original, lo que se hace fácilmente con Google (siempre que se sepa qué buscar), pero pueden surgir problemas si, por ejemplo, inglés, francés y alemán Las páginas web transcriben el nombre utilizando diferentes convenciones. Incluso para las páginas web solo en inglés, puede haber muchas variantes del mismo nombre árabe o ruso . Los nombres personales en otros idiomas (ruso, anglosajón ) pueden tener que buscarse tanto para incluir como para excluir el patronímico , y las búsquedas de nombres y otras palabras en idiomas con inflexiones fuertes deben tener en cuenta que para llegar al número total de coincidencias puede ser necesario buscar formas con diferentes terminaciones entre mayúsculas y minúsculas u otras variaciones gramaticales que no sean obvias para alguien que no conoce el idioma. Los nombres de muchas culturas se dan tradicionalmente junto con títulos que se consideran parte del nombre, pero que también pueden omitirse (como en Gazi Mustafa Kemal Pasha ).

Incluso en inglés antiguo , la ortografía y la interpretación de nombres antiguos pueden permitir decenas de variaciones para la misma persona. Una búsqueda simplista de una variante en particular puede subrepresentar la presencia en la web en un orden de magnitud.

Una búsqueda como esta requiere una cierta competencia lingüística que no todos los wikipedistas poseen, pero la comunidad de Wikipedia en su conjunto incluye a muchas personas bilingües y multilingües y es importante que los nominadores y votantes de AfD al menos sean conscientes de sus propias limitaciones y no hacer suposiciones desfavorables cuando el idioma o el sesgo de transcripción pueden ser un factor.

Problemas de recuento de páginas distintas de Google

Tenga en cuenta también que el número de coincidencias de cadenas de búsqueda informadas por los motores de búsqueda es solo una estimación. Por ejemplo, Google solo calculará el número real de coincidencias una vez que el usuario navegue por todas las páginas de resultados, hasta la última, e incluso así impone restricciones a la figura. A veces, la estimación del recuento de "coincidencias" puede ser significativamente diferente (en uno o más órdenes de magnitud ) del recuento total de resultados que se muestran en la última página de resultados.

Una búsqueda específica del sitio puede ayudar a determinar si la mayoría de las coincidencias provienen del mismo sitio web; un solo sitio web puede dar cuenta de cientos de miles de visitas.

Para los términos de búsqueda que devuelven muchos resultados, Google utiliza un proceso que elimina los resultados que son "muy similares" a otros resultados enumerados, ignorando las páginas con contenido sustancialmente similar y limitando el número de páginas que pueden devolverse desde cualquier dominio determinado. Por ejemplo, una búsqueda en "Taco Bell" dará solo un par de páginas de tacobell.com, aunque muchas en ese dominio ciertamente coincidirán. Además, la lista de resultados distintos de Google se construye seleccionando primero los 1000 resultados principales y luego eliminando los duplicados sin reemplazos. Por lo tanto, la lista de resultados distintos siempre contendrá menos de 1000 resultados, independientemente de cuántas páginas web coincidan realmente con los términos de búsqueda. Por ejemplo, al 14 de diciembre de 2010^[actualizar], de los aproximadamente 742 millones de páginas relacionadas con "Microsoft", Google arrojaba 572 resultados "distintos". ^[11] . Se debe tener precaución al juzgar la importancia relativa de los sitios web que producen más de 1000 resultados de búsqueda.

Limitaciones del motor de búsqueda: notas técnicas

Atajo

WP: GOOGLELIMITS

Muchas, probablemente la mayoría, de las páginas web disponibles públicamente que existen no están indexadas. Cada motor de búsqueda captura un porcentaje diferente del total. Nadie puede decir exactamente qué parte se captura.

El tamaño estimado de la World Wide Web es de al menos 11,5 mil millones de páginas, ^[12] pero existe una Web mucho más profunda (y más grande) , estimada en más de 3 billones de páginas, dentro de las bases de datos cuyo contenido los motores de búsqueda no indexan. Estas páginas web dinámicas son formateadas por un servidor web cuando un usuario las solicita y, como tales, no pueden ser indexadas por los motores de búsqueda convencionales. El sitio web de la Oficina de Patentes y Marcas de los Estados Unidos es un ejemplo; aunque un motor de búsqueda puede encontrar su página principal, solo se puede buscar en su base de datos de patentes individuales ingresando consultas en el sitio mismo. ^[13]

Google, como todos los motores de búsqueda de Internet, solo puede encontrar información que realmente esté disponible en Internet. Todavía hay una cantidad considerable de información que no está en Internet.

Google, como todos los principales servicios de búsqueda web, sigue el protocolo robots.txt y puede ser bloqueado por sitios que no desean que su contenido sea indexado o almacenado en caché por Google. Los sitios que contienen grandes cantidades de contenido protegido por derechos de autor (galerías de imágenes, periódicos de suscripción, webcomics, películas, videos, mesas de ayuda), que generalmente involucran membresías, bloquearán Google y otros motores de búsqueda. Otros sitios también pueden bloquear a Google debido al estrés o problemas de ancho de banda en el servidor que aloja el contenido.

Es posible que los motores de búsqueda tampoco puedan leer enlaces o metadatos que normalmente requieren un complemento de navegador, Adobe PDF o Macromedia Flash, o cuando un sitio web se muestra como parte de una imagen. Los motores de búsqueda tampoco pueden escuchar podcasts u otras transmisiones de audio, ni siquiera videos que mencionen un término de búsqueda. Del mismo modo, los motores de búsqueda no pueden leer archivos PDF que constan de fotoscans o buscar dentro de archivos comprimidos (.zip).

Los foros, los sitios solo para miembros y de suscripción (ya que el robot de Google no se registra para acceder al sitio) y los sitios que ciclan su contenido no se almacenan en caché ni se indexan en ningún motor de búsqueda. Con más sitios moviéndose a diseños AJAX / Web 2.0, esta limitación se volverá más frecuente ya que los motores de búsqueda solo simulan seguir los enlaces en una página web. Las configuraciones de página AJAX (como Google Maps) devuelven datos dinámicamente basados en la manipulación en tiempo real de Javascript.

Google también ha sido víctima de ataques de redirección que pueden hacer que devuelva más resultados para un término de búsqueda específico que las páginas de contenido real.

Google y otros motores de búsqueda populares también son un objetivo para la "mejora de resultados de búsqueda" de motores de búsqueda, también conocidos como optimizadores de motores de búsqueda , por lo que también puede haber muchos resultados devueltos que conduzcan a una página que solo sirve como publicidad. A veces, las páginas contienen cientos de palabras clave diseñadas específicamente para atraer a los usuarios de los motores de búsqueda a esa página, pero de hecho sirven un anuncio en lugar de una página con contenido relacionado con la palabra clave.

Los recuentos de aciertos informados por Google son solo estimaciones, que en algunos casos se ha demostrado que necesariamente están desviadas en casi un orden de magnitud, especialmente para recuentos de aciertos superiores a unos pocos miles. ^[14]^[15] Para palabras tan comunes que produzcan varios miles de visitas a Google, los corpus de texto disponibles de forma gratuita , como el British National Corpus (para inglés británico) y el Corpus of Contemporary American English (para inglés americano) pueden proporcionar una información más precisa. estimación de las frecuencias relativas de dos palabras.

Ejemplo de limitaciones

El sitio de Economic Crime Summit es un sitio bastante hostil para Google e Internet Archive . Tiene muchos gráficos, lo que le proporciona a Google poco o nada que buscar y muchas páginas faltantes en la versión de Internet Archive. Entonces, si bien puede traer a colación la Conferencia de la Cumbre sobre Delitos Económicos de 2002 , el enlace general que le dirá quién presentó lo que no funciona. El archivo de la Conferencia de la Cumbre sobre Delitos Económicos de 2004 es aún peor, ya que estaba en tres lugares y ninguno de los enlaces archivados le dice nada sobre los documentos presentados.

A través de Internet Archive, tiene pruebas de que existía en Internet cierta información sobre el "Impacto de los avances en la tecnología informática en el procesamiento de pruebas". ^{[16] ¡} Sin embargo, hoy Google no puede encontrar esa información! Un programa que se sabe que es parte de la Conferencia Cumbre sobre Delitos Económicos de 2002 y que en un momento se incluyó en un sitio web en Internet actualmente ^{[ ¿cuándo? ]} no puede ser encontrado por Google.

Motores de búsqueda habituales

Atajo

H: CSE

Los motores de búsqueda más comunes son Google, Bing y Yahoo, pero el motor de búsqueda más útil, que depende de un contexto, puede no ser el más común.

Tipo	Ejemplos de
Motores de búsqueda generales	Google , Bing , Yahoo! etc.
Índices de popularidad de sitios web	Alexa , Hitwise
Información general	About.com
Índices de investigación profesional	Medline (médico), ciencia, derecho, Google Scholar
Noticias y medios	Búsqueda de archivos de Google Noticias
Archivos históricos de páginas web	Archive.org , caché web (cómo se veían las páginas web y su contenido, en diferentes momentos o si se eliminaban)
Libros y literatura histórica	Proyecto Gutenberg , Google Books , Amazon.com y a9.com (para información sobre libros)
Universidades y organizaciones de educación superior	4icu.org (motor de búsqueda de sitios web universitarios)

Motores de búsqueda especializados

Google Scholar funciona bien para campos que están orientados al papel y tienen presencia en línea en todos (o casi todos) lugares respetados. Este motor de búsqueda es un buen complemento para Thompson ISI Web of Knowledge disponible comercialmente, especialmente en las áreas que no están bien cubiertas en este último, incluidos libros, artículos de congresos, revistas no estadounidenses, revistas generales en el campo de la estrategia, administración, negocios internacionales, ^[17] educación del idioma inglés y tecnología educativa. ^[18] El análisis del algoritmo PageRank utilizado por Google Scholar demostró que este motor de búsqueda, así como sus análogos comerciales, proporciona información adecuada sobre la popularidad de alguna fuente concreta, ^[19] aunque eso no refleja automáticamente la contribución científica real de publicación concreta. ^[19]

MedLine , ahora parte de PubMed , es el motor de búsqueda original de amplia base, que se originó hace más de cuatro décadas e indexa artículos incluso anteriores. Por lo tanto, especialmente en biología y medicina, los "artículos asociados" de PubMed son un proxy de Google Académico para los artículos más antiguos sin presencia en línea. Por ejemplo, la revista Stroke publica artículos en línea desde la década de 1970. Para este artículo de 1978 [2] , Google Scholar enumera 100 artículos que citan , mientras que PubMed enumera 89 artículos asociados.

Hay una gran cantidad de bibliotecas legales en línea, en muchos países, incluyendo: Biblioteca del Congreso , Biblioteca del Congreso (THOMAS) , Corte Suprema de Indiana , FindLaw (EE. UU.); Biblioteca de derecho de la Universidad de Kent y fuentes (Reino Unido).

Consulte también esta lista de motores de búsqueda .

Motores de búsqueda generalizados

Existen varios motores de búsqueda generalizados. Estos adaptan su consulta a muchos motores de búsqueda. Los navegadores web ofrecen una selección de motores de búsqueda para elegir emplear para el cuadro de búsqueda, y estos se pueden usar uno a la vez para experimentar con los resultados de la búsqueda. Los metabuscadores utilizan varios motores de búsqueda a la vez. Diez populares de About.com ofrecen reseñas. Un complemento de navegador web puede agregar un motor de búsqueda o un motor de metabúsqueda a su lista de opciones.

Ver también

Wikipedia: búsqueda avanzada de fuentes
{{ Find sources }} , una plantilla diseñada para ayudar con las búsquedas de Google Libros, el archivo de noticias y las búsquedas académicas
{{ Google }}
Meta: filtro espejo , una forma de filtrar sitios de la búsqueda de Google para eliminar sitios que reflejan el contenido de Wikimedia
Wikipedia: búsquedas y números de Google
Wikipedia: no se puede arreglar Google a través de Wikipedia , para abordar errores en los paneles de conocimiento de Google

Referencias

^ Por ejemplo, si hay 16 resultados en Google Books con un nombre y 24 con otro, solo existe un 70% de confianza en que el segundo nombre es en realidad más común.
^ Operadores de búsqueda de Google y más ayuda de búsqueda
^ Personalización del historial de búsqueda
^ ^a ^b Configuración de búsqueda de Google
^ Evite inauthor: "Books, LLC", ya que LLC 'publica' impresiones sin procesar de los artículos de Wikipedia.
^ Búsqueda en Google de: AYB O AYBABTU O "Toda tu base"
^ Pregunta de Google Answers sobre la frecuencia de las palabras en las fuentes de noticias
^ Takuya, Funahashi; Hayato, Yamana (2010). "Verificación de la confiabilidad de los recuentos de visitas de los motores de búsqueda" (PDF) . Actas de la décima conferencia internacional sobre tendencias actuales en ingeniería web . División de Ingeniería y Ciencias de la Computación, Universidad de Waseda . Consultado el 5 de mayo de 2015 .
^ Sullivan, Danny (21 de octubre de 2010). "Por qué Google no puede contar los resultados correctamente" . SearchEngineLand.com . Consultado el 5 de mayo de 2015 .
^ [1]
^ Búsqueda de Google de "Microsoft"
^ Gulli, Antonio; Signorini, Alessio (28 de agosto de 2005). "La web indexable tiene más de 11,5 mil millones de páginas" . Cite journal requiere |journal=( ayuda )
^ Más, Alvin; Murray, Brian H. (2000). "Dimensionamiento de Internet". Cyveillance. Cite journal requiere |journal=( ayuda )
^ Mark Liberman (2009), " Citas con y sin comillas ", Registro de idiomas .
^ Liberman, Mark (2005), " Cuestionando la realidad ", Registro de lenguaje ; y otraspublicaciones de Language Log vinculadas desde allí.
^ http://web.archive.org/web/20011212161658/http://www.summit.nw3c.org/Programs_Agenda.htm
^ Harzing, AWK; van der Wal, R. (2008). ¿Google Scholar como una nueva fuente para el análisis de citas? Ética en la ciencia y la política ambiental , vol. 8, no. 1, págs. 62–71
^ van Aalst, enero (2010) Uso de Google Scholar para estimar el impacto de los artículos de revistas en la educación. Investigador educativo 39: 387.
↑ ^a ^b Maslov, S .; Redner, S. (2008). Promesa y trampas de extender el algoritmo PageRank de Google a las redes de citas. Journal of Neuroscience, 28, 11103–11105

Otras lecturas

Joe Meert (30 de abril de 2006). "Argumentum ad Googlum" . Ciencia, Anti-ciencia y Geología .—Meert observa que "La tentación de encontrar una respuesta rápida significa que, muchas veces, la gente no se molesta en verificar la fuente con cuidado". y que "la gente buscará una frase específica que pueda sacarse de contexto para apoyar su argumento". Afirma que es "peligroso e irresponsable pensar que podemos buscar en Google una discusión compleja" y que ha "aprendido hace mucho tiempo que no hay sustituto para la investigación detallada sobre un tema".
Rich Turner (29 de febrero de 2004). "Argumentum ad Googlum; por qué obtener un millón de visitas en Google no prueba nada" . Grumbles . Archivado desde el original el 3 de marzo de 2016.—Turner señala que "que algo recibe visitas en Google no lo hace correcto" y da varios ejemplos de cosas que son incorrectas que generan miles de visitas en los resultados de búsqueda de Google.
Thelwall, M. (2008). Comparaciones cuantitativas de los resultados de los motores de búsqueda, Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información, 59 (11), 1702-1710. http://www.scit.wlv.ac.uk/~cm1993/papers/SearchEngineComparisons_preprint.doc
Thelwall, M. (2008). Extracción de resultados precisos y completos de los motores de búsqueda: estudio de caso de Windows Live. Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información, 59 (1), 38–50. http://www.scit.wlv.ac.uk/~cm1993/papers/2007_Accurate_Complete_preprint.doc
Gomes y col. (2000). Detección de documentos duplicados específicos de consultas. http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=1&p=1&f=G&l=50&d=PTXT&S1=6615209.PN.&OS=p=p. / 6615209 y RS = PN / 6615209
Thelwall, M. (2008). Comparaciones cuantitativas de los resultados de los motores de búsqueda, Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información, 59 (11), 1702-1710. http://www.scit.wlv.ac.uk/~cm1993/papers/SearchEngineComparisons_preprint.doc
Nakov, Preslav y Hearst, Marti (2005). Un estudio sobre el uso de las visitas a las páginas de los motores de búsqueda como proxy de las frecuencias n-gram, Actas de los avances recientes en el procesamiento del lenguaje natural 2005 http://biotext.berkeley.edu/papers/nakov_ranlp2005.pdf
Baroni, Marco y Ueyama, Motoko (2006) Creación de corpus de uso general y especial mediante rastreo web, Actas del 13º Simposio Internacional de NIJL, Corpora de idiomas, su compilación y aplicación. http://tokuteicorpus.jp./result/pdf/2006_004.pdf

[1] Por ejemplo, si hay 16 resultados en Google Books con un nombre y 24 con otro, solo existe un 70% de confianza en que el segundo nombre es en realidad más común.

[2] Operadores de búsqueda de Google y más ayuda de búsqueda

[3] Personalización del historial de búsqueda

[search-4] Configuración de búsqueda de Google

[5] Evite inauthor: "Books, LLC", ya que LLC 'publica' impresiones sin procesar de los artículos de Wikipedia.

[6] Búsqueda en Google de: AYB O AYBABTU O "Toda tu base"

[7] Pregunta de Google Answers sobre la frecuencia de las palabras en las fuentes de noticias

[8] Takuya, Funahashi; Hayato, Yamana (2010). "Verificación de la confiabilidad de los recuentos de visitas de los motores de búsqueda" (PDF) . Actas de la décima conferencia internacional sobre tendencias actuales en ingeniería web . División de Ingeniería y Ciencias de la Computación, Universidad de Waseda . Consultado el 5 de mayo de 2015 .

[9] Sullivan, Danny (21 de octubre de 2010). "Por qué Google no puede contar los resultados correctamente" . SearchEngineLand.com . Consultado el 5 de mayo de 2015 .

[10] [1]

[11] Búsqueda de Google de "Microsoft"

[12] Gulli, Antonio; Signorini, Alessio (28 de agosto de 2005). "La web indexable tiene más de 11,5 mil millones de páginas" . Cite journal requiere |journal=( ayuda )

[13] Más, Alvin; Murray, Brian H. (2000). "Dimensionamiento de Internet". Cyveillance. Cite journal requiere |journal=( ayuda )

[14] Mark Liberman (2009), " Citas con y sin comillas ", Registro de idiomas .

[15] Liberman, Mark (2005), " Cuestionando la realidad ", Registro de lenguaje ; y otraspublicaciones de Language Log vinculadas desde allí.

[16] ttp://web.archive.org/web/20011212161658/http://www.summit.nw3c.org/Programs_Agenda.htm

[Harzing-17] Harzing, AWK; van der Wal, R. (2008). ¿Google Scholar como una nueva fuente para el análisis de citas? Ética en la ciencia y la política ambiental , vol. 8, no. 1, págs. 62–71

[Aalst-18] van Aalst, enero (2010) Uso de Google Scholar para estimar el impacto de los artículos de revistas en la educación. Investigador educativo 39: 387.

[Maslov-19] Maslov, S .; Redner, S. (2008). Promesa y trampas de extender el algoritmo PageRank de Google a las redes de citas. Journal of Neuroscience, 28, 11103–11105