Spamdexing


De Wikipedia, la enciclopedia libre
  (Redirigido desde spam web )
Saltar a navegación Saltar a búsqueda

Spamdexing (también conocido como spam de motores de búsqueda , el envenenamiento de motores de búsqueda , negro sombrero optimización de motor de búsqueda , correo no deseado buscar o web spam ) [1] es la manipulación deliberada de los motores de búsqueda de índices . Implica una serie de métodos, como la construcción de enlaces y la repetición de frases no relacionadas, para manipular la relevancia o prominencia de los recursos indexados, de una manera incompatible con el propósito del sistema de indexación. [2] [3]

Spamdexing podría considerarse parte de la optimización de motores de búsqueda , aunque existen muchos métodos de optimización de motores de búsqueda que mejoran la calidad y apariencia del contenido de los sitios web y ofrecen contenido útil para muchos usuarios. [4]

Los motores de búsqueda utilizan una variedad de algoritmos para determinar el ranking de relevancia. Algunos de estos incluyen determinar si el término de búsqueda aparece en el cuerpo del texto o en la URL de una página web.. Muchos motores de búsqueda verifican casos de indexación de correo no deseado y eliminarán las páginas sospechosas de sus índices. Además, los operadores de motores de búsqueda pueden bloquear rápidamente la lista de resultados de sitios web completos que utilizan spamdexing, quizás en respuesta a las quejas de los usuarios sobre coincidencias falsas. El aumento de la indexación de correo no deseado a mediados de la década de 1990 hizo que los principales motores de búsqueda de la época fueran menos útiles. El uso de métodos poco éticos para hacer que los sitios web se clasifiquen más alto en los resultados de los motores de búsqueda de lo que lo harían de otra manera se conoce comúnmente en la industria de SEO (optimización de motores de búsqueda) como "SEO de sombrero negro". Estos métodos están más enfocados en romper las reglas y pautas de promoción de motores de búsqueda. Además de esto, los perpetradores corren el riesgo de que sus sitios web sean severamente penalizados por Google Panda y Google Penguin.algoritmos de clasificación de resultados de búsqueda. [5]

Las técnicas comunes de indexación de spam se pueden clasificar en dos grandes clases: spam de contenido [4] (o término spam ) y spam de enlaces . [3]

Historia

La primera referencia conocida [2] al término spamdexing es la de Eric Convey en su artículo "La pornografía se cuela en la Web", The Boston Herald , 22 de mayo de 1996, donde dijo:

El problema surge cuando los operadores del sitio cargan sus páginas web con cientos de términos extraños, por lo que los motores de búsqueda los enumeran entre las direcciones legítimas. El proceso se denomina " indexación de spam ", una combinación de spam (el término de Internet para enviar a los usuarios información no solicitada) e " indexación ". [2]

Spam de contenido

Estas técnicas implican alterar la visión lógica que tiene un motor de búsqueda sobre el contenido de la página. Todos apuntan a variantes del modelo de espacio vectorial para la recuperación de información sobre colecciones de texto.

Relleno de palabras clave

El relleno de palabras clave implica la ubicación calculada de palabras clave dentro de una página para aumentar el recuento, la variedad y la densidad de palabras clave de la página. Esto es útil para hacer que una página parezca relevante para un rastreador web de manera que sea más probable que la encuentre. Ejemplo: un promotor de un esquema Ponziquiere atraer a los internautas a un sitio donde anuncia su estafa. Coloca texto oculto apropiado para una página de fans de un grupo de música popular en su página, con la esperanza de que la página aparezca como un sitio de fans y reciba muchas visitas de amantes de la música. Las versiones anteriores de los programas de indexación simplemente contaban la frecuencia con la que aparecía una palabra clave y la usaban para determinar los niveles de relevancia. La mayoría de los motores de búsqueda modernos tienen la capacidad de analizar una página en busca de palabras clave y determinar si la frecuencia es consistente con otros sitios creados específicamente para atraer tráfico de motores de búsqueda. Además, las páginas web grandes se truncan, de modo que las listas de diccionarios masivas no se pueden indexar en una sola página web. [ cita requerida ] (Sin embargo, los spammers pueden eludir esta limitación del tamaño de la página web simplemente configurando varias páginas web, ya sea de forma independiente o vinculadas entre sí).

Texto oculto o invisible

El texto oculto no relacionado se disfraza haciéndolo del mismo color que el fondo, usando un tamaño de fuente pequeño u ocultándolo dentro del código HTML como secciones "sin marco", atributos alt , DIV de tamaño cero y secciones "sin script". Las personas que examinan manualmente los sitios web con banderas rojas para una empresa de motores de búsqueda pueden bloquear temporal o permanentemente un sitio web completo por tener texto invisible en algunas de sus páginas. Sin embargo, el texto oculto no siempre se indexa como spam: también se puede utilizar para mejorar la accesibilidad . [ cita requerida ]

Relleno de metaetiquetas

Esto implica la repetición de palabras clave en las metaetiquetas y el uso de meta palabras clave que no están relacionadas con el contenido del sitio. Esta táctica ha sido ineficaz desde 2005. [ cita requerida ]

Páginas de entrada

Las " puertas de enlace" o páginas de entrada son páginas web de baja calidad creadas con muy poco contenido, que en su lugar están repletas de palabras clave y frases muy similares. Están diseñados para ocupar un lugar destacado en los resultados de búsqueda, pero no tienen ningún propósito para los visitantes que buscan información. Una página de entrada generalmente tendrá "haga clic aquí para entrar" en la página; El envío automático también se puede utilizar para este propósito. En 2006, Google expulsó al fabricante de vehículos BMW por utilizar "páginas de entrada" al sitio alemán de la empresa, BMW.de. [6]

Sitios de raspadores

Los sitios scraper se crean utilizando varios programas diseñados para "raspar" las páginas de resultados de los motores de búsqueda u otras fuentes de contenido y crear "contenido" para un sitio web. [ cita requerida ] La presentación específica de contenido en estos sitios es única, pero es simplemente una amalgama de contenido tomado de otras fuentes, a menudo sin permiso. Estos sitios web generalmente están llenos de publicidad (como anuncios de pago por clic ) o redireccionan al usuario a otros sitios. Incluso es factible que los sitios de raspadores superen a los sitios web originales en cuanto a su propia información y nombres de organizaciones.

Artículo girando

La rotación de artículos implica la reescritura de artículos existentes, en lugar de simplemente raspar el contenido de otros sitios, para evitar sanciones impuestas por los motores de búsqueda por contenido duplicado . Este proceso es realizado por escritores contratados [ cita requerida ] o automatizado usando una base de datos de sinónimos o una red neuronal .

Máquina traductora

De manera similar a la rotación de artículos , algunos sitios utilizan la traducción automática para reproducir su contenido en varios idiomas, sin edición humana, lo que da como resultado textos ininteligibles que, sin embargo, continúan siendo indexados por los motores de búsqueda, lo que atrae tráfico.

Enlace spam

El spam de enlaces se define como enlaces entre páginas que están presentes por razones distintas al mérito. [7] El spam de enlaces se aprovecha de los algoritmos de clasificación basados ​​en enlaces, lo que otorga a los sitios web una clasificación más alta que otros sitios web altamente clasificados que enlazan con ellos. Estas técnicas también tienen como objetivo influir en otras técnicas de clasificación basadas en enlaces, como el algoritmo HITS . [ cita requerida ]

Granjas de enlaces

Las granjas de enlaces son redes muy unidas de sitios web que se enlazan entre sí con el único propósito de explotar los algoritmos de clasificación de los motores de búsqueda. Estos también se conocen en broma como sociedades de admiración mutua . [8] El uso de granjas de enlaces se ha reducido considerablemente con el lanzamiento de la primera Actualización de Panda de Google en febrero de 2011, que introdujo mejoras significativas en su algoritmo de detección de spam.

Redes de blogs privados

Las redes de blogs (PBN) son un grupo de sitios web autorizados que se utilizan como fuente de enlaces contextuales que apuntan al sitio web principal del propietario para lograr una clasificación más alta en los motores de búsqueda. Los propietarios de sitios web PBN utilizan dominios caducados o dominios de subasta que tienen vínculos de retroceso de sitios web de alta autoridad. Google apuntó y penalizó a los usuarios de PBN en varias ocasiones con varias campañas masivas de desindexación desde 2014. [9]

Enlaces ocultos

Poner hipervínculos donde los visitantes no los vean se utiliza para aumentar la popularidad de los enlaces . El texto del enlace resaltado puede ayudar a clasificar una página web en una posición más alta por coincidir con esa frase.

Ataque de Sybil

Un ataque de Sybil es la falsificación de múltiples identidades con intenciones maliciosas, que lleva el nombre de la famosa paciente con trastorno de personalidad múltiple " Sybil " [ cita requerida ] . Un spammer puede crear varios sitios web en diferentes nombres de dominio que se enlazan entre sí, como blogs falsos (conocidos como blogs de spam ).

Blogs de spam

Los blogs de spam son blogs creados únicamente para la promoción comercial y el paso de la autoridad de enlace a los sitios de destino. A menudo, estos "splogs" están diseñados de una manera engañosa que producirá el efecto de un sitio web legítimo, pero después de una inspección minuciosa, a menudo se escribirán con software giratorio o estarán muy mal escritos con contenido apenas legible. Son de naturaleza similar a las granjas de enlace. [ cita requerida ]

Spam de blog invitado

El spam de blogs invitados es el proceso de colocar blogs invitados en sitios web con el único propósito de obtener un enlace a otro sitio web o sitios web. Desafortunadamente, estos a menudo se confunden con formas legítimas de blogs invitados con otros motivos además de colocar enlaces. Esta técnica se hizo famosa por Matt Cutts , quien declaró públicamente la "guerra" contra esta forma de spam de enlaces. [10]

Comprar dominios caducados

Algunos spammers de enlaces utilizan un software de rastreo de dominios caducados o monitorean los registros DNS de los dominios que caducarán pronto, luego los compran cuando caducan y reemplazan las páginas con enlaces a sus páginas. Sin embargo, es posible, pero no confirmado, que Google restablezca los datos del enlace en los dominios caducados. [ cita requerida ] Para mantener todos los datos de clasificación de Google anteriores para el dominio, es aconsejable que un comprador tome el dominio antes de que se "elimine".

Algunas de estas técnicas pueden aplicarse para crear una bomba de Google , es decir, para cooperar con otros usuarios para mejorar el ranking de una página en particular para una consulta en particular.

Relleno de galletas

El relleno de cookies implica colocar una cookie de seguimiento de afiliados en la computadora de un visitante del sitio web sin su conocimiento, lo que generará ingresos para la persona que realiza el relleno de cookies. Esto no solo genera ventas fraudulentas de afiliados, sino que también tiene el potencial de sobrescribir las cookies de otros afiliados, esencialmente robando sus comisiones legítimamente ganadas.

Usar páginas que se pueden escribir en todo el mundo

Los buscadores de spam pueden utilizar los sitios web que pueden editar los usuarios para insertar enlaces a sitios de spam si no se toman las medidas antispam adecuadas.

Los spambots automatizados pueden inutilizar rápidamente la parte editable por el usuario de un sitio. Los programadores han desarrollado una variedad de técnicas automáticas de prevención de spam para bloquear o al menos ralentizar los spam.

Spam en blogs

El spam en blogs es la colocación o solicitud de enlaces aleatoriamente en otros sitios, colocando una palabra clave deseada en el texto con hipervínculo del enlace entrante. Los libros de visitas, los foros, los blogs y cualquier sitio que acepte los comentarios de los visitantes son objetivos particulares y, a menudo, son víctimas de spam en el que el software automatizado crea publicaciones sin sentido con enlaces que generalmente son irrelevantes y no deseados.

Comentario spam

El spam de comentarios es una forma de spam de enlaces que ha surgido en páginas web que permiten la edición dinámica del usuario, como wikis , blogs y libros de visitas . Puede ser problemático porque se pueden escribir agentes que seleccionen automáticamente al azar una página web editada por el usuario, como un artículo de Wikipedia, y agreguen enlaces de spam. [11]

Spam Wiki

El spam de wiki es cuando un spammer utiliza la capacidad de edición abierta de los sistemas wiki para colocar enlaces desde el sitio wiki al sitio de spam.

Spam en el registro de referencias

El spam de referente tiene lugar cuando un autor o facilitador de spam accede a una página web (el árbitro ), siguiendo un enlace de otra página web (el remitente ), de modo que el navegador de Internet de la persona le da al árbitro la dirección del remitente. Algunos sitios web tienen un registro de referencias que muestra qué páginas enlazan con ese sitio. Al hacer que un robot acceda al azar a muchos sitios suficientes veces, con un mensaje o una dirección específica dada como referencia, ese mensaje o dirección de Internet aparece en el registro de referencia de aquellos sitios que tienen registros de referencia. Dado que algunos motores de búsqueda webBasar la importancia de los sitios en la cantidad de sitios diferentes que enlazan con ellos, el spam en el registro de referencias puede aumentar la clasificación de los sitios del spammer en los motores de búsqueda. Además, los administradores del sitio que notan las entradas del registro de referencias en sus registros pueden seguir el enlace a la página de referencias del spammer.

Contramedidas

Debido a la gran cantidad de spam que se publica en las páginas web editables por el usuario, Google propuso una etiqueta "nofollow" que se podría incrustar con enlaces. Un motor de búsqueda basado en enlaces, como el sistema PageRank de Google , no utilizará el enlace para aumentar la puntuación del sitio web vinculado si el enlace lleva una etiqueta nofollow. Esto garantiza que los enlaces de spam a sitios web editables por el usuario no aumenten la clasificación de los sitios en los motores de búsqueda. Nofollow es utilizado por varios sitios web importantes, incluidos Wordpress , Blogger y Wikipedia . [ cita requerida ]

Otros tipos

Sitios web espejo

Un sitio espejo es el alojamiento de varios sitios web con contenido similar desde el punto de vista conceptual pero que utilizan URL diferentes . Algunos motores de búsqueda otorgan una clasificación más alta a los resultados en los que la palabra clave buscada aparece en la URL.

Redirección de URL

La redirección de URL es llevar al usuario a otra página sin su intervención, por ejemplo , utilizando etiquetas de actualización META , Flash , JavaScript , Java o redireccionamientos del lado del servidor . Sin embargo, 301 Redirect , o redirección permanente, no se considera un comportamiento malicioso.

Encubierto

El encubrimiento se refiere a cualquiera de varios medios para entregar una página a la araña del motor de búsqueda que es diferente de la que ven los usuarios humanos. Puede ser un intento de engañar a los motores de búsqueda con respecto al contenido de un sitio web en particular. Sin embargo, el encubrimiento también se puede utilizar para aumentar éticamente la accesibilidad de un sitio a los usuarios con discapacidades o proporcionar a los usuarios humanos contenido que los motores de búsqueda no pueden procesar o analizar. También se utiliza para entregar contenido basado en la ubicación de un usuario; El propio Google utiliza la entrega de IP , una forma de encubrimiento, para ofrecer resultados. Otra forma de encubrimiento es el intercambio de código , es decir, optimizando una página para la clasificación superior y luego intercambiando otra página en su lugar una vez que se alcanza una clasificación superior. Google se refiere a este tipo de redireccionamientos como redireccionamientos furtivos . [12]

Contramedidas

Omisión de página por motor de búsqueda

Las páginas indexadas con spam a veces son eliminadas de los resultados de búsqueda por el motor de búsqueda.

Omisión de página por parte del usuario

Los usuarios pueden emplear operadores de búsqueda para filtrar. Para Google, una palabra clave precedida por "-" (menos) omitirá los sitios que contienen la palabra clave en sus páginas o en la URL de las páginas del resultado de la búsqueda. Por ejemplo, la búsqueda "- <sitio no deseado>" eliminará los sitios que contengan la palabra "<sitio no deseado>" en sus páginas y las páginas cuya URL contenga "<sitio no deseado>".

Los usuarios también pueden utilizar la extensión de Google Chrome "Personal Blocklist (de Google)", lanzada por Google en 2011 como parte de las contramedidas contra la agricultura de contenido . [13] [14] A través de la extensión, los usuarios pueden bloquear una página específica o un conjunto de páginas para que no aparezcan en sus resultados de búsqueda. A partir de 2021, la extensión original parece haber sido eliminada, aunque se pueden usar extensiones de funcionamiento similar.

Ver también

  • Recuperación de información contradictoria
  • Índice (motor de búsqueda) : descripción general de la tecnología de indexación del motor de búsqueda
  • TrustRank
  • Raspado web
  • Microsoft SmartScreen
  • Windows Defender

Referencias

  1. ^ SearchEngineLand , explicación en video de Danny Sullivan de Search Engine Spam, octubre de 2008 . Consultado el 13 de noviembre de 2008.
  2. ^ a b c "Word Spy - spamdexing" (definición), marzo de 2003, página web: WordSpy-spamdexing .
  3. ↑ a b Gyöngyi, Zoltán ; García-Molina, Héctor (2005), "Taxonomía de spam en la Web" (PDF) , Actas del Primer Taller Internacional sobre Recuperación de Información Adversarial en la Web (AIRWeb), 2005 en la 14ª Conferencia Internacional de la World Wide Web (WWW 2005) 10 de mayo , (Martes) -14 (sábado), 2005, Nippon Convention Center (Makuhari Messe), Chiba, Japón. , Nueva York, NY: ACM Press, ISBN 1-59593-046-9
  4. ^ a b Ntoulas, Alexandros ; Manasse, Mark ; Najork, Marc ; Fetterly, Dennis (2006), "Detecting Spam Web Pages through Content Analysis", 15ª Conferencia Internacional World Wide Web (WWW 2006) 23 al 26 de mayo de 2006, Edimburgo, Escocia. , Nueva York, NY: ACM Press, ISBN 1-59593-323-9
  5. Smarty, Ann (17 de diciembre de 2008). "¿Qué es BlackHat SEO? 5 definiciones" . Revista del motor de búsqueda . Consultado el 5 de julio de 2012 .
  6. Segal, David (13 de febrero de 2011). "Los pequeños secretos sucios de la búsqueda" . El NY Times . Consultado el 3 de julio de 2012 .
  7. ^ Davison, Brian (2000), "Recognizing Nepotistic Links on the Web" (PDF) , Taller AAAI-2000 sobre inteligencia artificial para búsqueda web , Boston: AAAI Press, págs. 23-28
  8. ^ "Motores de búsqueda: tecnología, sociedad y negocios - Marti Hearst, 29 de agosto de 2005" (PDF) . berkeley.edu .
  9. ^ "Google apunta a sitios que utilizan redes de blogs privados con sanciones de clasificación de acción manual" . Search Engine Land . 2014-09-23 . Consultado el 12 de diciembre de 2016 .
  10. ^ "La decadencia y caída de los blogs invitados para SEO" . mattcutts.com . 20 de enero de 2014.
  11. ^ Mishne, Gilad ; David Carmel; Ronny Lempel (2005). "Bloqueo de spam de blogs con desacuerdo con el modelo de idioma" (PDF) . Actas del Primer Taller Internacional sobre Recuperación de Información Adversaria en la Web . Consultado el 24 de octubre de 2007 .
  12. ^ "Redirecciones furtivas - Ayuda de Search Console" . support.google.com .
  13. ^ "Google 検 索 結果 の 悪 質 な サ イ ト を 非 表示 & 通報 し 検 索 品質 ア ッ プ に 貢献 で き る Google 公式 Chrome 拡 張 機能「 Lista de bloqueo personal 」" . gigazine.net .
  14. ^ "Nuevo: Bloquear sitios de los resultados de Google usando la" Lista de bloqueo personal "de Chrome - Search Engine Land" . Searchengineland.com . 14 de febrero de 2011.

enlaces externos

Obtenido de " https://en.wikipedia.org/w/index.php?title=Spamdexing&oldid=1042322110 "