Red profunda


De Wikipedia, la enciclopedia libre
  (Redirigido desde Invisible Web )
Saltar a navegación Saltar a búsqueda

La web profunda , [1] red invisible , [2] o Web oculta [3] son partes de la World Wide Web cuyo contenido no son indexados por los estándares web motores de búsqueda . Esto contrasta con la " web de superficie ", a la que puede acceder cualquier persona que utilice Internet. [4] Al científico informático Michael K. Bergman se le atribuye haber acuñado el término en 2001 como un término de indexación de búsqueda. [5]

El contenido de la web profunda está oculto detrás de los formularios HTTP [ vago ] [6] [7] e incluye usos como correo web , banca en línea , páginas y perfiles de redes sociales de acceso privado o restringido , algunos foros web que requieren registro para ver contenido y servicios por los que los usuarios deben pagar y que están protegidos por muros de pago , como videos a pedido y algunas revistas y periódicos en línea.

El contenido de la deep web se puede ubicar y acceder a través de una URL directa o una dirección IP , pero puede requerir una contraseña u otro acceso de seguridad para pasar de las páginas del sitio web público.

Terminología

La primera combinación de los términos "web profunda" con " web oscura " se produjo en 2009 cuando se discutió la terminología de búsqueda en la web profunda junto con las actividades ilegales que tenían lugar en Freenet y darknet . [8] Esas actividades delictivas incluyen el comercio de contraseñas personales, documentos de identidad falsos , drogas , armas de fuego y pornografía infantil . [9]

Desde entonces, después de su uso en la presentación de informes de los medios en la ruta de la seda , los medios de comunicación han empezado a usar 'web profunda' como sinónimos con la tela oscura o red oscura , una comparación algunos rechazan como inexacta [10] y por lo tanto se ha convertido en una fuente continua de confusión. [11] Los reporteros de Wired Kim Zetter [12] y Andy Greenberg [13]recomendar que los términos se utilicen de distintas formas. Si bien la web profunda es una referencia a cualquier sitio al que no se puede acceder a través de un motor de búsqueda tradicional, la web oscura es una parte de la web profunda que se ha ocultado intencionalmente y es inaccesible a través de navegadores y métodos estándar. [14] [15] [16] [17] [18]

Contenido no indexado

Bergman, en un artículo sobre la deep web publicado en The Journal of Electronic Publishing , mencionó que Jill Ellsworth usó el término Invisible Web en 1994 para referirse a sitios web que no estaban registrados en ningún motor de búsqueda. [19] Bergman citó un artículo de enero de 1996 de Frank García: [20]

Sería un sitio que posiblemente esté razonablemente diseñado, pero no se molestaron en registrarlo en ninguno de los motores de búsqueda. ¡Entonces, nadie puede encontrarlos! Estás escondido. Yo llamo a eso la Web invisible.

Otro uso temprano del término Invisible Web fue por Bruce Mount y Matthew B. Koll de Personal Library Software , en una descripción de la herramienta # 1 Deep Web que se encuentra en un comunicado de prensa de diciembre de 1996. [21]

El primer uso del término específico deep web , ahora generalmente aceptado, ocurrió en el estudio de Bergman de 2001 antes mencionado. [19]

Métodos de indexación

Los métodos que evitan que las páginas web sean indexadas por los motores de búsqueda tradicionales pueden clasificarse como uno o más de los siguientes:

  1. Web contextual : páginas con contenido que varía para diferentes contextos de acceso (por ejemplo, rangos de direcciones IP de clientes o secuencia de navegación previa).
  2. Contenido dinámico : páginas dinámicas , que se devuelven en respuesta a una consulta enviada o se accede solo a través de un formulario, especialmente si se utilizan elementos de entrada de dominio abierto (como campos de texto); estos campos son difíciles de navegar sin conocimiento del dominio .
  3. Contenido de acceso limitado : sitios que limitan el acceso a sus páginas de forma técnica (p. Ej., Utilizando el estándar de exclusión de robots o CAPTCHA , o la directiva de no tienda, que prohíbe a los motores de búsqueda navegar por ellos y crear copias en caché ). [22]
  4. Contenido no HTML / de texto : contenido textual codificado en archivos multimedia (imagen o video) o formatos de archivo específicos no manejados por los motores de búsqueda.
  5. Web privada : sitios que requieren registro e inicio de sesión (recursos protegidos por contraseña).
  6. Contenido con secuencias de comandos : páginas a las que solo se puede acceder a través de enlaces producidos por JavaScript , así como contenido descargado dinámicamente desde servidores web a través de soluciones Flash o Ajax .
  7. Software : cierto contenido se oculta intencionalmente de la Internet normal, accesible solo con software especial, como Tor , I2P u otro software de red oscura. Por ejemplo, Tor permite a los usuarios acceder a sitios web utilizando la dirección del servidor .onion de forma anónima, ocultando su dirección IP.
  8. Contenido no vinculado : páginas que no están vinculadas por otras páginas, lo que puede evitar que los programas de rastreo web accedan al contenido. Este contenido se conoce como páginas sin backlinks (también conocidas como inlinks). Además, los motores de búsqueda no siempre detectan todos los vínculos de retroceso de las páginas web buscadas.
  9. Archivos web : los servicios de archivo web como Wayback Machine permiten a los usuarios ver versiones archivadas de páginas web a lo largo del tiempo, incluidos sitios web que se han vuelto inaccesibles y no están indexados por motores de búsqueda como Google. Wayback Machine puede denominarse un programa para ver la web profunda, ya que los archivos web que no son del presente no se pueden indexar, ya que las versiones anteriores de los sitios web son imposibles de ver mediante una búsqueda. Todos los sitios web se actualizan en algún momento, por lo que los archivos web se consideran contenido de Deep Web. [23]
  10. Archivos robots.txt : un archivo robots.txt puede aconsejar a los robots de los motores de búsqueda que no rastreen sitios web utilizando user-agent: * y luego no permitir: /. Esto le dirá a todos los robots de los motores de búsqueda que no rastreen todo el sitio web y lo agreguen al motor de búsqueda. [24]

Tipos de contenido

Si bien no siempre es posible descubrir directamente el contenido de un servidor web específico para poder indexarlo, se puede acceder a un sitio de forma indirecta (debido a vulnerabilidades informáticas ).

Para descubrir contenido en la web, los motores de búsqueda utilizan rastreadores web que siguen hipervínculos a través de números de puerto virtuales de protocolo conocido . Esta técnica es ideal para descubrir contenido en la web superficial, pero a menudo es ineficaz para encontrar contenido en la web profunda. Por ejemplo, estos rastreadores no intentan encontrar páginas dinámicas que son el resultado de consultas a la base de datos debido al número indeterminado de consultas posibles. [25] Se ha observado que esto se puede superar (parcialmente) proporcionando enlaces a los resultados de las consultas, pero esto podría inflar involuntariamente la popularidad de un miembro de la web profunda.

DeepPeep , Intute , profundos Tecnologías Web , Scirus , y Ahmia.fi hay algunos motores de búsqueda que han accedido a la web profunda. Intute se quedó sin fondos y ahora es un archivo estático temporal en julio de 2011. [26] Scirus se retiró a finales de enero de 2013. [27]

Los investigadores han estado explorando cómo se puede rastrear la web profunda de forma automática, incluido el contenido al que solo se puede acceder mediante un software especial como Tor . En 2001, Sriram Raghavan y Héctor García-Molina (Departamento de Ciencias de la Computación de Stanford, Universidad de Stanford) [28] [29] presentaron un modelo arquitectónico para un rastreador web oculto que usaba términos clave proporcionados por los usuarios o recopilados de las interfaces de consulta para realizar consultas. un formulario web y rastrear el contenido de la Deep Web. Alexandros Ntoulas, Petros Zerfos y Junghoo Cho de UCLA crearon un rastreador web oculto que generaba automáticamente consultas significativas para emitir en los formularios de búsqueda. [30] Varios lenguajes de consulta de formularios (p. Ej., DEQUEL [31]) se han propuesto que, además de emitir una consulta, también permitan la extracción de datos estructurados de las páginas de resultados. Otro esfuerzo es DeepPeep, un proyecto de la Universidad de Utah patrocinado por la National Science Foundation , que reunió fuentes web ocultas (formularios web) en diferentes dominios basados ​​en técnicas novedosas de rastreadores enfocados. [32] [33]

Los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la web profunda. El Protocolo de mapa del sitio (desarrollado por primera vez e introducido por Google en 2005) y OAI-PMH son mecanismos que permiten a los motores de búsqueda y otras partes interesadas descubrir recursos de la web profunda en servidores web específicos. Ambos mecanismos permiten a los servidores web anunciar las URL a las que se puede acceder en ellos, lo que permite el descubrimiento automático de recursos que no están directamente vinculados a la superficie web. El sistema de superficie web profunda de Google calcula los envíos para cada formulario HTML y agrega las páginas HTML resultantes al índice del motor de búsqueda de Google. Los resultados surgidos representan mil consultas por segundo al contenido de la web profunda. [34] En este sistema, el cálculo previo de las presentaciones se realiza mediante tres algoritmos:

  1. seleccionar valores de entrada para entradas de búsqueda de texto que acepten palabras clave,
  2. identificar entradas que aceptan solo valores de un tipo específico (por ejemplo, fecha) y
  3. seleccionar una pequeña cantidad de combinaciones de entrada que generen URL adecuadas para su inclusión en el índice de búsqueda web.

En 2008, para facilitar a los usuarios de los servicios ocultos de Tor el acceso y la búsqueda de un sufijo .onion oculto , Aaron Swartz diseñó Tor2web, una aplicación proxy capaz de proporcionar acceso mediante navegadores web comunes. [35] Con esta aplicación, los enlaces web profundos aparecen como una cadena aleatoria de letras seguidas del dominio de nivel superior .onion .

Ver también

  • Programa Memex de DARPA
  • Enlace profundo
  • Gopher (protocolo)

Referencias

  1. ^ Hamilton, Nigel (2003). "La mecánica de un motor de metabúsqueda en la red profunda" . En Isaías, Pedro; Palma dos Reis, António (eds.). Actas de la Conferencia Internacional de IADIS sobre e-Society . págs. 1034–6. CiteSeerX  10.1.1.90.5847 . ISBN 972-98947-0-1.
  2. ^ Devine, Jane; Egger-Sider, Francine (agosto de 2004). "Más allá de google: la web invisible en la biblioteca académica". La Revista de Bibliotecología Académica . 30 (4): 265–269. doi : 10.1016 / j.acalib.2004.04.010 .
  3. ^ Raghavan, Sriram; García-Molina, Héctor (11 al 14 de septiembre de 2001). "Rastrear la web oculta" . 27ª Conferencia Internacional sobre Bases de Datos Muy Grandes .
  4. ^ "Surface Web" . Esperanza informática . Consultado el 20 de junio de 2018 .
  5. ^ Wright, Alex (22 de febrero de 2009). "Explorando una 'Deep Web' que Google no puede captar" . The New York Times . Consultado el 2 de septiembre de 2019 . [...] Mike Bergman, científico informático y consultor a quien se le atribuye haber acuñado el término Deep Web.
  6. ^ Madhavan, J., Ko, D., Kot, Ł., Ganapathy, V., Rasmussen, A. y Halevy, A. (2008). Rastreo web profundo de Google. Actas de la Fundación VLDB, 1 (2), 1241–52.
  7. ^ Shedden, Sam (8 de junio de 2014). "¿Cómo quieres que lo haga? ¿Tiene que parecer un accidente? - Un asesino vendiendo un hit en la red; revelado dentro de la Deep Web" . Sunday Mail .[ enlace muerto ]
  8. ^ Beckett, Andy (26 de noviembre de 2009). "El lado oscuro de Internet" . Consultado el 9 de agosto de 2015 .
  9. ^ D. Día. Captura más fácil: no seas otro pez en la red oscura . Universidad de Wake Forest : TEDx Talks .
  10. ^ "Aclarando la confusión - Deep Web vs Dark Web" . BrightPlanet. 27 de marzo de 2014.
  11. ^ Solomon, Jane (6 de mayo de 2015). "La Deep Web frente a la Dark Web" . Consultado el 26 de mayo de 2015 .
  12. ^ Personal de NPR (25 de mayo de 2014). "Oscuridad: Internet detrás de Internet" . Consultado el 29 de mayo de 2015 .
  13. ^ Greenberg, Andy (19 de noviembre de 2014). "Hacker Lexicon: ¿Qué es la Dark Web?" . Consultado el 6 de junio de 2015 .
  14. ^ "El impacto de la Dark Web en la gobernanza de Internet y la seguridad cibernética" (PDF) . Consultado el 15 de enero de 2017 .
  15. ^ Lam, Kwok-Yan; Chi, Chi-Hung; Qing, Sihan (23 de noviembre de 2016). Seguridad de la información y las comunicaciones: 18a Conferencia Internacional, ICICS 2016, Singapur, Singapur, 29 de noviembre al 2 de diciembre de 2016, Actas . Saltador. ISBN 9783319500119. Consultado el 15 de enero de 2017 .
  16. ^ "La Deep Web frente a la Dark Web | Blog de Dictionary.com" . Blog del diccionario. 6 de mayo de 2015 . Consultado el 15 de enero de 2017 .
  17. ^ Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser (1 de enero de 2017). Investigación de inteligencia de código abierto: de la estrategia a la implementación . Saltador. ISBN 9783319476711. Consultado el 15 de enero de 2017 .
  18. ^ "¿Qué es la web oscura y quién la usa?" . El globo y el correo . Consultado el 15 de enero de 2017 .
  19. ↑ a b Bergman, Michael K (agosto de 2001). "La Deep Web: valor oculto a la superficie" . La Revista de Publicaciones Electrónicas . 7 (1). doi : 10.3998 / 3336451.0007.104 .
  20. ^ García, Frank (enero de 1996). "Negocios y Marketing en Internet" . Cabecera . 15 (1). Archivado desde el original el 5 de diciembre de 1996 . Consultado el 24 de febrero de 2009 .
  21. ^ @ 1 comenzó con 5.7 terabytes de contenido, estimado en 30 veces el tamaño de la naciente World Wide Web; PLS fue adquirida por AOL en 1998 y @ 1 fue abandonada. "PLS presenta AT1, el primer servicio de búsqueda en Internet de 'segunda generación'" (Comunicado de prensa). Software de biblioteca personal. Diciembre de 1996. Archivado desde el original el 21 de octubre de 1997 . Consultado el 24 de febrero de 2009 .
  22. ^ "Protocolo de transferencia de hipertexto (HTTP / 1.1): almacenamiento en caché" . Grupo de trabajo de ingeniería de Internet . 2014 . Consultado el 30 de julio de 2014 .
  23. ^ Wiener-Bronner, Danielle (10 de junio de 2015). "La NASA está indexando la 'Deep Web' para mostrar a la humanidad lo que Google no quiere" . Fusion . Consultado el 27 de junio de 2015 . Hay otras versiones más simples de Memex ya disponibles. "Si alguna vez usó Wayback Machine de Internet Archive", que le brinda versiones anteriores de un sitio web no accesible a través de Google, entonces técnicamente ha buscado en la Deep Web, dijo Chris Mattmann .
  24. ^ "Cómo crear el archivo Robots.txt perfecto para SEO" . Neil Patel . 30 de marzo de 2017 . Consultado el 20 de enero de 2021 .
  25. ^ Wright, Alex (22 de febrero de 2009). "Explorando una 'Deep Web' que Google no puede captar" . The New York Times . Consultado el 23 de febrero de 2009 .
  26. ^ "Preguntas frecuentes de Intute, enlace muerto" . Consultado el 13 de octubre de 2012 .
  27. ^ "Elsevier para retirar el motor de búsqueda de ciencia popular" . library.bldrdoc.gov . Diciembre de 2013. Archivado desde el original el 23 de junio de 2015 . Consultado el 22 de junio de 2015 . a finales de enero de 2014, Elsevier interrumpirá Scirus, su motor de búsqueda científica gratuito. Scirus ha sido una herramienta de investigación de amplio alcance, con más de 575 millones de elementos indexados para búsquedas, incluidas páginas web, artículos preimpresos, patentes y repositorios.
  28. ^ Sriram Raghavan ; García-Molina, Héctor (2000). "Rastrear la web oculta" (PDF) . Informe técnico de las bibliotecas digitales de Stanford . Consultado el 27 de diciembre de 2008 . Cite journal requiere |journal=( ayuda )
  29. ^ Raghavan, Sriram; García-Molina, Héctor (2001). "Rastrear la web oculta" (PDF) . Actas de la 27ª Conferencia Internacional sobre Bases de Datos Muy Grandes (VLDB) . págs. 129–38.
  30. Alexandros, Ntoulas; Zerfos, Petros; Cho, Junghoo (2005). "Descarga de contenido web oculto" (PDF) . Ciencias de la Computación de UCLA . Consultado el 24 de febrero de 2009 . Cite journal requiere |journal=( ayuda )
  31. ^ Shestakov, Denis; Bhowmick, Sourav S .; Lim, Ee-Peng (2005). "DEQUE: Consultando la Deep Web" (PDF) . Ingeniería de datos y conocimiento . 52 (3): 273–311. doi : 10.1016 / S0169-023X (04) 00107-7 .
  32. ^ Barbosa, Luciano; Freire, Juliana (2007). "Un rastreador adaptable para localizar puntos de entrada en la Web oculta" (PDF) . Conferencia WWW 2007 . Consultado el 20 de marzo de 2009 . Cite journal requiere |journal=( ayuda )
  33. ^ Barbosa, Luciano; Freire, Juliana (2005). "Búsqueda de bases de datos web ocultas" (PDF) . WebDB 2005 . Consultado el 20 de marzo de 2009 . Cite journal requiere |journal=( ayuda )
  34. ^ Madhavan, Jayant; Ko, David; Kot, Łucja; Ganapathy, Vignesh; Rasmussen, Alex; Halevy, Alon (2008). "Rastreo de la Web profunda de Google" (PDF) . Dotación VLDB, ACM . Consultado el 17 de abril de 2009 . Cite journal requiere |journal=( ayuda )
  35. ^ Aaron, Swartz. "En defensa del anonimato" . Consultado el 4 de febrero de 2014 .

Otras lecturas

  • Barker, Joe (enero de 2004). "Web invisible: qué es, por qué existe, cómo encontrarla y su ambigüedad inherente" . Universidad de California, Berkeley, Talleres de enseñanza en Internet de bibliotecas. Archivado desde el original el 29 de julio de 2005 . Consultado el 26 de julio de 2011 ..
  • Basu, Saikat (14 de marzo de 2010). "10 motores de búsqueda para explorar la web invisible" . MakeUseOf.com..
  • Ozkan, Akin (noviembre de 2014). "Deep Web / Derin İnternet" ..
  • Gruchawka, Steve (junio de 2006). "Guía práctica para la Web profunda" ..
  • Hamilton, Nigel (2003). "La mecánica de un motor de metabúsqueda en la red profunda" . 12ª Conferencia World Wide Web..
  • Él, Bin; Chang, Kevin Chen-Chuan (2003). "Coincidencia de esquemas estadísticos en interfaces de consultas web" (PDF) . Actas de la Conferencia Internacional ACM SIGMOD 2003 sobre Gestión de Datos . Archivado desde el original (PDF) el 20 de julio de 2011.
  • Howell O'Neill, Patrick (octubre de 2013). "Cómo buscar en la Deep Web" . El punto diario ..
  • Ipeirotis, Panagiotis G .; Gravano, Luis; Sahami, Mehran (2001). "Sondear, contar y clasificar: categorización de bases de datos web ocultas" (PDF) . Actas de la Conferencia Internacional ACM SIGMOD 2001 sobre Gestión de Datos . págs. 67–78. Archivado desde el original (PDF) el 12 de septiembre de 2006 . Consultado el 26 de septiembre de 2006 .
  • King, John D .; Li, Yuefeng; Tao, Daniel; Nayak, Richi (noviembre de 2007). "Conocimiento del mundo de la minería para el análisis del contenido de los motores de búsqueda" (PDF) . Web Intelligence y sistemas de agentes . 5 (3): 233–53. Archivado desde el original (PDF) el 3 de diciembre de 2008 . Consultado el 26 de julio de 2011 .
  • McCown, Frank; Liu, Xiaoming; Nelson, Michael L .; Zubair, Mohammad (marzo-abril de 2006). "Cobertura de motor de búsqueda del Corpus OAI-PMH" (PDF) . Computación por Internet IEEE . 10 (2): 66–73. doi : 10.1109 / MIC.2006.41 . S2CID  15511914 .
  • Price, Gary; Sherman, Chris (julio de 2001). La Web invisible: Descubriendo fuentes de información que los motores de búsqueda no pueden ver . Libros CyberAge. ISBN 978-0-910965-51-4.
  • Shestakov, Denis (junio de 2008). Interfaces de búsqueda en la web: consulta y caracterización . Tesis Doctorales TUCS 104, Universidad de Turku
  • Whoriskey, Peter (11 de diciembre de 2008). "Las empresas presionan por una Web federal con mayor capacidad de búsqueda" . The Washington Post . pag. D01.[ enlace muerto ] .
  • Wright, Alex (marzo de 2004). "En busca de la Deep Web" . Salón . Archivado desde el original el 9 de marzo de 2007..
  • Scientists, Naked (diciembre de 2014). "Internet: lo bueno, lo malo y lo feo - Exploración en profundidad de Internet y la Dark Web por parte de Naked Scientists de la Universidad de Cambridge" (Podcast).

enlaces externos

Medios relacionados con la Deep web en Wikimedia Commons

Obtenido de " https://en.wikipedia.org/w/index.php?title=Deep_web&oldid=1053543319 "