Common Crawl es una organización sin fines de lucro 501 (c) (3) que rastrea la web y proporciona gratuitamente sus archivos y conjuntos de datos al público. [1] [2] El archivo web de Common Crawl consta de petabytes de datos recopilados desde 2011. [3] Por lo general, completa los rastreos todos los meses. [4]
Tipo de negocio | 501 (c) (3) sin fines de lucro |
---|---|
Disponible en | inglés |
Sede | San Francisco, California ; Los Ángeles, California , Estados Unidos |
Fundador (es) | Gil Elbaz |
Gente clave | Peter Norvig , Nova Spivack , Carl Malamud , Kurt Bollacker Joi Ito |
URL | commoncrawl |
Common Crawl fue fundada por Gil Elbaz . [5] Los asesores de la organización sin fines de lucro incluyen a Peter Norvig y Joi Ito . [6] Los rastreadores de la organización respetan las políticas nofollow y robots.txt . El código fuente abierto para procesar el conjunto de datos de Common Crawl está disponible públicamente.
Historia
Amazon Web Services comenzó a alojar el archivo de Common Crawl a través de su programa de conjuntos de datos públicos en 2012. [7]
La organización comenzó a publicar archivos de metadatos y la salida de texto de los rastreadores junto con los archivos .arc en julio de ese año. [8] Los archivos de Common Crawl solo habían incluido archivos .arc anteriormente. [8]
En diciembre de 2012, blekko donó a Common Crawl los metadatos del motor de búsqueda que blekko recopiló de los rastreos que realizó de febrero a octubre de 2012. [9] Los datos donados ayudaron a Common Crawl a "mejorar su rastreo y evitar el spam, la pornografía y la influencia del SEO excesivo ". [9]
En 2013, Common Crawl comenzó a utilizar el rastreador web Nutch de Apache Software Foundation en lugar de un rastreador personalizado. [10] Common Crawl pasó de utilizar archivos .arc a archivos .warc con su rastreo de noviembre de 2013. [11]
Se utilizó una versión filtrada de Common Crawl para entrenar el modelo de lenguaje GPT-3 de OpenAI , anunciado en 2020. [12]
Historial de datos de rastreo común
Los siguientes datos se han recopilado del blog oficial de Common Crawl. [13]
Fecha de rastreo | Tamaño en TiB | Miles de millones de páginas | Comentarios |
---|---|---|---|
Abril de 2021 | 320 | 3.1 | |
Noviembre de 2018 | 220 | 2.6 | |
Octubre de 2018 | 240 | 3,0 | |
Septiembre de 2018 | 220 | 2.8 | |
Agosto de 2018 | - | - | |
Julio de 2018 | 255 | 3,25 | |
Junio de 2018 | 235 | 3,05 | |
Mayo de 2018 | 215 | 2,75 | |
Abril de 2018 | 230 | 3.1 | |
Marzo de 2018 | 250 | 3.2 | |
Febrero de 2018 | 270 | 3.4 | |
Enero de 2018 | 270 | 3.4 | |
Diciembre de 2017 | 240 | 2.9 | |
Noviembre de 2017 | 260 | 3.2 | |
Octubre de 2017 | 300 | 3,65 | |
Septiembre de 2017 | 250 | 3,01 | |
Agosto de 2017 | 280 | 3,28 | |
Julio de 2017 | 240 | 2,89 | |
Junio de 2017 | 260 | 3,16 | |
Mayo de 2017 | 250 | 2,96 | |
Abril de 2017 | 250 | 2,94 | |
Marzo de 2017 | 250 | 3,07 | |
Febrero de 2017 | 250 | 3,08 | |
Enero de 2017 | 250 | 3,14 | |
Diciembre de 2016 | - | 2,85 | |
Octubre de 2016 | - | 3,25 | |
Septiembre de 2016 | - | 1,72 | |
Agosto de 2016 | - | 1,61 | |
Julio de 2016 | - | 1,73 | |
Junio de 2016 | - | 1,23 | |
Mayo de 2016 | - | 1,46 | |
Abril de 2016 | - | 1,33 | |
Febrero de 2016 | - | 1,73 | |
Noviembre de 2015 | 151 | 1,82 | |
Septiembre de 2015 | 106 | 1,32 | |
Agosto de 2015 | 149 | 1,84 | |
Julio de 2015 | 145 | 1,81 | |
Junio de 2015 | 131 | 1,67 | |
Mayo de 2015 | 159 | 2,05 | |
Abril de 2015 | 168 | 2.11 | |
Marzo de 2015 | 124 | 1,64 | |
Febrero de 2015 | 145 | 1,9 | |
Enero de 2015 | 139 | 1,82 | |
Diciembre de 2014 | 160 | 2,08 | |
Noviembre de 2014 | 135 | 1,95 | |
Octubre de 2014 | 254 | 3,7 | |
Septiembre de 2014 | 220 | 2.8 | |
Agosto de 2014 | 200 | 2.8 | |
Julio de 2014 | 266 | 3.6 | |
Abril de 2014 | 183 | 2.6 | |
Marzo del 2014 | 223 | 2.8 | Primer rastreo de Nutch |
Enero 2014 | 148 | 2.3 | Rastreos realizados mensualmente |
Noviembre de 2013 | 102 | 2 | Datos en formato de archivo Warc |
Julio de 2012 | - | - | Datos en formato de archivo Arc |
Enero de 2012 | - | - | Conjunto de datos públicos de Amazon Web Services |
Noviembre de 2011 | 40 | 5 | Primera disponibilidad en Amazon |
Premio Norvig Web Data Science
En corroboración con SURFsara , Common Crawl patrocina el premio Norvig Web Data Science Award, un concurso abierto a estudiantes e investigadores del Benelux . [14] [15] El premio lleva el nombre de Peter Norvig, quien también preside el comité de jueces del premio. [14]
Referencias
- ^ Rosanna Xia (5 de febrero de 2012). "El empresario tecnológico Gil Elbaz triunfó en Los Ángeles " Los Angeles Times . Consultado el 31 de julio de 2014 .
- ^ "Gil Elbaz y Common Crawl" . NBC News . 4 de abril de 2013 . Consultado el 31 de julio de 2014 .
- ^ "Así que estás listo para empezar" . Consultado el 2 de junio de 2018 .
- ^ Lisa Green (8 de enero de 2014). "Los datos de rastreo de invierno de 2013 ya están disponibles" . Consultado el 2 de junio de 2018 .
- ^ "Startups - Gil Elbaz y Nova Spivack de Common Crawl - TWiST # 222". Esta semana en startups. 10 de enero de 2012.
- ^ Tom Simonite (23 de enero de 2013). "Una base de datos gratuita de toda la web puede generar el próximo Google" . Revisión de tecnología del MIT . Consultado el 31 de julio de 2014 .
- ^ Jennifer Zaino (13 de marzo de 2012). "Rastreo común para agregar nuevos datos en el segmento de servicios web de Amazon" . Web semántica. Archivado desde el original el 1 de julio de 2014 . Consultado el 31 de julio de 2014 .
- ^ a b Jennifer Zaino (16 de julio de 2012). "La actualización de Common Crawl Corpus hace que los datos de rastreo web sean más eficientes y accesibles para que los usuarios los exploren" . Web semántica. Archivado desde el original el 12 de agosto de 2014 . Consultado el 31 de julio de 2014 .
- ^ a b Jennifer Zaino (18 de diciembre de 2012). "La donación de datos de Blekko es un gran beneficio para el rastreo común" . Web semántica. Archivado desde el original el 12 de agosto de 2014 . Consultado el 31 de julio de 2014 .
- ^ Jordan Mendelson (20 de febrero de 2014). "Movimiento de Common Crawl a Nutch" . Rastreo común . Consultado el 31 de julio de 2014 .
- ^ Jordan Mendelson (27 de noviembre de 2013). "¡Nuevos datos de rastreo disponibles!" . Rastreo común . Consultado el 31 de julio de 2014 .
- ^ Brown, Tom; Mann, Benjamín; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini (1 de junio de 2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". pag. 14. arXiv : 2005.14165 [ cs.CL ].
la mayoría de nuestros datos se derivan de Common Crawl sin procesar con solo filtrado basado en la calidad.
- ^ http://commoncrawl.org/connect/blog/
- ^ a b Lisa Green (15 de noviembre de 2012). "Premio Norvig Web Data Science" . Rastreo común . Consultado el 31 de julio de 2014 .
- ^ "Premio Norvig Web Data Science 2014" . Centro Tecnológico Holandés de Ciencias de la Vida. Archivado desde el original el 15 de agosto de 2014 . Consultado el 31 de julio de 2014 .
enlaces externos
- Common Crawl en California, Estados Unidos
- Repositorio de GitHub de rastreo común con el rastreador, bibliotecas y código de ejemplo
- Grupo de discusión de rastreo común
- Blog de rastreo común