De Wikipedia, la enciclopedia libre
  (Redirigido desde CiteSeerX (identificador) )
Saltar a navegación Saltar a búsqueda

CiteSeer x (originalmente llamado CiteSeer ) es un motor de búsqueda público y una biblioteca digital para artículos científicos y académicos, principalmente en los campos de la informática y las ciencias de la información . CiteSeer se considera un antecesor de las herramientas de búsqueda académica como Google Scholar y Microsoft Academic Search . [ cita requerida ] Los motores y archivos similares a CiteSeer generalmente solo recopilan documentos de sitios web disponibles públicamente y no rastrean los sitios web de los editores. Por esta razón, los autores cuyos documentos están disponibles gratuitamente tienen más probabilidades de estar representados en el índice.

El objetivo de CiteSeer es mejorar la difusión y el acceso a la literatura académica y científica. Como un servicio sin fines de lucro que puede ser utilizado libremente por cualquier persona, se ha considerado como parte del movimiento de acceso abierto que intenta cambiar la publicación académica y científica para permitir un mayor acceso a la literatura científica. CiteSeer proporcionó gratuitamente metadatos de la Iniciativa de Archivos Abiertos de todos los documentos indexados y vincula los documentos indexados cuando fue posible a otras fuentes de metadatos como DBLP y el Portal ACM . Para promover los datos abiertos , CiteSeer x comparte sus datos con fines no comerciales bajo una licencia Creative Commons.[1]

CiteSeer cambió su nombre a ResearchIndex en un momento y luego lo volvió a cambiar. [ cita requerida ]

Historia [ editar ]

CiteSeer y CiteSeer.IST [ editar ]

CiteSeer fue creado por los investigadores Lee Giles , Kurt Bollacker y Steve Lawrence en 1997 mientras estaban en el NEC Research Institute (ahora NEC Labs ), Princeton, Nueva Jersey , EE. UU. El objetivo de CiteSeer era rastrear y recopilar activamente documentos académicos y científicos en la web y utilizar la indexación de citas autónoma para permitir la consulta por cita o por documento, clasificándolos por impacto de cita . En un momento, se llamó ResearchIndex.

CiteSeer se hizo público en 1998 y tenía muchas funciones nuevas que no estaban disponibles en los motores de búsqueda académicos en ese momento. Estos incluyeron:

  • Autonomous Citation Indexing creó automáticamente un índice de citas que se puede utilizar para la búsqueda y evaluación de literatura.
  • Se calcularon estadísticas de citas y documentos relacionados para todos los artículos citados en la base de datos, no solo los artículos indexados.
  • Enlace de referencias que permite navegar por la base de datos mediante enlaces de citas.
  • El contexto de las citas mostró el contexto de las citas de un artículo determinado, lo que le permitió al investigador ver rápida y fácilmente lo que otros investigadores tienen que decir sobre un artículo de interés.
  • Los documentos relacionados se mostraron utilizando citas y medidas basadas en palabras y se muestra una bibliografía activa y continuamente actualizada para cada documento.

A CiteSeer se le otorgó una patente de los Estados Unidos # 6289342, titulada " Indexación autónoma de citas y búsqueda de literatura usando el contexto de citas ", el 11 de septiembre de 2001. La patente se presentó el 20 de mayo de 1998 y tiene prioridad hasta el 5 de enero de 1998. Una continuación La patente (Patente de EE. UU. # 6738780) se presentó el 16 de mayo de 2001 y se otorgó el 18 de mayo de 2004.

Después de NEC, en 2004 se alojó como CiteSeer.IST en la World Wide Web en la Facultad de Ciencias de la Información y Tecnología de la Universidad Estatal de Pensilvania y tenía más de 700.000 documentos. Para mejorar el acceso, el rendimiento y la investigación, se apoyaron versiones similares de CiteSeer en universidades como el Instituto de Tecnología de Massachusetts , la Universidad de Zürich y la Universidad Nacional de Singapur . Sin embargo, estas versiones de CiteSeer resultaron difíciles de mantener y ya no están disponibles. Debido a que CiteSeer solo indexa artículos de libre acceso en la web y no tiene acceso a los metadatos del editor, devuelve menos recuentos de citas que los sitios, como Google Scholar., que tienen metadatos del editor.

CiteSeer no se había actualizado completamente desde 2005 debido a limitaciones en el diseño de su arquitectura. Tenía una muestra representativa de documentos de investigación en informática y ciencias de la información, pero tenía una cobertura limitada porque se limitaba a artículos que están disponibles públicamente, generalmente en la página de inicio de un autor, o los presentados por un autor. Para superar algunas de estas limitaciones, se diseñó una arquitectura modular y de código abierto para CiteSeer: CiteSeer x .

CiteSeer x [ editar ]

CiteSeer x reemplazó a CiteSeer y todas las consultas a CiteSeer fueron redirigidas. CiteSeer x [2] es un motor de búsqueda público y una biblioteca digital y un repositorio de artículos científicos y académicos que se centra principalmente en la informática y las ciencias de la información . [2] Sin embargo, recientemente CiteSeer x se ha expandido a otros dominios académicos como la economía, la física y otros. Lanzado en 2008, se basó libremente en el motor de búsqueda y la biblioteca digital de CiteSeer anteriores y está construido con un nuevo código abiertoinfraestructura, SeerSuite y nuevos algoritmos y sus implementaciones. Fue desarrollado por los investigadores Dr. Isaac Councill y el Dr. C. Lee Giles en la Facultad de Ciencias de la Información y Tecnología , Universidad del Estado de Pensilvania. Continúa apoyando los objetivos delineados por CiteSeer para rastrear y recolectar activamente documentos académicos y científicos en la web pública y utilizar una consulta de citas por citas y clasificación de documentos por el impacto de las citas. Actualmente, Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen y Shuyi Zheng son o han estado activamente involucrado en su desarrollo. Recientemente, se introdujo una función de búsqueda de tablas. [3] Ha sido financiado por la National Science Foundation , la NASA y Microsoft Research .

CiteSeer x sigue estando clasificado como uno de los repositorios más importantes del mundo y fue clasificado como el número 1 en julio de 2010. [4] Actualmente tiene más de 6 millones de documentos con casi 6 millones de autores únicos y 120 millones de citas.

CiteSeer x también comparte su software, datos, bases de datos y metadatos con otros investigadores, actualmente por Amazon S3 y por rsync . [5] Su nueva arquitectura y software modular de código abierto (disponible anteriormente en SourceForge pero ahora en GitHub ) se basa en Apache Solr y otras herramientas Apache y de código abierto, lo que le permite ser un banco de pruebas para nuevos algoritmos en la recopilación, clasificación e indexación de documentos. y extracción de información.

CiteSeer x almacena en caché algunos archivos PDF que ha escaneado. Como tal, cada página incluye un enlace DMCA que se puede utilizar para informar violaciones de derechos de autor. [6]

Funciones actuales [ editar ]

Extracción de información automatizada [ editar ]

CiteSeer x utiliza herramientas de extracción de información automatizadas , generalmente construidas en métodos de aprendizaje automático como ParsCit, para extraer metadatos de documentos académicos como título, autores, resumen, citas, etc. Como tal, a veces hay errores en los autores y títulos. Otros motores de búsqueda académicos tienen errores similares.

Rastreo concentrado [ editar ]

CiteSeer x rastrea documentos académicos disponibles públicamente principalmente desde las páginas web del autor y otros recursos abiertos, y no tiene acceso a los metadatos del editor. Como tal, los recuentos de citas en CiteSeer x suelen ser menores que los de Google Scholar y Microsoft Academic Search que tienen acceso a los metadatos del editor.

Uso [ editar ]

CiteSeer x tiene casi 1 millón de usuarios en todo el mundo según direcciones IP únicas y tiene millones de visitas diarias. Las descargas anuales de documentos PDF fueron de casi 200 millones en 2015.

Datos [ editar ]

Los datos de CiteSeer x se comparten regularmente bajo una licencia Creative Commons BY-NC-SA con investigadores de todo el mundo y se han utilizado y se utilizan en muchos experimentos y concursos.

Gracias a su terminal OAI-PMH , [7] CiteSeerX es un archivo abierto y su contenido está indexado como un repositorio institucional en motores de búsqueda académicos , por ejemplo, consumidores BASE y Unpaywall .

Otros motores de búsqueda basados ​​en SeerSuite [ editar ]

El modelo CiteSeer se había ampliado para cubrir documentos académicos en los negocios con SmealSearch y en el comercio electrónico con eBizSearch . Sin embargo, estos no fueron mantenidos por sus patrocinadores. Una versión anterior de ambos se pudo encontrar una vez en BizSeer.IST pero ya no está en servicio.

Se han creado otros sistemas de repositorio y búsqueda similares a Seer para química, Chem X Seer y para arqueología, ArchSeer. Otro había sido creado para la búsqueda de archivos robots.txt, BotSeer . Todos estos se basan en la herramienta de código abierto SeerSuite , que utiliza el indexador de código abierto Lucene .

Ver también [ editar ]

  • Arnetminer
  • arXiv
  • Colección de Bibliografías de Ciencias de la Computación
  • DBLP (Proyecto de Bibliografía y Biblioteca Digital)
  • Repositorio disciplinario
  • Google Académico
  • Lista de bases de datos académicas y motores de búsqueda
  • Microsoft académico
  • Artículos de investigación en economía (RePEc)
  • Académico semántico

Referencias [ editar ]

  1. ^ a b "Política de datos de CiteSeerX" . Archivado desde el original el 5 de enero de 2012 . Consultado el 10 de noviembre de 2015 .
  2. ^ a b "Acerca de CiteSeerX" . Consultado el 7 de mayo de 2010 .
  3. ^ "El equipo de CiteSeerX" . Universidad del Estado de Pensilvania. Archivado desde el original el 26 de julio de 2018 . Consultado el 1 de mayo de 2018 .
  4. ^ "Ranking Web de repositorios mundiales: top 800 repositorios" . Laboratorio de cibermetría. Julio de 2010. Archivado desde el original el 24 de julio de 2010 . Consultado el 24 de julio de 2010 .
  5. ^ "Acerca de los datos de CiteSeerX" . Universidad del Estado de Pensilvania. Archivado desde el original el 5 de enero de 2012 . Consultado el 25 de enero de 2012 .
  6. ^ Por ejemplo, "CiteSeerx - Aviso de DMCA". CiteSeerX 10.1.1.604.4916 . El documento con el identificador "10.1.1.604.4916" se eliminó debido a un aviso de eliminación de la DMCA. Si cree que la eliminación ha sido un error, comuníquese con nosotros a través de la página de comentarios, junto con el identificador mencionado en esta página.  Cite journal requires |journal= (help)
  7. Hirst, autor Tony (8 de diciembre de 2011). "Uso de OAI-PMH como una interfaz de consulta de nivel de registro único para Citeseer" . Consultado el 25 de abril de 2020 .

Lectura adicional [ editar ]

  • Giles, C. Lee; Bollacker, Kurt D .; Lawrence, Steve (1998). "CiteSeer: un sistema automático de indexación de citas". Actas de la Tercera Conferencia ACM sobre Bibliotecas Digitales . págs. 89–98. CiteSeerX  10.1.1.30.6847 . doi : 10.1145 / 276675.276685 . ISBN 978-0-89791-965-4. S2CID  514080 .

Enlaces externos [ editar ]

  • Sitio web oficial de CiteSeer x
  • CiteSeerX en GitHub
  • SeerSuite en SourceForge.net (histórico)