DBpedia (de "DB" para " base de datos ") es un proyecto que tiene como objetivo extraer contenido estructurado de la información creada en el proyecto de Wikipedia . Esta información estructurada está disponible en la World Wide Web . [1] DBpedia permite a los usuarios consultar semánticamente las relaciones y propiedades de los recursos de Wikipedia, incluidos enlaces a otros conjuntos de datos relacionados . [2]
Desarrollador (es) | |
---|---|
Versión inicial | 10 de Enero de 2007 |
Lanzamiento estable | DBpedia 2016-10 / 4 de julio de 2017 |
Repositorio | |
Escrito en | |
Sistema operativo | Virtuoso Universal Server |
Tipo | |
Licencia | Licencia pública general GNU |
Sitio web | dbpedia |
En 2008, Tim Berners-Lee describió DBpedia como una de las partes más famosas del esfuerzo descentralizado de datos enlazados . [3]
Fondo
El proyecto fue iniciado por personas de la Universidad Libre de Berlín y la Universidad de Leipzig [4] en colaboración con OpenLink Software, y ahora lo mantienen personas de la Universidad de Mannheim y la Universidad de Leipzig. [5] [6] El primer conjunto de datos disponible públicamente se publicó en 2007. [4] Los datos están disponibles bajo licencias gratuitas ( CC-BY-SA ), lo que permite a otros reutilizar el conjunto de datos; sin embargo, no utiliza una licencia de datos abiertos para renunciar a los derechos de base de datos sui generis .
Los artículos de Wikipedia consisten principalmente en texto libre, pero también incluyen información estructurada incrustada en los artículos, como tablas de " infobox " (los paneles extraíbles que aparecen en la parte superior derecha de la vista predeterminada de muchos artículos de Wikipedia, o al comienzo de las versiones móviles ), información de categorización, imágenes, coordenadas geográficas y enlaces a páginas web externas . Esta información estructurada se extrae y se coloca en un conjunto de datos uniforme que se puede consultar.
Conjunto de datos
La versión 2016-04 del conjunto de datos de DBpedia describe 6,0 millones de entidades, de las cuales 5,2 millones están clasificadas en una ontología coherente , incluidas 1,5 millones de personas, 810 mil lugares, 135 mil álbumes de música, 106 mil películas, 20 mil videojuegos, 275 mil organizaciones, 301 mil especies y enfermedades 5k. [7] DBpedia utiliza el marco de descripción de recursos (RDF) para representar la información extraída y consta de 9.5 mil millones de triples de RDF, de los cuales 1.3 mil millones se extrajeron de la edición en inglés de Wikipedia y 5.0 mil millones de ediciones en otros idiomas. [7]
A partir de este conjunto de datos, se puede extraer información distribuida en varias páginas. Por ejemplo, la autoría de un libro se puede recopilar a partir de páginas sobre el trabajo o el autor. [ se necesita más explicación ]
Uno de los desafíos a la hora de extraer información de Wikipedia es que los mismos conceptos se pueden expresar utilizando diferentes parámetros en infobox y otras plantillas, como |birthplace=
y |placeofbirth=
. Debido a esto, las consultas sobre dónde nacieron las personas tendrían que buscar ambas propiedades para obtener resultados más completos. Como resultado, se ha desarrollado DBpedia Mapping Language para ayudar a mapear estas propiedades en una ontología mientras se reduce el número de sinónimos. Debido a la gran diversidad de infoboxes y propiedades que se utilizan en Wikipedia, el proceso de desarrollo y mejora de estas asignaciones se ha abierto a contribuciones públicas. [8]
La versión 2014 se publicó en septiembre de 2014. [9] Un cambio principal desde las versiones anteriores fue la forma en que se extraían los textos de los resúmenes. Específicamente, ejecutar un espejo local de Wikipedia y recuperar resúmenes renderizados hizo que los textos extraídos fueran considerablemente más limpios. Además, se introdujo un nuevo conjunto de datos extraídos de Wikimedia Commons .
Ejemplos de
DBpedia extrae información fáctica de las páginas de Wikipedia, lo que permite a los usuarios encontrar respuestas a preguntas en las que la información se distribuye en varios artículos de Wikipedia. Se accede a los datos utilizando un lenguaje de consulta similar a SQL para RDF llamado SPARQL . Por ejemplo, imagine que estaban interesados en el japonés shōjo manga serie Tokyo Mew Mew , y quería encontrar los géneros de otras obras escritas por su ilustrador. DBpedia combina información de las entradas de Wikipedia sobre Tokyo Mew Mew , Mia Ikumi y obras como Super Doll Licca-chan y Koi Cupid . Dado que DBpedia normaliza la información en una sola base de datos, se puede realizar la siguiente consulta sin necesidad de saber exactamente qué entrada contiene cada fragmento de información, y enumerará los géneros relacionados:
PREFIJO DBPROP : PREFIJO db : SELECT quién? , TRABAJO? , Género? DONDE { db : Tokyo_Mew_Mew DBPROP : autor ? Quien . ? OBRA dbprop : autor ? Quién . OPCIONAL { ? WORK dbprop : genre ? Genre } . }
Casos de uso
DBpedia tiene una amplia gama de entidades que cubren diferentes áreas del conocimiento humano. Esto lo convierte en un centro natural para conectar conjuntos de datos, donde los conjuntos de datos externos podrían vincularse a sus conceptos. [10] El conjunto de datos DBpedia está interconectado en el nivel RDF con varios otros conjuntos de datos de datos abiertos en la Web. Esto permite que las aplicaciones enriquezcan los datos de DBpedia con datos de estos conjuntos de datos. A septiembre de 2013[actualizar], hay más de 45 millones de enlaces entre DBpedia y conjuntos de datos externos que incluyen: Freebase , OpenCyc , UMBEL , GeoNames , MusicBrainz , CIA World Fact Book , DBLP , Project Gutenberg , DBtune Jamendo , Eurostat , UniProt , Bio2RDF y datos del censo de EE . UU . [11] [12] La iniciativa OpenCalais de Thomson Reuters , el proyecto Linked Open Data de The New York Times , la API de Zemanta y DBpedia Spotlight también incluyen enlaces a DBpedia. [13] [14] [15] La BBC usa DBpedia para ayudar a organizar su contenido. [16] [17] Faviki usa DBpedia para etiquetado semántico. [18] Samsung también incluye DBpedia en su "Plataforma de intercambio de conocimientos" .
Una fuente tan rica de conocimiento estructurado entre dominios es un terreno fértil para los sistemas de inteligencia artificial . DBpedia se utilizó como una de las fuentes de conocimiento en IBM Watson 's Jeopardy! sistema ganador [19]
Amazon proporciona un conjunto de datos públicos DBpedia que se puede integrar en las aplicaciones de Amazon Web Services . [20]
Los datos sobre los creadores de DBpedia se pueden utilizar para enriquecer las observaciones de ventas de las obras de arte. [21]
La empresa de software de crowdsourcing , Ushahidi , construyó un prototipo de su software que aprovechó DBpedia para realizar anotaciones semánticas en informes generados por ciudadanos. El prototipo incorporó el servicio "YODIE" (otro sistema de extracción de información de datos abiertos) [22] desarrollado por la Universidad de Sheffield , que utiliza DBpedia para realizar las anotaciones. El objetivo de Ushahidi era mejorar la velocidad y la facilidad con que se podían gestionar los informes entrantes. [23]
Destacado de DBpedia
DBpedia Spotlight es una herramienta para anotar menciones de recursos DBpedia en texto. Esto permite vincular fuentes de información no estructuradas a la nube Linked Open Data a través de DBpedia. DBpedia Spotlight realiza la extracción de entidades con nombre , incluida la detección de entidades y la resolución de nombres (en otras palabras, desambiguación). También se puede utilizar para el reconocimiento de entidades con nombre y otras tareas de extracción de información . DBpedia Spotlight pretende ser personalizable para muchos casos de uso. En lugar de centrarse en unos pocos tipos de entidades, el proyecto se esfuerza por admitir la anotación de los 3,5 millones de entidades y conceptos de más de 320 clases en DBpedia. El proyecto comenzó en junio de 2010 en el Grupo de Sistemas Basados en Web de la Universidad Libre de Berlín.
DBpedia Spotlight está disponible públicamente como un servicio web para pruebas y una API de Java / Scala con licencia a través de la Licencia Apache . La distribución de DBpedia Spotlight incluye un complemento jQuery que permite a los desarrolladores anotar páginas en cualquier lugar de la Web agregando una línea a su página. [24] Los clientes también están disponibles en Java o PHP . [25] La herramienta maneja varios idiomas a través de su página de demostración [26] y servicios web. La internacionalización es compatible con cualquier idioma que tenga una edición de Wikipedia. [27]
Historia
DBpedia fue iniciado en 2007 por Sören Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann , Richard Cyganiak y Zachary Ives. [4]
Ver también
- BabelNet
- Semántica MediaWiki
- Wikidata
Referencias
- ^ Bizer, Christian; Lehmann, Jens; Kobilarov, Georgi; Auer, Soren; Becker, Christian; Cyganiak, Richard; Hellmann, Sebastian (septiembre de 2009). "DBpedia - Un punto de cristalización para la Web de datos" (PDF) . Semántica web: ciencia, servicios y agentes en la World Wide Web . 7 (3): 154-165. CiteSeerX 10.1.1.150.4898 . doi : 10.1016 / j.websem.2009.07.002 . ISSN 1570-8268 . Archivado desde el original (PDF) el 10 de agosto de 2017 . Consultado el 11 de diciembre de 2015 .
- ^ "Komplett verlinkt - Linked Data" (en alemán). 3sat . 19 de junio de 2009. Archivado desde el original el 6 de enero de 2013 . Consultado el 10 de noviembre de 2009 .
- ^ "Sir Tim Berners-Lee habla con Talis sobre la Web Semántica" . Talis. 7 de febrero de 2008. Archivado desde el original el 10 de mayo de 2013.
- ^ a b c DBpedia: A Nucleus for a Web of Open Data , disponible en [1] , [2] o [3]
- ^ "Créditos" . DBpedia. Archivado desde el original el 21 de septiembre de 2014 . Consultado el 9 de septiembre de 2014 .
- ^ https://wiki.dbpedia.org/about/dbpedia-community
- ^ a b "¡SÍ! Lo hicimos de nuevo;) - Nueva versión de DBpedia 2016-04" . DBpedia. 19 de octubre de 2016 . Consultado el 9 de enero de 2019 .
- ^ "Asignaciones de DBpedia" . mappings.dbpedia.org . Consultado el 3 de abril de 2010 .
- ^ "Registro de cambios" . DBpedia. Septiembre de 2014 . Consultado el 9 de septiembre de 2014 .
- ^ E. Curry, A. Freitas y S. O'Riáin, "The Role of Community-Driven Data Curation for Enterprises", Archivado el 23 de enero de 2012 en Wayback Machine en Linking Enterprise Data, D. Wood, Ed. Boston, MA: Springer US, 2010, págs. 25-47.
- ^ "Estadísticas sobre vínculos entre conjuntos de datos" , Proyecto comunitario SWEO: Vinculación de datos abiertos en la web semántica , W3C , consultado el 24 de noviembre de 2009
- ^ "Estadísticas sobre conjuntos de datos" , Proyecto comunitario SWEO: Vinculación de datos abiertos en la web semántica , W3C , consultado el 24 de noviembre de 2009
- ^ Sandhaus, Evan; Larson, Rob (29 de octubre de 2009). "Primeras 5000 etiquetas lanzadas a la nube de datos vinculados" . Blogs del New York Times . Consultado el 10 de noviembre de 2009 .
- ^ "Vida en la Nube de Datos Vinculados" . opencalais.com. Archivado desde el original el 24 de noviembre de 2009 . Consultado el 10 de noviembre de 2009 .
Wikipedia tiene un gemelo de datos enlazados llamado DBpedia. DBpedia tiene la misma información estructurada que Wikipedia, pero traducida a un formato legible por máquina.
- ^ "Zemanta habla de Linked Data con SDK y API comercial" . ZDNet. Archivado desde el original el 28 de febrero de 2010 . Consultado el 10 de noviembre de 2009 .
Zemanta apoya plenamente la iniciativa Linking Open Data. Es la primera API que devuelve entidades desambiguadas vinculadas a dbPedia, Freebase, MusicBrainz y Semantic Crunchbase.
- ^ "European Semantic Web Conference 2009 - Georgi Kobilarov, Tom Scott, Yves Raimond, Silver Oliver, Chris Sizemore, Michael Smethurst, Christian Bizer y Robert Lee. Los medios se encuentran con la Web semántica: cómo la BBC utiliza DBpedia y datos enlazados para hacer conexiones" . eswc2009.org. Archivado desde el original el 8 de junio de 2009 . Consultado el 10 de noviembre de 2009 .
- ^ "BBC Learning - Open Lab - Referencia" . BBC. Archivado desde el original el 25 de agosto de 2009 . Consultado el 10 de noviembre de 2009 .
Dbpedia es una versión de base de datos de Wikipedia. Se utiliza en muchos proyectos por una amplia gama de diferentes razones. En la BBC lo estamos usando para etiquetar contenido.
- ^ "Etiquetado semántico con Faviki" . readwriteweb.com. Archivado desde el original el 29 de enero de 2010.
- ^ David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer y Chris Welty "Building Watson: una descripción general de el Proyecto DeepQA ". En AI Magazine Fall, 2010. Asociación para el Avance de la Inteligencia Artificial (AAAI).
- ^ "Comunidad de desarrolladores de servicios web de Amazon: DBpedia" . developer.amazonwebservices.com. Archivado desde el original el 13 de febrero de 2010 . Consultado el 10 de noviembre de 2009 .
- ^ Filipiak, Dominik; Filipowska, Agata (2 de diciembre de 2015). DBpedia en el mercado del arte . Talleres de Sistemas de Información Empresarial. BIS 2015 . Apuntes de conferencias sobre procesamiento de información empresarial. 228 . págs. 321–331. doi : 10.1007 / 978-3-319-26762-3_28 . ISBN 978-3-319-26761-6.
- ^ "GATE.ac.uk - aplicaciones / yodie.html" . gate.ac.uk . Consultado el 11 de mayo de 2020 .
- ^ "ushahidi / plataforma-camaradas" . GitHub . Consultado el 9 de marzo de 2020 .
- ^ Mendes, Pablo. "Complemento jQuery de DBpedia Spotlight" . Complementos de jQuery . Consultado el 15 de septiembre de 2011 .
- ^ DiCiuccio, Rob (25 de septiembre de 2016). "Cliente PHP para DBpedia Spotlight" . GitHub .
- ^ "Demo de DBpedia Spotlight" . Consultado el 8 de septiembre de 2013 .
- ^ "Internacionalización de DBpedia Spotlight" . Consultado el 8 de septiembre de 2013 .
enlaces externos
- Página web oficial