DBpedia

DBpedia (de "DB" para " base de datos ") es un proyecto que tiene como objetivo extraer contenido estructurado de la información creada en el proyecto Wikipedia . Esta información estructurada está disponible en la World Wide Web . ^[1] DBpedia permite a los usuarios consultar semánticamente las relaciones y propiedades de los recursos de Wikipedia, incluidos enlaces a otros conjuntos de datos relacionados . ^[2]

En 2008, Tim Berners-Lee describió DBpedia como una de las partes más famosas del esfuerzo descentralizado de datos enlazados . ^[3]

El proyecto fue iniciado por personas de la Universidad Libre de Berlín y la Universidad de Leipzig ^[4] en colaboración con OpenLink Software, y ahora lo mantienen personas de la Universidad de Mannheim y la Universidad de Leipzig. ^[5]^[6] El primer conjunto de datos disponible públicamente se publicó en 2007. ^[4] Los datos están disponibles bajo licencias gratuitas ( CC-BY-SA ), lo que permite a otros reutilizar el conjunto de datos; sin embargo, no utiliza una licencia de datos abiertos para renunciar a los derechos de base de datos sui generis .

Los artículos de Wikipedia consisten principalmente en texto libre, pero también incluyen información estructurada incrustada en los artículos, como tablas de " infobox " (los paneles extraíbles que aparecen en la parte superior derecha de la vista predeterminada de muchos artículos de Wikipedia, o al comienzo de las versiones móviles ), información de categorización, imágenes, geo-coordenadas y enlaces a páginas web externas . Esta información estructurada se extrae y se coloca en un conjunto de datos uniforme que se puede consultar.

La versión 2016-04 del conjunto de datos DBpedia describe 6.0 millones de entidades, de las cuales 5.2 millones están clasificadas en una ontología consistente , incluyendo 1.5 millones de personas, 810 mil lugares, 135 mil álbumes de música, 106 mil películas, 20 mil videojuegos, 275 mil organizaciones, 301 mil especies y enfermedades 5k. ^[7] DBpedia utiliza el marco de descripción de recursos (RDF) para representar la información extraída y consta de 9.5 mil millones de triples de RDF , de los cuales 1.3 mil millones se extrajeron de la edición en inglés de Wikipedia y 5.0 mil millones de ediciones en otros idiomas. ^[7]

De este conjunto de datos, se puede extraer información distribuida en varias páginas. Por ejemplo, la autoría de un libro se puede recopilar a partir de páginas sobre el trabajo o el autor. ^{[ se necesita más explicación ]}