El análisis de proximidad de co-citas o CPA es una medida de similitud de documentos que utiliza el análisis de citas para evaluar la similitud semántica entre documentos tanto a nivel de documento global como a nivel de sección individual. [1] [2] La medida de similitud se basa en el enfoque de análisis de co-citas , pero difiere en que explota la información implícita en la colocación de citas dentro de los textos completos de los documentos.
El análisis de proximidad de co-cita fue concebido por B. Gipp en 2006 [3] y la descripción de la medida de similitud de documentos fue publicada más tarde por Gipp y Beel en 2009. [1] La medida de similitud se basa en el supuesto de que dentro de un documento completo- texto, los documentos citados muy cerca unos de otros tienden a estar más estrechamente relacionados que los documentos citados más separados. La figura de la derecha ilustra el concepto. El enfoque de la CPA para documentar la similitud asume que los documentos B y C están más fuertemente relacionados que los documentos B y A, porque las citas a B y C ocurren dentro de la misma oración, mientras que las citas a B y A están separadas por varios párrafos.
La ventaja del enfoque de CPA en comparación con otros enfoques de análisis de citas y co-citas es una mejora en la precisión. Otros enfoques de análisis de citas ampliamente utilizados, como el acoplamiento bibliográfico , la co-cita o la medida de Amsler , no tienen en cuenta la ubicación o proximidad de las citas dentro de los documentos. El enfoque de CPA permite una clasificación automática más granular de documentos y también se puede utilizar para identificar no solo documentos relacionados, sino también las secciones específicas dentro de los textos que están más relacionados.
Método de cálculo
La medida de similitud de CPA calcula un índice de proximidad de citas ( CPI ) para cada conjunto de documentos citados por un documento examinado. [1] A los documentos citados se les asigna una ponderación de, donde n representa el número de niveles entre citas. Comenzando por el nivel más bajo, los niveles pueden definirse como grupos de citas, oraciones, párrafos, capítulos y, finalmente, todo el documento o incluso la revista.
Existen varias variaciones del algoritmo CPA.
- CPA básico: concepto fundamental de CPA como se describe anteriormente
- Extended-CPA : considera la estructura de árbol y el orden de las citas dentro de los grupos de citas.
- CPA multidimensional : utiliza información adicional como el factor de impacto
- Hybrid-CPA : combina el IPC con otras medidas de similitud, por ejemplo, medidas basadas en texto. Esto aumenta el rendimiento, especialmente para documentos con información de citas insuficiente.
Actuación
La medida de similitud de CPA se basa en el enfoque de similitud de documentos de co-cita con la adición distintiva del análisis de proximidad. Por lo tanto, el enfoque de CPA permite el cálculo de una resolución más granular de la similitud general del documento. Se ha encontrado que el CPA supera al análisis de co-citas, especialmente cuando los documentos contienen bibliografías extensas y en los casos en que los documentos no se han citado juntos con frecuencia (es decir, tienen una puntuación baja de co-citas). [1] [4] Liu y Chen encontraron que las citas conjuntas a nivel de oración son marcadores potencialmente más eficientes para su uso en el análisis de citas conjuntas en comparación con las citas conjuntas a nivel de artículo poco acopladas, ya que las citas conjuntas a nivel de oración tienden a preservar la estructura esencial de la red de co-citación tradicional y también forman un subconjunto mucho más pequeño de todas las instancias de co-citación. [5]
Un análisis de Schwarzer et al. [4] mostró que las medidas basadas en citas CPA y el análisis de co-citas tienen fortalezas complementarias en comparación con las medidas de similitud basadas en texto. Los enfoques de similitud basados en texto identificaron de manera confiable artículos más estrechamente similares de una colección de prueba de artículos de Wikipedia, por ejemplo, artículos que comparten términos idénticos, mientras que el enfoque de CPA superó a CoCit en la identificación de artículos más ampliamente relacionados, así como artículos más populares, que los autores afirman probablemente también sea de mayor calidad. [4]
Ver también
- CITREC , un marco de evaluación para medidas de similitud basadas en citas tales como acoplamiento bibliográfico , co-cita , análisis de proximidad de co-cita y otros. [6]
Referencias
- ^ a b c d Bela Gipp y Joeran Beel, 2009 "Análisis de proximidad de citas (CPA): un nuevo enfoque para identificar el trabajo relacionado basado en el análisis de citas conjuntas" en Birger Larsen y Jacqueline Leta, editores, Actas de la 12ª Conferencia Internacional sobre Scientometrics and Informetrics (ISSI'09), volumen 2, páginas 571–575, Río de Janeiro (Brasil), julio de 2009.
- ^ Bela Gipp y Joeran Beel. "Método y sistema para detectar similitudes de documentos". Solicitud de patente, 27 de octubre de 2011. 2011/0264672 A1 .
- ^ Bela Gipp, 2006. "Propuesta de doctorado: Análisis de proximidad de (co) citas: una medida para identificar el trabajo relacionado"
- ^ a b c M. Schwarzer, M. Schubotz, N. Meuschke, C. Breitinger, V. Markl y B. Gipp, "Evaluación de recomendaciones basadas en enlaces para Wikipedia" en Actas de la 16ª Conferencia conjunta ACM / IEEE-CS sobre Bibliotecas Digitales (JCDL), Nueva York, NY, EE. UU., 2016, págs. 191-200.
- ^ Shengbo Liu y Chaomei Chen, 2001 "Los efectos de la proximidad de la co-cita en el análisis de la co-cita" , La 13ª Conferencia de la Sociedad Internacional de Cienciometría e Informática (ISSI), 4 al 7 de julio de 2011 Durban, Sudáfrica.
- ^ Bela Gipp, Norman Meuschke y Mario Lipinski, 2015. "CITREC: Un marco de evaluación para medidas de similitud basadas en citas basadas en TREC Genomics y PubMed Central" en Actas de la iConference 2015, Newport Beach, California, 2015.
Otras lecturas
Bela Gipp y Joeran Beel. Identificación de documentos relacionados para recomendación de trabajos de investigación por CPA y COA. En SI Ao, C. Douglas, WS Grundfest y J. Burgstone, editores, Proceedings of the world congress on engineering and computer science 2009, volumen 1 de Lecture Notes in Engineering and Computer Science, páginas 636-639, Berkeley (EE. UU.) , octubre de 2009. Asociación Internacional de Ingenieros (IAENG), Newswood Limited. Disponible aqui
Bela Gipp. Medición de la relación de documentos mediante análisis de proximidad de citas y análisis de orden de citas. En M. Lalmas, J. Jose, A. Rauber, F. Sebastiani e I. Frommholz, editores, Actas de la 14a conferencia europea sobre bibliotecas digitales (ecdl'10): investigación y tecnología avanzada para bibliotecas digitales, volumen 6273 de Lecture Notes of Computer Science (LNCS). Springer, septiembre de 2010. Disponible aquí