Recuperación de información legal

La recuperación de información legal es la ciencia de la recuperación de información aplicada al texto legal, incluida la legislación , la jurisprudencia y los trabajos académicos. ^[1] La recuperación precisa de información legal es importante para brindar acceso a la ley a los legos y profesionales del derecho. Su importancia ha aumentado debido a la vasta y creciente cantidad de documentos legales disponibles a través de medios electrónicos. ^[2] La recuperación de información legal es parte del creciente campo de la informática legal .

Descripción general

En un entorno legal, con frecuencia es importante recuperar toda la información relacionada con una consulta específica. Sin embargo, se ha demostrado que los métodos de búsqueda booleanos comúnmente utilizados (coincidencias exactas de términos especificados) en documentos legales de texto completo tienen una tasa de recuperación promedio tan baja como 20 por ciento, ^[3] lo que significa que solo 1 de cada 5 documentos relevantes se recuperan realmente. En ese caso, los investigadores creían que habían recuperado más del 75% de los documentos relevantes. ^[3] Esto puede resultar en que no se recuperen casos importantes o precedentes . En algunas jurisdicciones, esto puede ser especialmente problemático, ya que los profesionales del derecho están éticamente obligados a estar razonablemente informados sobre los documentos legales relevantes. ^[4]

La recuperación de información legal intenta aumentar la efectividad de las búsquedas legales aumentando la cantidad de documentos relevantes (proporcionando una alta tasa de recuperación ) y reduciendo la cantidad de documentos irrelevantes (una alta tasa de precisión ). Esta es una tarea difícil, ya que el campo legal es propenso a la jerga , ^[5] polisemas ^[6] (palabras que tienen diferentes significados cuando se usan en un contexto legal) y cambios constantes.

Las técnicas utilizadas para lograr estos objetivos generalmente se dividen en tres categorías: recuperación booleana , clasificación manual de texto legal y procesamiento en lenguaje natural de texto legal.

Problemas

La aplicación de técnicas estándar de recuperación de información a textos legales puede ser más difícil que su aplicación en otras materias. Un problema clave es que la ley rara vez tiene una taxonomía inherente . ^[7] En cambio, la ley generalmente está llena de términos indefinidos, que pueden cambiar con el tiempo. ^[7] Esto puede ser especialmente cierto en los países de common law , donde cada caso decidido puede cambiar sutilmente el significado de una determinada palabra o frase. ^[8]

Los sistemas de información legal también deben estar programados para manejar palabras y frases específicas de la ley. Aunque esto es menos problemático en el contexto de las palabras que existen únicamente en la ley, los textos legales también usan con frecuencia polisemas, las palabras pueden tener diferentes significados cuando se usan de una manera legal o de habla común, potencialmente ambos dentro del mismo documento. Los significados legales pueden depender del ámbito del derecho en el que se aplique. Por ejemplo, en el contexto de la legislación de la Unión Europea, el término "trabajador" tiene cuatro significados diferentes: ^[9]

Todo trabajador, según se define en el artículo 3, letra a), de la Directiva 89/391 / CEE que utilice habitualmente equipos de pantalla de visualización como parte importante de su trabajo normal.
Cualquier persona empleada por un empleador, incluidos los aprendices y aprendices, pero excluidos los empleados domésticos;
Toda persona que lleve a cabo una ocupación a bordo de un buque, incluidos los aprendices y aprendices, pero excluidos los prácticos de puerto y el personal de tierra que realice trabajos a bordo de un buque en el muelle;
Toda persona que, en el Estado miembro de que se trate, esté protegida como empleado por la legislación laboral nacional y de conformidad con la práctica nacional;

También tiene el significado común:

Una persona que trabaja en una ocupación específica. ^[9]

Aunque los términos pueden ser similares, la recuperación correcta de la información debe diferenciar entre el uso previsto y los usos irrelevantes para devolver los resultados correctos.

Incluso si un sistema supera los problemas de idioma inherentes a la ley, debe determinar la relevancia de cada resultado. En el contexto de las decisiones judiciales, esto requiere determinar el valor de precedente del caso. ^{[10] Las} decisiones de casos de los tribunales superiores o superiores pueden ser más relevantes que las de los tribunales inferiores , incluso cuando la decisión del tribunal inferior contiene más discusión sobre los hechos relevantes. ^[10] Sin embargo, puede ocurrir lo contrario si el tribunal superior solo tiene una discusión menor sobre el tema (por ejemplo, si es una consideración secundaria en el caso). ^[10] Un sistema de recuperación de información también debe conocer la autoridad de la jurisdicción. Lo más probable es que un caso de una autoridad vinculante tenga más valor que uno de una autoridad no vinculante.

Además, las intenciones del usuario pueden determinar qué casos encuentran valiosos. Por ejemplo, cuando un profesional del derecho está intentando argumentar una interpretación específica de la ley, podría encontrar más valiosa la decisión de un tribunal menor que respalda su posición que una posición de un tribunal superior que no lo hace. ^[10] También puede valorar posiciones similares de diferentes áreas del derecho, diferentes jurisdicciones u opiniones disidentes. ^[10]

La superación de estos problemas puede resultar más difícil debido a la gran cantidad de casos disponibles. El número de casos legales disponibles a través de medios electrónicos aumenta constantemente (en 2003, los tribunales de apelación de EE. UU. Dictaminaron aproximadamente 500 casos nuevos por día ^[2] ), lo que significa que un sistema de recuperación de información legal preciso debe incorporar métodos para clasificar datos pasados y administrar nuevos datos. ^[2]^[11]

Técnicas

Búsquedas booleanas

Las búsquedas booleanas , en las que un usuario puede especificar términos como el uso de palabras específicas o sentencias de un tribunal específico, son el tipo de búsqueda más común disponible a través de los sistemas de recuperación de información legal. Se implementan ampliamente, pero superan algunos de los problemas discutidos anteriormente.

Las tasas de recuperación y precisión de estas búsquedas varían según la implementación y las búsquedas analizadas. Un estudio encontró que la tasa de recordación de una búsqueda booleana básica es de aproximadamente el 20% y su tasa de precisión de aproximadamente el 79%. ^[3] Otro estudio implementó una búsqueda genérica (es decir, no diseñada para usos legales) y encontró una tasa de recuperación del 56% y una tasa de precisión del 72% entre los profesionales legales. Ambos números aumentaron cuando las búsquedas fueron realizadas por profesionales no legales, a una tasa de recuperación del 68% y una tasa de precisión del 77%. Esto probablemente se explica por el uso de términos legales complejos por parte de los profesionales legales. ^[12]

Clasificación manual

Con el fin de superar los límites de las búsquedas booleanas básicas, los sistemas de información han intentado clasificar las leyes y los estatutos en estructuras más amigables con las computadoras. Por lo general, esto da como resultado la creación de una ontología para clasificar los textos, según la forma en que un profesional del derecho podría pensar sobre ellos. ^[13] Estos intentan vincular textos sobre la base de su tipo, su valor y / o sus áreas temáticas. La mayoría de los principales proveedores de búsquedas legales implementan ahora algún tipo de búsqueda de clasificación, como las búsquedas “Natural Language” ^{[14] de} Westlaw o Headnote ^{[15] de} LexisNexis . Además, ambos servicios permiten navegar por sus clasificaciones, a través de West Key Numbers ^{[14] de} Westlaw o Headnotes de Lexis. ^[15] Aunque estos dos algoritmos de búsqueda son propietarios y secretos, se sabe que emplean la clasificación manual de texto (aunque esto puede ser asistido por computadora). ^[13]

Estos sistemas pueden ayudar a superar la mayoría de los problemas inherentes a los sistemas de recuperación de información legal, ya que la clasificación manual tiene las mayores posibilidades de identificar casos históricos y comprender los problemas que surgen en el texto. ^[16] En un estudio, la búsqueda ontológica dio como resultado una tasa de precisión del 82% y una tasa de recuperación del 97% entre los profesionales del derecho. ^[17] Los textos legales incluidos, sin embargo, fueron cuidadosamente controlados a solo unas pocas áreas del derecho en una jurisdicción específica. ^[18]

El mayor inconveniente de este enfoque es el requisito de utilizar profesionales del derecho altamente capacitados y una gran cantidad de tiempo para clasificar los textos. ^[16]^[19] A medida que la cantidad de texto disponible sigue aumentando, algunos han manifestado su creencia de que la clasificación manual es insostenible. ^[20]

Procesamiento natural del lenguaje

Con el fin de reducir la dependencia de los profesionales del derecho y la cantidad de tiempo necesario, se han realizado esfuerzos para crear un sistema para clasificar automáticamente los textos legales y las consultas. ^[2]^[21]^[22] Una traducción adecuada de ambos permitiría la recuperación de información precisa sin el alto costo de la clasificación humana. Estos sistemas automáticos generalmente emplean técnicas de procesamiento del lenguaje natural (PNL) que se adaptan al dominio legal y también requieren la creación de una ontología legal . Aunque se han postulado múltiples sistemas, ^[2]^[21]^[22] pocos han reportado resultados. Un sistema, "SMILE", que intentó extraer automáticamente las clasificaciones de los textos de casos, dio como resultado una medida f (que es un cálculo de la tasa de recuperación y la precisión) de menos de 0,3 (en comparación con la medida f perfecta de 1,0). ^[23] Probablemente sea mucho más bajo que una tasa aceptable para uso general. ^[23]^[24]

A pesar de los resultados limitados, muchos teóricos predicen que la evolución de tales sistemas eventualmente reemplazará a los sistemas de clasificación manual. ^[25]^[26]

Clasificación basada en citas

A mediados de los 90, el proyecto de recuperación de jurisprudencia de la Sala 5 utilizó la minería de citas para resúmenes y clasificó sus resultados de búsqueda según el tipo y el recuento de citas. Esto es algo anterior al algoritmo Page Rank en Stanford, que también era una clasificación basada en citas. La clasificación de los resultados se basó tanto en la jurisdicción como en el número de referencias. ^[27]

Notas

^ Maxwell, KT y Schafer, B. 2009, p. 1
^ a b c d e Jackson et al., pág. 60
↑ a b c Blair, DC y Maron, ME, 1985, p.293
^ Asociación de Abogados de Estados Unidos, reglas modelo de conducta profesional regla 1.1, http://www.abanet.org/cpr/mrpc/rule_1_1.html
^ Peters, W. et al. 2007, pág. 118
^ Peters, W. et al. 2007, pág. 130
^ a b Peters, W. et al. 2007, pág. 120
^ Saravanan, M. et al. 2009, pág. 101
^ a b Peters, W. et al. 2007, pág. 131
↑ a b c d e Maxwell, KT y Schafer, B. 2008, p. 8
↑ Maxwell, KT y Schafer, B.2007, p.1
^ Saravanan M., et al. 2009, pág. 116
↑ a b Maxwell, KT y Schafer, B. 2008, p. 2
^ a b Investigación de Westlaw, http://www.westlaw.com
^ a b Investigación de Lexis, http://www.lexisnexis.com
↑ a b Maxwell, KT y Schafer, B. 2008, p. 3
^ Saravanan, M. et al. 2009, pág. 116
^ Saravanan, M. et al. 2009, pág. 103
^ Schweighofer, E. y Liebwald, D. 2008, p. 108
^ Maxwell, KT y Schafer, B.2008, p. 4
↑ a b Ashley, KD y Bruninghaus, S. 2009, p. 125
↑ a b Gelbart, D. y Smith, JC 1993, p. 142
↑ a b Ashley, KD y Bruninghaus, S. 2009, p. 159
^ Maxwell, KT y Schafer, B. 2009, p. 3
^ Maxwell, KT y Schafer, B. 2009, p. 9
^ Ashley, KD y Bruninghaus, S. 2009, p. 126
^ Loui, RP, Norman, J., Altepeter, J., Pinkard, D., Craven, D., Linsday, J. y Foltz, M. (1997, junio). Progreso en la sala 5: un banco de pruebas para la argumentación jurídica semiformal interactiva pública. En Actas de la sexta conferencia internacional sobre inteligencia artificial y derecho (págs. 207-214). ACM.

Referencias

Maxwell, KT; Schafer, B. (2008). "Concepto y contexto en la recuperación de información jurídica" . Fronteras en Inteligencia Artificial y Aplicaciones . 189 : 63–72 . Consultado el 7 de noviembre de 2009 .
Jackson, P .; et al. (1998). "Extracción de información de la jurisprudencia y recuperación de casos anteriores mediante análisis parcial y generación de consultas" . Actas de la séptima conferencia internacional sobre gestión de la información y el conocimiento - CIKM '98 . Jornada sobre Gestión de la Información y el Conocimiento . Cikm '98. ACM. págs. 60–67 . doi : 10.1145 / 288627.288642 . ISBN 978-1581130614. S2CID 1268465 . Consultado el 7 de noviembre de 2009 .
Blair, DC; Maron, ME (1985). "Una evaluación de la eficacia de la recuperación para una recuperación de documentos de texto completo". Comunicaciones de la ACM . 28 (3): 289–299. doi : 10.1145 / 3166.3197 . hdl : 2027,42 / 35415 . S2CID 5144091 .
Peters, W .; et al. (2007). "La estructuración del conocimiento jurídico en LOIS". Inteligencia artificial y derecho . 15 (2): 117-135. CiteSeerX 10.1.1.104.7469 . doi : 10.1007 / s10506-007-9034-4 . S2CID 2355864 .
Saravanan, M .; et al. (2007). "Mejora de la recuperación de información jurídica utilizando un marco ontológico". Inteligencia artificial y derecho . 17 (2): 101-124. doi : 10.1007 / s10506-009-9075-y . S2CID 8853001 .
Schweighofer, E .; Liebwald, D. (2007). "Ontologías léxicas avanzadas y sistemas híbridos basados en el conocimiento: primeros pasos para un comentario electrónico jurídico dinámico". Inteligencia artificial y derecho . 15 (2): 103-115. doi : 10.1007 / s10506-007-9029-1 . S2CID 80124 .
Gelbart, D .; Smith, JC (1993). FLEXICON: evaluación de un modelo de ranking estadístico adaptado a la gestión inteligente de textos legales . Congreso Internacional de Inteligencia Artificial y Derecho . ACM. págs. 142-151. doi : 10.1145 / 158976.158994 . ISBN 978-0897916066. S2CID 18952317 .
Ashley, KD; Bruninghaus, S. (2009). "Clasificación automática de textos de casos y predicción de resultados". Inteligencia artificial y derecho . 17 (2): 125-165. doi : 10.1007 / s10506-009-9077-9 . S2CID 31791294 .

[1] Maxwell, KT y Schafer, B. 2009, p. 1

[Jackson-2] Jackson et al., pág. 60

[Blair,_D.C._1985,_p.293-3] Blair, DC y Maron, ME, 1985, p.293

[4] Asociación de Abogados de Estados Unidos, reglas modelo de conducta profesional regla 1.1, http://www.abanet.org/cpr/mrpc/rule_1_1.html

[5] Peters, W. et al. 2007, pág. 118

[6] Peters, W. et al. 2007, pág. 130

[LOIS1-7] Peters, W. et al. 2007, pág. 120

[8] Saravanan, M. et al. 2009, pág. 101

[Peters,_W._et_al._2007,_p._131-9] Peters, W. et al. 2007, pág. 131

[MaxwellA-10] Maxwell, KT y Schafer, B. 2008, p. 8

[11] Maxwell, KT y Schafer, B.2007, p.1

[12] Saravanan M., et al. 2009, pág. 116

[Maxwell,_K.T._2008,_p._2-13] Maxwell, KT y Schafer, B. 2008, p. 2

[WL-14] Investigación de Westlaw, http://www.westlaw.com

[LN-15] Investigación de Lexis, http://www.lexisnexis.com

[Maxwell,_K.T._2008,_p._3-16] Maxwell, KT y Schafer, B. 2008, p. 3

[17] Saravanan, M. et al. 2009, pág. 116

[18] Saravanan, M. et al. 2009, pág. 103

[19] Schweighofer, E. y Liebwald, D. 2008, p. 108

[20] Maxwell, KT y Schafer, B.2008, p. 4

[AshleyA-21] Ashley, KD y Bruninghaus, S. 2009, p. 125

[Gelbart-22] Gelbart, D. y Smith, JC 1993, p. 142

[AshleyB-23] Ashley, KD y Bruninghaus, S. 2009, p. 159

[24] Maxwell, KT y Schafer, B. 2009, p. 3

[25] Maxwell, KT y Schafer, B. 2009, p. 9

[26] Ashley, KD y Bruninghaus, S. 2009, p. 126

[27] Loui, RP, Norman, J., Altepeter, J., Pinkard, D., Craven, D., Linsday, J. y Foltz, M. (1997, junio). Progreso en la sala 5: un banco de pruebas para la argumentación jurídica semiformal interactiva pública. En Actas de la sexta conferencia internacional sobre inteligencia artificial y derecho (págs. 207-214). ACM.

[1]