Apache Lucene es una biblioteca de software de motor de búsqueda de código abierto y gratuita , originalmente escrita completamente en Java por Doug Cutting . Es compatible con Apache Software Foundation y se publica bajo la licencia de software Apache .
Desarrollador (es) | Fundación de software Apache |
---|---|
Versión inicial | 1999 |
Lanzamiento estable | 8.8.2 / 12 de abril de 2021 [1] |
Repositorio | |
Escrito en | Java |
Sistema operativo | Multiplataforma |
Tipo | Búsqueda e índice |
Licencia | Licencia Apache 2.0 |
Sitio web | Lucene |
Lucene se ha adaptado a otros lenguajes de programación, incluidos Object Pascal , Perl , C # , C ++ , Python , Ruby y PHP . [2]
Historia
Doug Cutting escribió originalmente Lucene en 1999. [3] Lucene fue su quinto motor de búsqueda, habiendo escrito anteriormente dos en Xerox PARC, uno en Apple y un cuarto en Excite. [4] Inicialmente estaba disponible para descargar desde su hogar en el sitio web de SourceForge . Se unió a la familia Jakarta de productos Java de código abierto de la Apache Software Foundation en septiembre de 2001 y se convirtió en su propio proyecto Apache de alto nivel en febrero de 2005. El nombre Lucene es el segundo nombre de la esposa de Doug Cutting y el nombre de pila de su abuela materna. [5]
Lucene anteriormente incluía varios subproyectos, como Lucene.NET, Mahout , Tika y Nutch . Estos tres son ahora proyectos independientes de alto nivel.
En marzo de 2010, el servidor de búsqueda Apache Solr se unió como un subproyecto Lucene, fusionando las comunidades de desarrolladores.
La versión 4.0 se publicó el 12 de octubre de 2012. [6]
En marzo de 2021, Lucene cambió su logotipo y Apache Solr se convirtió nuevamente en un proyecto de Apache de alto nivel, independiente de Lucene.
Características y uso común
Si bien es adecuado para cualquier aplicación que requiera la capacidad de indexación y búsqueda de texto completo , Lucene es reconocida por su utilidad en la implementación de motores de búsqueda de Internet y búsqueda local en un solo sitio. [7] [8]
Lucene incluye una función para realizar una búsqueda aproximada basada en la distancia de edición . [9]
Lucene también se ha utilizado para implementar sistemas de recomendación. [10] Por ejemplo, la clase 'MoreLikeThis' de Lucene puede generar recomendaciones para documentos similares. En una comparación del término enfoque de similitud basada en vectores de 'MoreLikeThis' con medidas de similitud de documentos basadas en citas, como el análisis de proximidad de co-citas y co-citas, el enfoque de Lucene se destacó en la recomendación de documentos con características estructurales muy similares y una relación más estrecha. . [11] Por el contrario, las medidas de similitud de documentos basadas en citas tienden a ser más adecuadas para recomendar documentos más ampliamente relacionados, [11] lo que significa que los enfoques basados en citas pueden ser más adecuados para generar recomendaciones fortuitas , siempre que los documentos que se recomendarán contienen en -citas de texto.
Proyectos basados en Lucene
Lucene en sí es solo una biblioteca de indexación y búsqueda y no contiene funciones de rastreo y análisis de HTML . Sin embargo, varios proyectos amplían la capacidad de Lucene:
- Apache Nutch : proporciona rastreo web y análisis de HTML [ cita requerida ]
- Apache Solr : un servidor de búsqueda empresarial
- Brújula : el predecesor de Elasticsearch [12]
- CrateDB : base de datos SQL distribuida de código abierto basada en Lucene [13]
- DocFetcher : una aplicación de búsqueda de escritorio multiplataforma [ cita requerida ]
- Elasticsearch : un servidor de búsqueda empresarial lanzado en 2010 [14]
- Kinosearch: un motor de búsqueda escrito en Perl y C [15] y un puerto suelto de Lucene. [16] El software wiki de Socialtext utiliza este motor de búsqueda, [15] y también lo hace el wiki de MojoMojo . [17] También es utilizado por la base de datos del metaboloma humano (HMDB) [18] y la base de datos de toxinas y toxinas -objetivo (T3DB). [19]
- MongoDB Atlas Search: una aplicación de búsqueda empresarial nativa de la nube basada en MongoDB y Apache Lucene
- OpenSearch : un servidor de búsqueda empresarial de código abierto basado en una bifurcación de Elasticsearch 7
- Swiftype : una startup de búsqueda empresarial basada en Lucene
Ver también
- Búsqueda empresarial
- Extracción de información
- Lista de bibliotecas de recuperación de información
- Extracción de textos
Referencias
- ^ "Bienvenido a Apache Lucene" . Sección de noticias de Lucene ™. Archivado desde el original el 12 de febrero de 2020 . Consultado el 12 de febrero de 2020 .
- ^ "LuceneImplementations" . apache.org . Archivado desde el original el 6 de octubre de 2015 . Consultado el 23 de septiembre de 2015 .
- ^ KeywordAnalyzer "Mejor búsqueda con Apache Lucene y Solr" (PDF) . 19 de noviembre de 2007. Archivado desde el original (PDF) el 31 de enero de 2012.
- ^ Cortando, Doug (7 de junio de 2019). "Escribí un par de motores de búsqueda en Xerox PARC, luego V-Twin en Apple, luego reescribí la búsqueda de Excite, luego Lucene. Entonces, ¿Lucene podría considerarse V-Twin 3.0? Casi 25 años después, V-Twin todavía vive como Kit de búsqueda de Mac OS X! " . @corte . Consultado el 19 de junio de 2019 .
- ^ Barker, Deane (2016). Gestión de contenido web . O'Reilly. pag. 233. ISBN 978-1491908105.
- ^ "Apache Lucene - Bienvenido a Apache Lucene" . apache.org . Archivado desde el original el 4 de febrero de 2016 . Consultado el 4 de febrero de 2016 .
- ^ McCandless, Michael; Hatcher, Erik; Gospodnetić, Otis (2010). Lucene en acción, segunda edición . Manning. pag. 8 . ISBN 978-1933988177.
- ^ "Sistema de almacenamiento semántico GNU / Linux" (PDF) . glscube.org . Archivado desde el original (PDF) el 1 de junio de 2010.
- ^ "Apache Lucene - Sintaxis del analizador de consultas" . lucene.apache.org . Archivado desde el original el 2 de mayo de 2017.
- ^ J. Beel, S. Langer y B. Gipp, "La arquitectura y los conjuntos de datos del sistema de recomendación de trabajos de investigación de Docear", en Actas del 3er Taller internacional sobre publicaciones científicas mineras (WOSP 2014) en la Conferencia conjunta ACM / IEEE sobre Bibliotecas digitales (JCDL 2014), Londres, Reino Unido, 2014
- ^ a b M. Schwarzer, M. Schubotz, N. Meuschke, C. Breitinger, V. Markl y B. Gipp, https://www.gipp.com/wp-content/papercite-data/pdf/schwarzer2016. pdf "Evaluación de recomendaciones basadas en enlaces para Wikipedia" en Actas de la 16ª Conferencia conjunta ACM / IEEE-CS sobre bibliotecas digitales (JCDL), Nueva York, NY, EE. UU., 2016, págs. 191-200.
- ^ "El futuro de Compass & Elasticsearch" . el tipo permanece . Archivado desde el original el 15 de octubre de 2015 . Consultado el 14 de octubre de 2015 .
- ^ Wayner, Peter. "11 bases de datos de vanguardia que vale la pena explorar ahora" . InfoWorld. Archivado desde el original el 21 de septiembre de 2015 . Consultado el 21 de septiembre de 2015 .
- ^ "Elasticsearch: RESTful, Distributed Search & Analytics - Elastic" . elastic.co . Archivado desde el original el 8 de octubre de 2015 . Consultado el 23 de septiembre de 2015 .
- ^ a b Natividad, Angela. "Búsqueda de actualizaciones de Socialtext, Goes Kino" . Alambre CMS. Archivado desde el original el 29 de septiembre de 2012 . Consultado el 31 de mayo de 2011 .
- ^ Marvin Humphrey. "KinoSearch - Biblioteca de motores de búsqueda. - metacpan.org" . p3rl.org . Consultado el 23 de septiembre de 2015 .
- ^ Diment, Kieren; Trucha, Matt S (2009). "Libro de cocina del catalizador". La guía definitiva de Catalyst . Presione . pag. 280 . ISBN 978-1-4302-2365-8.
- ^ Wishart, DS; et al. (Enero de 2009). "HMDB: una base de conocimientos para el metaboloma humano" . Ácidos nucleicos Res. 37 (Problema de la base de datos): D603–10. doi : 10.1093 / nar / gkn810 . PMC 2686599 . PMID 18953024 .
- ^ Lim, Emilia; Pon, Allison; Djoumbou, Yannick; Knox, Craig; Shrivastava, Savita; Guo, An Chi; Neveu, Vanessa; Wishart, David S. (enero de 2010). "T3DB: una base de datos ampliamente anotada de toxinas comunes y sus objetivos" . Ácidos nucleicos Res . 38 (Problema de la base de datos): D781–6. doi : 10.1093 / nar / gkp934 . PMC 2808899 . PMID 19897546 .
Bibliografía
- Gospodnetic, Otis; Erik Hatcher; Michael McCandless (28 de junio de 2009). Lucene en acción (2ª ed.). Publicaciones Manning . ISBN 978-1-9339-8817-7.
- Gospodnetic, Otis; Erik Hatcher (1 de diciembre de 2004). Lucene en acción (1ª ed.). Publicaciones Manning . ISBN 978-1-9323-9428-3.
enlaces externos
- Página web oficial