Carrot² [1] es un motor de agrupación de resultados de búsqueda de código abierto. [2] Puede agrupar automáticamente pequeñas colecciones de documentos, por ejemplo, resultados de búsqueda o resúmenes de documentos, en categorías temáticas. Carrot² está escrito en Java y se distribuye bajo la licencia BSD .
Desarrollador (es) | Búsqueda de zanahorias |
---|---|
Lanzamiento estable | 4.2.1 / 29 de marzo de 2021 |
Repositorio | github |
Escrito en | Java |
Sistema operativo | Multiplataforma |
Tipo | Minería de texto y análisis de conglomerados |
Licencia | Licencia BSD |
Sitio web | buscar |
Historia
La versión inicial de Carrot² fue implementada en 2001 por Dawid Weiss como parte de su tesis de maestría para validar la aplicabilidad del algoritmo de agrupamiento STC para agrupar los resultados de búsqueda en polaco. [3] En 2003, se agregaron una serie de otros algoritmos de agrupación de resultados de búsqueda, incluido Lingo, [4] un novedoso algoritmo de agrupación de texto diseñado específicamente para la agrupación de resultados de búsqueda. Si bien el código fuente de Carrot² estuvo disponible desde 2002, fue solo en 2006 cuando se lanzó oficialmente la versión 1.0. En el mismo año, se lanzó la versión 2.0 con una interfaz de usuario mejorada y un conjunto de herramientas ampliado. En 2009, la versión 3.0 trajo mejoras significativas en la calidad de la agrupación en clústeres, API simplificada y una nueva aplicación GUI para ajustar la agrupación en clústeres basada en la plataforma de cliente enriquecido de Eclipse . En 2020, la versión 4.0.0 trajo la simplificación de la API, la limpieza de código y la eliminación del escritorio Workbench. La versión 4.1.0 recupera el Workbench como una aplicación basada en web.
Lanzamiento | Fecha de lanzamiento | Grandes cambios y nuevas funciones |
---|---|---|
4.2.0, 4.2.1 | Marzo 2021 | Mejoras en los diccionarios JSON y el entorno de trabajo. Corrección de errores. |
4.1.0 | Enero de 2021 | Banco de trabajo basado en web. Diccionarios JSON y nuevas opciones de filtrado. Pulido API. |
4.0.0 | Julio de 2020 | Cambios y simplificaciones de API en todo el código base. Eliminación de tecnologías y herramientas obsoletas. Nueva documentación y limpieza de código. |
3.16.2 | Septiembre de 2019 | Actualice las bibliotecas de terceros (problemas relacionados con la seguridad). |
3.16.1 | Enero de 2019 | Actualización de visualizaciones JS. Migración de Microsoft Bing API v5 a v7. |
3.16.0 | Mayo de 2018 | Una revisión de los problemas de compatibilidad de Java 9+. Compatibilidad con Workbench para distribuciones de Ubuntu. Actualizaciones de fuentes de documentos y eliminaciones de fuentes de documentos no funcionales. |
3.15.1 | Marzo de 2017 | Una corrección de errores para la versión de .NET que podría resultar en excepciones de E / S sin marcar en el directorio de trabajo actual inaccesible. |
3.15.0 | Octubre de 2016 | Transición de Bing API V2 a V5. Actualización de dependencias de terceros. Cosmética interna. |
3.14.0 | Septiembre de 2016 | Mejoras en el banco de trabajo (compatibilidad alta con DPI, mejoras de MacOSX, corrección de errores). PubMed cambiando a HTTP. Otras pequeñas mejoras. |
3.13.0 | Julio de 2016 | Corrección de errores de la API de servlet, corrección de errores de Workbench, fuente de documentos eliminada de Google, códigos de idioma corregidos para algunos idiomas. |
3.12.0 | Febrero de 2016 | Actualización del diccionario polaco Morfologik, cambios y ajustes de infraestructura que permiten que C2 opere bajo políticas de administración de seguridad más estrictas. |
3.11.0 | Octubre de 2015 | Actualización de Apache Lucene, corrección de errores y un resumen de cambios de 3.10.x menores. |
3.10.4 | Octubre de 2015 | Actualización de la biblioteca Morfologik. |
3.10.3 | Agosto de 2015 | Reempaquetado Google Guava para evitar conflictos en Solr. |
3.10.2 | Julio de 2015 | Correcciones menores en Workbench (visualización de clúster árabe). |
3.10.1 | Mayo de 2015 | La visualización de Aduna se eliminó de la distribución de MacOS. Pequeñas correcciones en el Workbench. |
3.10.0 | Mayo de 2015 | Actualizaciones de visualización. Corrección de errores. Actualizaciones de la dependencia de la biblioteca. |
3.9.4 | Noviembre de 2014 | Actualización de FoamTree. Nuevos atributos para la agrupación en clústeres multilingüe. Correcciones de visualización. |
3.9.3 | Julio de 2014 | Actualización de FoamTree. Correcciones y ajustes de infraestructura (jflex, URL de repositorio de sonatype). |
3.9.2 | Abril de 2014 | Corrección de errores en FoamTree HTML5. |
3.9.1 | Abril de 2014 | Corrección de errores, actualizaciones de visualizaciones HTML5. |
3.9.0 | Febrero 2014 | Visualizaciones HTML5 que reemplazan a flash, actualización de dependencias de bibliotecas, corrección de errores. |
3.8.1 | octubre 2013 | Corrección de errores, pequeños ajustes en la funcionalidad. |
3.8.0 | julio 2013 | Corrección de errores, actualizaciones de dependencia de la biblioteca. |
3.7.1 | Mayo 2013 | Correcciones de errores menores (versión de mantenimiento 3.7.0). |
3.7.0 | abril 2013 | Cambios de infraestructura en el núcleo (ID de cadena), mejor integración de Solr XSLT, ajustes de Workbench para entradas más grandes, dependencias actualizadas. |
3.6.3 | abril 2013 | Mejoras y correcciones de errores menores: personalización del adaptador Solr XSLT, ajustes de Workbench para entradas más grandes, dependencias actualizadas. |
3.6.2 | Noviembre 2012 | Mejoras y correcciones de errores menores. |
3.6.1 | Agosto 2012 | Correcciones de errores menores. |
3.6.0 | junio 2012 | Cambios de infraestructura, refactorizaciones y corrección de errores. |
3.5.3 | Diciembre de 2011 | Actualizaciones de infraestructura resultantes de la migración a GitHub. Actualización del banco de trabajo a SWT 3.7.1. |
3.5.2 | Septiembre de 2011 | Compatibilidad con Ajax en Document Clustering Server, fuente de documentos Bing mejorada, mejoras en Workbench, corrección de errores. |
3.5.1 | Junio de 2011 | Corrección de errores, mejoras en la integración de la visualización, eliminación de la compatibilidad con la API de Yahoo BOSS. |
3.5.0 | Mayo de 2011 | Visualización de FoamTree, agrupación en clústeres de k-medias en dos, mejoras en la gestión de recursos |
3.4.3 | Marzo de 2011 | Distribución al repositorio central de Maven |
3.4.2 | Octubre de 2010 | Corrección de errores |
3.4.1 | Septiembre de 2010 | Paquete de compatibilidad Solr 1.4.x, corrección de errores |
3.4.0 | Agosto de 2010 | API .NET para llamar a la agrupación en clústeres Carrot² |
3.3.0 | Abril de 2010 | Mejoras significativas de escalabilidad en el algoritmo de agrupación en clústeres STC |
3.2.0 | Marzo de 2010 | Soporte experimental para agrupar contenido en árabe y coreano, aplicación de línea de comandos para agrupar en modo por lotes, se eliminaron las dependencias con licencia LGPL |
3.1.0 | Septiembre de 2009 | Soporte experimental para la agrupación de contenido chino, plugin de agrupación de resultados de búsqueda para Apache Solr |
3.1.0 | Septiembre de 2009 | Soporte experimental para la agrupación de contenido chino, plugin de agrupación de resultados de búsqueda para Apache Solr |
3.0.1 | Marzo de 2009 | Banco de trabajo de agrupación de documentos disponible para Mac OS X |
3.0.0 | Enero de 2009 | Document Clustering Workbench agregado para experimentar fácilmente con la agrupación en clústeres de Carrot², API de Java radicalmente simplificada, aplicación web de clústeres de resultados de búsqueda reimplementada, manual del usuario [5] disponible |
2.1.0 | Agosto de 2007 | Se agregó el servidor de agrupación de documentos para exponer la agrupación en clústeres como un servicio REST |
2.0.0 | Septiembre de 2006 | Nueva interfaz de usuario de la aplicación web de agrupación de resultados de búsqueda |
1.0.0 | Enero de 2006 | Primera versión oficial, binarios disponibles en SourceForge |
0.0.0 | desde 2002 | Lanzamientos de incubación, código fuente disponible en SourceForge |
Arquitectura
Carrot² 4.0 es predominantemente una biblioteca de programación Java con API públicas para la gestión de recursos específicos del lenguaje, configuración y ejecución de algoritmos. Se proporciona un componente HTTP / REST (servidor de agrupación de documentos) para la interoperabilidad con otros lenguajes.
Algoritmos de agrupamiento
Carrot² ofrece algunos algoritmos de agrupación de documentos que hacen hincapié en la calidad de las etiquetas de agrupación:
- Lingo: [4] un algoritmo de agrupamiento basado en la descomposición de valores singulares
- STC: [6] Agrupación de árboles de sufijos
Spin-offs
Búsqueda de zanahorias
Carrot Search, [7] un derivado comercial del proyecto Carrot², trabaja en un mayor desarrollo de Carrot², ofrece un algoritmo de agrupación de texto en tiempo real [8] compatible con el marco Carrot², así como servicios de consultoría de minería de texto basados en código abierto y software propietario.
Laboratorios de búsqueda de zanahorias
Carrot² dio lugar a una serie de proyectos independientes de código abierto lanzados bajo el paraguas de Carrot Search Labs. [9] Los siguientes proyectos se han publicado o se publicaron como parte de esta iniciativa:
- Pruebas aleatorias: un corredor de pruebas JUnit con utilidades integradas para hacer que cada ejecución de prueba sea ligeramente diferente (aleatoria). También es una tarea ANT para ejecutar pruebas JUnit en JVM paralelas, con equilibrio de carga y otras campanas y silbidos.
- Colecciones de primitivas de alto rendimiento para Java (HPPC): listas, conjuntos, mapas y otras colecciones de primitivas para Java ajustadas para obtener el mayor rendimiento y eficiencia de la memoria.
- SmartSprites: mantenimiento completamente automático de los sprites CSS; no es tedioso copiar y pegar en el CSS al agregar o cambiar imágenes animadas.
Proyectos discontinuados:
- jSuffixArrays: Varias implementaciones de Java de la estructura de datos Suffix Array con diferentes características de rendimiento y memoria.
- JUnitBenchmarks: un conjunto de extensiones para convertir las pruebas de JUnit4 en micro-benchmarks de rendimiento con monitoreo de GC, medición de varianza de tiempo y visualizaciones gráficas simples.
Ver también
- Portal de software gratuito
Referencias
- ^ Proyecto Carrot2, Stanislaw Osinski, Dawid Weiss. "Carrot2 - motor de agrupación de resultados de búsqueda de código abierto" .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Demostración de agrupación de resultados de búsqueda de zanahoria 2
- ^ Dawid Weiss: una interfaz de agrupación para resultados de búsqueda web en polaco e inglés. Tesis de maestría. Universidad Tecnológica de Poznan, Poznań, Polonia, 2001 descargar PDF
- ^ a b Stanisław Osiński, Dawid Weiss: un algoritmo basado en conceptos para agrupar los resultados de la búsqueda . IEEE Intelligent Systems, mayo / junio, 3 (vol. 20), 2005, págs. 48–54.
- ^ "Zanahoria2" .
- ^ Oren Zamir, Oren Etzioni : Agrupación de documentos web: una demostración de viabilidad , Actas de la 21a conferencia internacional anual ACM SIGIR sobre investigación y desarrollo en la recuperación de información (1998), págs. 46–54
- ^ Carrot Search sc "Carrot Search: software de visualización y agrupamiento de documentos" .
- ^ Carrot Search sc "Carrot Search: Lingo3G: Motor de agrupación de documentos de texto" .
- ^ Carrot Search sc "Laboratorios de búsqueda de zanahorias" .