Gensim es una biblioteca de código abierto para el modelado de temas sin supervisión y el procesamiento del lenguaje natural , que utiliza el aprendizaje automático estadístico moderno .
Autor (es) original (es) | Radim Řehůřek |
---|---|
Desarrollador (es) | RARE Technologies Ltd. |
Versión inicial | 2009 |
Lanzamiento estable | 4.0.1 [1] / 1 de abril de 2021 |
Repositorio | github |
Escrito en | Pitón |
Sistema operativo | Linux , Windows , macOS |
Tipo | Recuperación de información |
Licencia | LGPL |
Sitio web | radimrehurek |
Gensim se implementa en Python y Cython para mejorar el rendimiento. Gensim está diseñado para manejar grandes colecciones de texto mediante la transmisión de datos y algoritmos incrementales en línea, lo que lo diferencia de la mayoría de los otros paquetes de software de aprendizaje automático que solo tienen como objetivo el procesamiento en memoria.
Principales características
Gensim incluye implementaciones en paralelo en streaming de los algoritmos fastText , [2] word2vec y doc2vec, [3] así como análisis semántico latente (LSA, LSI, SVD), factorización matricial no negativa (NMF), asignación de Dirichlet latente (LDA), tf -df y proyecciones aleatorias . [4]
Algunos de los nuevos algoritmos en línea de Gensim también se publicaron en la disertación de doctorado de 2011 Escalabilidad del análisis semántico en el procesamiento del lenguaje natural de Radim Řehůřek, el creador de Gensim. [5]
Usos de Gensim
Gensim se ha utilizado y citado en más de 1400 aplicaciones comerciales y académicas a partir de 2018, [6] en una amplia gama de disciplinas, desde la medicina hasta el análisis de reclamaciones de seguros y la búsqueda de patentes. [7] El software ha sido cubierto en varios artículos nuevos, podcasts y entrevistas. [8] [9] [10]
Soporte comercial y gratuito
El código fuente abierto se desarrolla y aloja en GitHub [11] y se mantiene un foro público de soporte en Grupos de Google [12] y Gitter . [13]
Gensim cuenta con el apoyo comercial de la empresa rare-technologies.com, que también proporciona mentores para estudiantes y proyectos de tesis académica para Gensim a través de su programa Student Incubator. [14]
Referencias
- ^ "Versión 4.0.1" . 1 de abril de 2021 . Consultado el 10 de abril de 2021 .
- ^ Formación escalable * 2vec
- ^ Aprendizaje profundo con word2vec y Gensim
- ^ Radim Řehůřek y Petr Sojka (2010). Marco de software para el modelado de temas con grandes corpora . Proc. Taller de LREC sobre nuevos desafíos para los marcos de PNL
- ^ Řehůřek, Radim (2011). "Escalabilidad del análisis semántico en el procesamiento del lenguaje natural" (PDF) . Consultado el 27 de enero de 2015 .
mi paquete de software gensim de código abierto que acompaña a esta tesis
- ^ Citas académicas de Gensim
- ^ Adopdores comerciales de Gensim
- ^ Podcast .__ init__ episodio # 71 en Gensim
- ^ Entrevista con Radim Řehůřek, creador de Gensim
- ^ http://decisionstats.com/2015/12/07/decisionstats-interview-radim-rehurek-gensim-python/
- ^ Código fuente de Gensim en Github
- ^ Lista de distribución de Gensim en Grupos de Google
- ^ Sala de chat Gensim en Gitter
- ^ Incubadora de código abierto Gensim
enlaces externos
- Página web oficial