Discriminación markoviana

Este artículo proporciona un contexto insuficiente para quienes no están familiarizados con el tema . Por favor, ayuda a mejorar el artículo por proporcionar más contexto para el lector . ( Julio de 2012 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

La discriminación markoviana en el filtrado de spam es un método utilizado en CRM114 y otros filtros de spam para modelar los comportamientos estadísticos de spam y no spam con mayor precisión que en los métodos bayesianos simples . Un modelo bayesiano simple de texto escrito contiene solo el diccionario de palabras legales y sus probabilidades relativas. Un modelo de Markov agrega las probabilidades de transición relativas que, dada una palabra, predicen cuál será la siguiente. Se basa en la teoría de las cadenas de Markov de Andrey Markov , de ahí el nombre. En esencia, un filtro bayesiano funciona solo con palabras individuales, mientras que un filtro markoviano funciona con frases u oraciones completas.

Hay dos tipos de modelos de Markov ; el modelo de Markov visible y el modelo de Markov oculto o HMM. La diferencia es que con un modelo de Markov visible, se considera que la palabra actual contiene el estado completo del modelo de lenguaje, mientras que un modelo de Markov oculto oculta el estado y solo supone que la palabra actual está relacionada probabilísticamente con el estado interno real de la lengua. idioma.

Por ejemplo, en un modelo de Markov visible, la palabra "el" debería predecir con precisión la siguiente palabra, mientras que en un modelo de Markov oculto, todo el texto anterior implica el estado real y predice las siguientes palabras, pero en realidad no garantiza ese estado o predicción. Dado que el último caso es el que se encuentra en el filtrado de correo no deseado, casi siempre se utilizan modelos ocultos de Markov. En particular, debido a las limitaciones de almacenamiento, el tipo específico de modelo de Markov oculto llamado campo aleatorio de Markov es particularmente aplicable, generalmente con un tamaño de camarilla de entre cuatro y seis tokens.

Ver también

Modelo de Markov de máxima entropía

Este artículo incluye una lista de referencias , lecturas relacionadas o enlaces externos , pero sus fuentes siguen sin estar claras porque carece de citas en línea . Ayude a mejorar este artículo introduciendo citas más precisas. ( Noviembre de 2010 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

Este artículo necesita citas adicionales para su verificación . Por favor, ayuda a mejorar este artículo mediante la adición de citas de fuentes confiables . El material no obtenido puede ser cuestionado y eliminado.
Encuentre fuentes: "Discriminación markoviana" - noticias · periódicos · libros · académico · JSTOR ( julio de 2012 ) ( Aprenda cómo y cuándo eliminar este mensaje de plantilla )

Referencias

Chhabra, S., Yerazunis, WS y Siefkes, C. 2004. Filtrado de correo no deseado utilizando un modelo de campo aleatorio de Markov con esquemas de ponderación variable. En Actas de la Cuarta Conferencia Internacional IEEE sobre Minería de Datos (1–04 de noviembre de 2004). ICDM. Sociedad de Informática IEEE, Washington, DC, Mazharul