Discriminación markoviana


De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

La discriminación markoviana en el filtrado de spam es un método utilizado en CRM114 y otros filtros de spam para modelar los comportamientos estadísticos de spam y no spam con mayor precisión que en los métodos bayesianos simples . Un modelo bayesiano simple de texto escrito contiene solo el diccionario de palabras legales y sus probabilidades relativas. Un modelo de Markov agrega las probabilidades de transición relativas que, dada una palabra, predicen cuál será la siguiente. Se basa en la teoría de las cadenas de Markov de Andrey Markov , de ahí el nombre. En esencia, un filtro bayesiano funciona solo con palabras individuales, mientras que un filtro markoviano funciona con frases u oraciones completas.

Hay dos tipos de modelos de Markov ; el modelo de Markov visible y el modelo de Markov oculto o HMM. La diferencia es que con un modelo de Markov visible, se considera que la palabra actual contiene el estado completo del modelo de lenguaje, mientras que un modelo de Markov oculto oculta el estado y solo supone que la palabra actual está relacionada probabilísticamente con el estado interno real de la lengua. idioma.

Por ejemplo, en un modelo de Markov visible, la palabra "el" debería predecir con precisión la siguiente palabra, mientras que en un modelo de Markov oculto, todo el texto anterior implica el estado real y predice las siguientes palabras, pero en realidad no garantiza ese estado o predicción. Dado que el último caso es el que se encuentra en el filtrado de correo no deseado, casi siempre se utilizan modelos ocultos de Markov. En particular, debido a las limitaciones de almacenamiento, el tipo específico de modelo de Markov oculto llamado campo aleatorio de Markov es particularmente aplicable, generalmente con un tamaño de camarilla de entre cuatro y seis tokens.

Ver también

Referencias

  • Chhabra, S., Yerazunis, WS y Siefkes, C. 2004. Filtrado de correo no deseado utilizando un modelo de campo aleatorio de Markov con esquemas de ponderación variable. En Actas de la Cuarta Conferencia Internacional IEEE sobre Minería de Datos (1–04 de noviembre de 2004). ICDM. Sociedad de Informática IEEE, Washington, DC, Mazharul