Clasificación estadística


En estadística , la clasificación es el problema de identificar a cuál de un conjunto de categorías (subpoblaciones) pertenece una observación (u observaciones). Algunos ejemplos son asignar un correo electrónico dado a la clase "spam" o "no spam" y asignar un diagnóstico a un paciente determinado en función de las características observadas del paciente (sexo, presión arterial, presencia o ausencia de ciertos síntomas, etc.) .

A menudo, las observaciones individuales se analizan en un conjunto de propiedades cuantificables, conocidas de diversas formas como variables o características explicativas . Estas propiedades pueden ser categóricas (por ejemplo, "A", "B", "AB" u "O", para el tipo de sangre ), ordinales (por ejemplo, "grande", "mediana" o "pequeña"), con valores enteros (por ejemplo, el número de apariciones de una palabra en particular en un correo electrónico ) o valores reales (por ejemplo, una medición de la presión arterial ).Otros clasificadores funcionan comparando observaciones con observaciones anteriores mediante una función de similitud o distancia .

Un algoritmo que implementa la clasificación, especialmente en una implementación concreta, se conoce como clasificador . El término "clasificador" a veces también se refiere a la función matemática , implementada por un algoritmo de clasificación, que asigna los datos de entrada a una categoría.

La terminología en todos los campos es bastante variada. En estadística , donde la clasificación se hace a menudo con regresión logística o un procedimiento similar, las propiedades de las observaciones se denominan variables explicativas (o variables independientes , regresores, etc.) y las categorías a predecir se conocen como resultados, que se consideran ser posibles valores de la variable dependiente . En el aprendizaje automático , las observaciones a menudo se conocen como instancias , las variables explicativas se denominan características (agrupadas en un vector de características ) y las posibles categorías a predecir son clases .. Otros campos pueden utilizar terminología diferente: por ejemplo, en ecología comunitaria , el término "clasificación" normalmente se refiere al análisis de conglomerados .

La clasificación y el agrupamiento son ejemplos del problema más general del reconocimiento de patrones , que es la asignación de algún tipo de valor de salida a un valor de entrada dado. Otros ejemplos son la regresión , que asigna una salida con valor real a cada entrada; etiquetado de secuencia , que asigna una clase a cada miembro de una secuencia de valores (por ejemplo, etiquetado de parte del discurso , que asigna una parte del discurso a cada palabra en una oración de entrada); parsing , que asigna un árbol de análisis a una oración de entrada, describiendo la estructura sintáctica de la oración; etc.

Una subclase común de clasificación es la clasificación probabilística . Los algoritmos de esta naturaleza utilizan la inferencia estadística para encontrar la mejor clase para una instancia determinada. A diferencia de otros algoritmos, que simplemente generan una "mejor" clase, los algoritmos probabilísticos generan una probabilidad de que la instancia sea miembro de cada una de las posibles clases. La mejor clase se selecciona normalmente como la que tiene la mayor probabilidad. Sin embargo, dicho algoritmo tiene numerosas ventajas sobre los clasificadores no probabilísticos: