De Wikipedia, la enciclopedia libre
  (Redirigido desde Classifier (aprendizaje automático) )
Saltar a navegación Saltar a búsqueda

En estadística , la clasificación es el problema de identificar a cuál de un conjunto de categorías (subpoblaciones) pertenece una nueva observación , sobre la base de un conjunto de datos de entrenamiento que contiene observaciones (o instancias) cuya pertenencia a la categoría es conocida. Algunos ejemplos son asignar un correo electrónico determinado a la clase "spam" o "no spam" y asignar un diagnóstico a un paciente determinado en función de las características observadas del paciente (sexo, presión arterial, presencia o ausencia de ciertos síntomas, etc.) . La clasificación es un ejemplo de reconocimiento de patrones .

En la terminología del aprendizaje automático, [1] la clasificación se considera una instancia de aprendizaje supervisado , es decir, aprendizaje en el que está disponible un conjunto de entrenamiento de observaciones correctamente identificadas. El procedimiento no supervisado correspondiente se conoce como agrupación e implica agrupar datos en categorías en función de alguna medida de similitud o distancia inherente .

A menudo, las observaciones individuales se analizan en un conjunto de propiedades cuantificables, conocidas de diversas formas como variables o características explicativas . Estas propiedades pueden ser categóricas (por ejemplo, "A", "B", "AB" u "O", para el tipo de sangre ), ordinales (por ejemplo, "grande", "mediana" o "pequeña"), de valor entero (por ejemplo, el número de apariciones de una palabra en particular en un correo electrónico ) o valores reales (por ejemplo, una medición de la presión arterial ).Otros clasificadores funcionan comparando observaciones con observaciones anteriores mediante una función de similitud o distancia .

Un algoritmo que implementa la clasificación, especialmente en una implementación concreta, se conoce como clasificador . El término "clasificador" a veces también se refiere a la función matemática , implementada por un algoritmo de clasificación, que asigna los datos de entrada a una categoría.

La terminología en todos los campos es bastante variada. En estadística , donde la clasificación se hace a menudo con regresión logística o un procedimiento similar, las propiedades de las observaciones se denominan variables explicativas (o variables independientes , regresores, etc.) y las categorías que se van a predecir se conocen como resultados, que se consideran ser posibles valores de la variable dependiente . En el aprendizaje automático , las observaciones a menudo se conocen como instancias , las variables explicativas se denominan características (agrupadas en un vector de características ) y las posibles categorías a predecir son clases.. Otros campos pueden usar terminología diferente: por ejemplo, en ecología comunitaria , el término "clasificación" normalmente se refiere al análisis de conglomerados , es decir, un tipo de aprendizaje no supervisado , en lugar del aprendizaje supervisado descrito en este artículo.

Relación con otros problemas [ editar ]

La clasificación y la agrupación son ejemplos del problema más general del reconocimiento de patrones , que es la asignación de algún tipo de valor de salida a un valor de entrada dado. Otros ejemplos son la regresión , que asigna una salida de valor real a cada entrada; etiquetado de secuencia , que asigna una clase a cada miembro de una secuencia de valores (por ejemplo, etiquetado de parte del discurso , que asigna una parte del discurso a cada palabra en una oración de entrada); parsing , que asigna un árbol de análisis a una oración de entrada, describiendo la estructura sintáctica de la oración; etc.

Una subclase común de clasificación es la clasificación probabilística . Los algoritmos de esta naturaleza utilizan la inferencia estadística para encontrar la mejor clase para una instancia determinada. A diferencia de otros algoritmos, que simplemente generan una "mejor" clase, los algoritmos probabilísticos generan una probabilidad de que la instancia sea miembro de cada una de las posibles clases. La mejor clase se selecciona normalmente como la que tiene la mayor probabilidad. Sin embargo, dicho algoritmo tiene numerosas ventajas sobre los clasificadores no probabilísticos:

  • Puede generar un valor de confianza asociado con su elección (en general, un clasificador que puede hacer esto se conoce como clasificador ponderado por confianza ).
  • En consecuencia, puede abstenerse cuando su confianza para elegir cualquier salida en particular es demasiado baja.
  • Debido a las probabilidades que se generan, los clasificadores probabilísticos se pueden incorporar de manera más efectiva en tareas más grandes de aprendizaje automático, de manera que se evite parcial o completamente el problema de la propagación de errores .

Procedimientos frecuentes [ editar ]

Fisher , [2] [3] emprendió los primeros trabajos sobre clasificación estadística en el contexto de problemas de dos grupos, lo que llevó a la función discriminante lineal de Fisher como regla para asignar un grupo a una nueva observación. [4] Este trabajo inicial asumió que los valores de datos dentro de cada uno de los dos grupos tenían una distribución normal multivariante . La extensión de este mismo contexto a más de dos grupos también se ha considerado con la restricción impuesta de que la regla de clasificación debe ser lineal . [4] [5] El trabajo posterior para la distribución normal multivariante permitió que el clasificador no fuera lineal : [6]Se pueden derivar varias reglas de clasificación basadas en diferentes ajustes de la distancia de Mahalanobis , asignándose una nueva observación al grupo cuyo centro tiene la distancia ajustada más baja desde la observación.

Procedimientos bayesianos [ editar ]

A diferencia de los procedimientos frecuentistas, los procedimientos de clasificación bayesiana proporcionan una forma natural de tener en cuenta cualquier información disponible sobre los tamaños relativos de los diferentes grupos dentro de la población general. [7] Los procedimientos bayesianos tienden a ser computacionalmente costosos y, en los días antes de que se desarrollaran los cálculos de Monte Carlo en cadena de Markov , se idearon aproximaciones para las reglas de agrupamiento bayesiano. [8]

Algunos procedimientos bayesianos implican el cálculo de las probabilidades de pertenencia a un grupo : estos proporcionan un resultado más informativo que una simple atribución de una sola etiqueta de grupo a cada nueva observación.

Clasificación binaria y multiclase [ editar ]

La clasificación se puede considerar como dos problemas separados: clasificación binaria y clasificación multiclase . En la clasificación binaria, una tarea que se comprende mejor, solo participan dos clases, mientras que la clasificación multiclase implica asignar un objeto a una de varias clases. [9] Dado que muchos métodos de clasificación se han desarrollado específicamente para la clasificación binaria, la clasificación multiclase a menudo requiere el uso combinado de múltiples clasificadores binarios.

Vectores de características [ editar ]

La mayoría de los algoritmos describen una instancia individual cuya categoría se va a predecir utilizando un vector de características de propiedades individuales medibles de la instancia. Cada propiedad se denomina característica , también conocida en estadística como variable explicativa (o variable independiente , aunque las características pueden o no ser estadísticamente independientes ). Las funciones pueden ser binarias (por ejemplo, "activadas" o "desactivadas"); categórico (por ejemplo, "A", "B", "AB" u "O", para el tipo de sangre ); ordinal (por ejemplo, "grande", "mediano" o "pequeño"); de valor entero (p. ej.el número de apariciones de una palabra en particular en un correo electrónico); ovalor real (por ejemplo, una medida de la presión arterial). Si la instancia es una imagen, los valores de las características pueden corresponder a los píxeles de una imagen; si la instancia es un fragmento de texto, los valores de la característica pueden ser frecuencias de ocurrencia de diferentes palabras. Algunos algoritmos funcionan solo en términos de datos discretos y requieren que los datos con valores reales o con valores enteros se discreticen en grupos (por ejemplo, menos de 5, entre 5 y 10, o más de 10).

Clasificadores lineales [ editar ]

Un gran número de algoritmos de clasificación se puede expresar en términos de una función lineal que asigna una puntuación a cada categoría posible k por combinar el vector de características de una instancia con un vector de pesos, usando un producto de punto . La categoría prevista es la que tiene la puntuación más alta. Este tipo de función de puntuación se conoce como función de predicción lineal y tiene la siguiente forma general:

donde X i es el vector de características, por ejemplo i , β k es el vector de ponderaciones correspondiente a la categoría k , y la puntuación ( X i , k ) es la puntuación asociada con la asignación de la instancia i a la categoría k . En la teoría de la elección discreta , donde las instancias representan personas y las categorías representan elecciones, la puntuación se considera la utilidad asociada con la persona i que elige la categoría k .

Los algoritmos con esta configuración básica se conocen como clasificadores lineales . Lo que los distingue es el procedimiento para determinar (entrenar) los pesos / coeficientes óptimos y la forma en que se interpreta la puntuación.

Ejemplos de tales algoritmos son

  • Regresión logística y regresión logística multinomial
  • Regresión probit
  • El algoritmo del perceptrón
  • Máquinas de vectores de soporte
  • Análisis discriminante lineal .

Algoritmos [ editar ]

En el aprendizaje no supervisado , los clasificadores forman la columna vertebral del análisis de conglomerados y en el aprendizaje supervisado o semi-supervisado, los clasificadores son la forma en que el sistema caracteriza y evalúa los datos no etiquetados. Sin embargo, en todos los casos, los clasificadores tienen un conjunto específico de reglas dinámicas, que incluye un procedimiento de interpretación para manejar valores vagos o desconocidos, todos adaptados al tipo de entradas que se examinan. [10]

Dado que ninguna forma única de clasificación es apropiada para todos los conjuntos de datos, se ha desarrollado un gran conjunto de herramientas de algoritmos de clasificación. Los más utilizados incluyen: [11]

  • Clasificadores lineales
    • Discriminante lineal de Fisher
    • Regresión logística
    • Clasificador ingenuo de Bayes
    • Perceptrón
  • Máquinas de vectores de soporte
    • Máquinas vectoriales de apoyo de mínimos cuadrados
  • Clasificadores cuadráticos
  • Estimación de kernel
    • k-vecino más cercano
  • Impulso (meta-algoritmo)
  • Árboles de decisión
    • Bosques aleatorios
  • Redes neuronales
  • Aprendizaje de la cuantificación de vectores

Evaluación [ editar ]

El rendimiento del clasificador depende en gran medida de las características de los datos que se van a clasificar. No existe un clasificador único que funcione mejor en todos los problemas dados (un fenómeno que puede explicarse por el teorema de no comer gratis ). Se han realizado varias pruebas empíricas para comparar el desempeño del clasificador y encontrar las características de los datos que determinan el desempeño del clasificador. Sin embargo, determinar un clasificador adecuado para un problema dado es todavía más un arte que una ciencia.

Las medidas de precisión y recuperación son métricas populares que se utilizan para evaluar la calidad de un sistema de clasificación. Más recientemente, las curvas de características operativas del receptor (ROC) se han utilizado para evaluar la compensación entre las tasas de verdaderos y falsos positivos de los algoritmos de clasificación.

Como métrica de rendimiento, el coeficiente de incertidumbre tiene la ventaja sobre la precisión simple en que no se ve afectado por los tamaños relativos de las diferentes clases.[12] Además, no penalizará a un algoritmo por simplemente reorganizar las clases.

Dominios de la aplicación [ editar ]

La clasificación tiene muchas aplicaciones. En algunos de ellos se emplea como un procedimiento de minería de datos , mientras que en otros se lleva a cabo un modelo estadístico más detallado.

  • Visión por computador
    • Imágenes médicas y análisis de imágenes médicas.
    • Reconocimiento óptico de caracteres
    • Seguimiento de video
  • Descubrimiento y desarrollo de fármacos
    • Toxicogenómica
    • Relación cuantitativa estructura-actividad
  • Geoestadística
  • Reconocimiento de voz
  • Reconocimiento de escritura a mano
  • Identificación biométrica
  • Clasificación biológica
  • Procesamiento estadístico del lenguaje natural
  • Clasificación de documentos
  • Motores de búsqueda de internet
  • Puntuacion de credito
  • Reconocimiento de patrones
  • Sistema de recomendación
  • Clasificación de microarreglos

Ver también [ editar ]

  • Inteligencia artificial
  • Clasificación binaria
  • Probabilidades de pertenencia a clases
  • Regla de clasificación
  • Procesamiento de término compuesto
  • Procesamiento de datos
  • Almacén de datos
  • Lógica difusa
  • Recuperación de información
  • Lista de conjuntos de datos para la investigación del aprendizaje automático
  • Aprendizaje automático
  • Sistema de recomendación

Referencias [ editar ]

  1. ^ Alpaydin, Ethem (2010). Introducción al aprendizaje automático . MIT Press. pag. 9. ISBN 978-0-262-01243-0.
  2. ^ Fisher, RA (1936). "El uso de múltiples mediciones en problemas taxonómicos". Anales de la eugenesia . 7 (2): 179–188. doi : 10.1111 / j.1469-1809.1936.tb02137.x . hdl : 2440/15227 .
  3. ^ Fisher, RA (1938). "La utilización estadística de múltiples medidas". Anales de la eugenesia . 8 (4): 376–386. doi : 10.1111 / j.1469-1809.1938.tb02189.x . hdl : 2440/15232 .
  4. ^ a b Gnanadesikan, R. (1977) Métodos para el análisis de datos estadísticos de observaciones multivariadas , Wiley. ISBN 0-471-30845-5 (págs. 83–86) 
  5. ^ Rao, CR (1952) Métodos estadísticos avanzados en análisis multivariante , Wiley. (Sección 9c)
  6. ^ Anderson, TW (1958) Una introducción al análisis estadístico multivariado , Wiley.
  7. ^ Carpeta, DA (1978). "Análisis de conglomerados bayesianos". Biometrika . 65 : 31–38. doi : 10.1093 / biomet / 65.1.31 .
  8. ^ Carpeta, David A. (1981). "Aproximaciones a las reglas de agrupamiento Bayesiano". Biometrika . 68 : 275-285. doi : 10.1093 / biomet / 68.1.275 .
  9. ^ Har-Peled, S. , Roth, D., Zimak, D. (2003) "Clasificación de restricción para clasificación y clasificación multiclase". En: Becker, B., Thrun, S. , Obermayer, K. (Eds) Avances en los sistemas de procesamiento de información neuronal 15: Actas de la conferencia de 2002 , MIT Press. ISBN 0-262-02550-7 
  10. ^ "¿Qué es un clasificador en el aprendizaje automático?" .
  11. ^ "Un recorrido por los 10 mejores algoritmos para principiantes del aprendizaje automático" . Construido en . 2018-01-20 . Consultado el 10 de junio de 2019 .
  12. ^ Peter Mills (2011). "Clasificación estadística eficiente de medidas satelitales". Revista Internacional de Percepción Remota . 32 (21): 6109–6132. arXiv : 1202.2194 . Código Bibliográfico : 2011IJRS ... 32.6109M . doi : 10.1080 / 01431161.2010.507795 . S2CID 88518570 .