Los datos etiquetados son un grupo de muestras que se han etiquetado con una o más etiquetas. El etiquetado generalmente toma un conjunto de datos sin etiquetar y aumenta cada parte con etiquetas informativas. Por ejemplo, una etiqueta de datos podría indicar si una foto contiene un caballo o una vaca, qué palabras se pronunciaron en una grabación de audio, qué tipo de acción se está realizando en un video, cuál es el tema de un artículo de noticias, cuál es el el sentimiento de un tweet es, o si un punto en una radiografía es un tumor.
Las etiquetas se pueden obtener pidiendo a los humanos que emitan juicios sobre un dato determinado sin etiquetar. Los datos etiquetados son significativamente más costosos de obtener que los datos sin etiquetar sin procesar.
Datos etiquetados de colaboración colectiva
En 2006, Fei-Fei Li , codirector del Stanford Human-Centered AI Institute, se propuso mejorar los modelos y algoritmos de inteligencia artificial para el reconocimiento de imágenes ampliando significativamente los datos de entrenamiento . Los investigadores descargaron millones de imágenes de la World Wide Web y un equipo de estudiantes comenzó a aplicar etiquetas a los objetos en cada imagen. En 2007, Li subcontrató el trabajo de etiquetado de datos en Amazon Mechanical Turk , un mercado en línea para el trabajo digital a destajo . Los 3,2 millones de imágenes etiquetadas por más de 49.000 trabajadores formaron la base de ImageNet , una de las bases de datos etiquetadas a mano más grandes para el reconocimiento de objetos . [1]
Etiquetado de datos automatizado
Después de obtener un conjunto de datos etiquetado, los modelos de aprendizaje automático se pueden aplicar a los datos para que se puedan presentar nuevos datos sin etiquetar al modelo y se pueda adivinar o predecir una etiqueta probable para esa pieza de datos sin etiquetar. [2]
Sesgo impulsado por datos
La toma de decisiones algorítmica está sujeta al sesgo impulsado por el programador, así como al sesgo impulsado por los datos. Los datos de entrenamiento que se basan en datos etiquetados con sesgo darán lugar a prejuicios y omisiones en un modelo predictivo , a pesar de que el algoritmo de aprendizaje automático sea legítimo. Los datos etiquetados que se utilizan para entrenar un algoritmo de aprendizaje automático específico deben ser una muestra estadísticamente representativa para no sesgar los resultados. [3] Debido a que los datos etiquetados disponibles para entrenar sistemas de reconocimiento facial no han sido representativos de una población, los grupos subrepresentados en los datos etiquetados a menudo se clasifican erróneamente posteriormente. En 2018, un estudio de Joy Buolamwini y Timnit Gebru demostró que dos conjuntos de datos de análisis facial que se han utilizado para entrenar algoritmos de reconocimiento facial, IJB-A y Adience, están compuestos por un 79,6% y un 86,2% de humanos de piel más clara, respectivamente. [4]
Referencias
- ^ Mary L. Gray y Siddharth Suri (2019). Trabajo fantasma: cómo evitar que Silicon Valley construya una nueva clase baja global . Houghton Mifflin Harcourt. pag. 7. ISBN 9781328566287.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Johnson, Leif. "¿Cuál es la diferencia entre datos etiquetados y no etiquetados?" , Stack Overflow , 4 de octubre de 2013. Recuperado el 13 de mayo de 2017. Este artículo incorpora texto de lmjohns3 disponible bajo la licencia CC BY-SA 3.0 .
- ^ Xianhong Hu, Neupane, Bhanu, Echaiz, Lucia Flores, Sibal, Prateek, Rivera Lam, Macarena (2019). Dirigir la IA y las TIC avanzadas para las sociedades del conocimiento: una perspectiva de derechos, apertura, acceso y múltiples partes interesadas . Editorial de la UNESCO. pag. 64. ISBN 9789231003639.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Xianhong Hu, Neupane, Bhanu, Echaiz, Lucia Flores, Sibal, Prateek, Rivera Lam, Macarena (2019). Dirigir la IA y las TIC avanzadas para las sociedades del conocimiento: una perspectiva de derechos, apertura, acceso y múltiples partes interesadas . Editorial de la UNESCO. pag. 66. ISBN 9789231003639.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )