Visión por computador

La visión por computadora es un campo científico interdisciplinario que se ocupa de cómo las computadoras pueden obtener una comprensión de alto nivel a partir de imágenes o videos digitales . Desde la perspectiva de la ingeniería , busca comprender y automatizar tareas que el sistema visual humano puede realizar. ^[1]^[2]^[3]

Las tareas de visión por computadora incluyen métodos para adquirir , procesar , analizar y comprender imágenes digitales y extraer datos de alta dimensión del mundo real para producir información numérica o simbólica, por ejemplo, en forma de decisiones. ^[4]^[5]^[6]^{[7] La} comprensión en este contexto significa la transformación de imágenes visuales (la entrada de la retina) en descripciones del mundo que tienen sentido para los procesos de pensamiento y pueden provocar la acción apropiada. Esta comprensión de la imagen puede verse como la separación de la información simbólica de los datos de la imagen utilizando modelos construidos con la ayuda de la geometría, la física, la estadística y la teoría del aprendizaje. ^[8]

La disciplina científica de la visión por computadora se ocupa de la teoría detrás de los sistemas artificiales que extraen información de las imágenes. Los datos de imagen pueden tomar muchas formas, como secuencias de video, vistas desde múltiples cámaras, datos multidimensionales de un escáner 3D o un dispositivo de escaneo médico. La disciplina tecnológica de la visión por computadora busca aplicar sus teorías y modelos a la construcción de sistemas de visión por computadora.

Los subdominios de la visión por computadora incluyen reconstrucción de escenas , detección de objetos , detección de eventos, seguimiento de video , reconocimiento de objetos , estimación de pose en 3D , aprendizaje, indexación, estimación de movimiento , servo visual , modelado de escenas en 3D y restauración de imágenes . ^[6]

La visión por computadora es un campo interdisciplinario que se ocupa de cómo se pueden hacer las computadoras para obtener una comprensión de alto nivel a partir de imágenes o videos digitales . Desde la perspectiva de la ingeniería , busca automatizar tareas que el sistema visual humano puede realizar. ^[1]^[2]^[3] "La visión por computadora se ocupa de la extracción, el análisis y la comprensión automáticos de información útil a partir de una sola imagen o una secuencia de imágenes. Implica el desarrollo de una base teórica y algorítmica para lograr la comprensión visual automática . " ^[9] Como disciplina científica, la visión por computadora se ocupa de la teoría detrás de los sistemas artificiales que extraen información de las imágenes. Los datos de imagen pueden tomar muchas formas, como secuencias de video, vistas de varias cámaras o datos multidimensionales de un escáner médico . ^[10] Como disciplina tecnológica, la visión por computadora busca aplicar sus teorías y modelos para la construcción de sistemas de visión por computadora.

A fines de la década de 1960, la visión por computadora comenzó en universidades que eran pioneras en inteligencia artificial . Estaba destinado a imitar el sistema visual humano , como un trampolín para dotar a los robots de un comportamiento inteligente. ^[11] En 1966, se creía que esto podría lograrse a través de un proyecto de verano, conectando una cámara a una computadora y haciendo que "describiera lo que veía". ^[12]^[13]

Detección de objetos en una fotografía

Aprender formas 3D ha sido una tarea desafiante en la visión por computadora. Los avances recientes en el aprendizaje profundo han permitido a los investigadores construir modelos que son capaces de generar y reconstruir formas 3D a partir de siluetas o mapas de profundidad de una o varias vistas de manera transparente y eficiente ^[19]

Reproducir medios

Video del concepto de razonamiento de medios visuales de DARPA

El concepto artístico de Curiosity , un ejemplo de vehículo terrestre sin tripulación. Observe la cámara estéreo montada en la parte superior del móvil.

Capa de piel artificial de caucho con estructura flexible para la estimación de la forma de superficies de micro-ondulación

Arriba hay un molde de silicona con una cámara en el interior que contiene muchos marcadores de puntos diferentes. Cuando este sensor se presiona contra la superficie, el silicio se deforma y la posición de los marcadores de puntos cambia. Luego, una computadora puede tomar estos datos y determinar cómo se presiona exactamente el molde contra la superficie. Esto se puede utilizar para calibrar manos robóticas con el fin de asegurarse de que puedan agarrar objetos con eficacia.

Visión por computadora para fines de contador de personas en lugares públicos, centros comerciales, centros comerciales

El nuevo iPad incluye sensor LiDAR