La detección de objetos es una tecnología informática relacionada con la visión por computadora y el procesamiento de imágenes que se ocupa de detectar instancias de objetos semánticos de una determinada clase (como humanos, edificios o automóviles) en imágenes y videos digitales. [1] Los dominios bien investigados de la detección de objetos incluyen la detección de rostros y la detección de peatones . La detección de objetos tiene aplicaciones en muchas áreas de la visión por computadora, incluida la recuperación de imágenes y la videovigilancia .
Usos
Es ampliamente utilizado en tareas de visión por computadora tales como anotación de imágenes , [2] reconocimiento de actividad , [3] detección de rostros , reconocimiento de rostros , co-segmentación de objetos de video . También se utiliza para rastrear objetos , por ejemplo, rastrear una pelota durante un partido de fútbol, rastrear el movimiento de un bate de cricket o rastrear a una persona en un video.
Concepto
Cada clase de objeto tiene sus propias características especiales que ayudan a clasificar la clase; por ejemplo, todos los círculos son redondos. La detección de clases de objetos utiliza estas características especiales. Por ejemplo, al buscar círculos, se buscan objetos que están a una distancia particular de un punto (es decir, el centro). De manera similar, al buscar cuadrados, se necesitan objetos que sean perpendiculares en las esquinas y que tengan la misma longitud de lado. Se utiliza un enfoque similar para la identificación de rostros donde se pueden encontrar los ojos, la nariz y los labios y se pueden encontrar características como el color de la piel y la distancia entre los ojos.
Métodos
Los métodos para la detección de objetos generalmente caen en enfoques basados en redes neuronales o no neuronales. Para los enfoques no neuronales, es necesario definir primero las características utilizando uno de los métodos siguientes y luego utilizar una técnica como la máquina de vectores de soporte (SVM) para realizar la clasificación. Por otro lado, las técnicas neuronales pueden realizar la detección de objetos de un extremo a otro sin definir características específicas y, por lo general, se basan en redes neuronales convolucionales (CNN).
- Enfoques no neuronales:
- Enfoques de redes neuronales:
- Propuestas de región (R-CNN, [6] R-CNN rápido, [7] R-CNN más rápido, [8] R-CNN en cascada. [9] )
- Detector de caja múltiple de disparo único (SSD) [10]
- Solo miras una vez (YOLO) [11] [12] [13] [4] [14]
- Red neuronal de refinamiento de disparo único para la detección de objetos (RefineDet) [15]
- Retina-Net [16] [9]
- Redes convolucionales deformables [17] [18]
Ver también
Referencias
- ^ Dasiopoulou, Stamatia, et al. " Detección de objetos de video semántica asistida por conocimiento ". Transacciones IEEE sobre circuitos y sistemas para tecnología de video 15.10 (2005): 1210–1224.
- ^ Ling Guan; Yifeng He; Sun-Yuan Kung (1 de marzo de 2012). Procesamiento de imagen y video multimedia . Prensa CRC. págs. 331–. ISBN 978-1-4398-3087-1.
- ^ Wu, Jianxin, et al. " Un enfoque escalable para el reconocimiento de actividades basado en el uso de objetos ". 2007 IEEE 11th conferencia internacional sobre visión artificial. IEEE, 2007.
- ^ a b Bochkovskiy, Alexey (2020). "Yolov4: velocidad óptima y precisión de detección de objetos". arXiv : 2004.10934 [ cs.CV ].
- ^ Dalal, Navneet (2005). "Histogramas de gradientes orientados para detección humana" (PDF) . Visión por computadora y reconocimiento de patrones . 1 .
- ^ Ross, Girshick (2014). "Jerarquías de funciones enriquecidas para la detección precisa de objetos y la segmentación semántica" (PDF) . Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones . IEEE: 580–587. arXiv : 1311.2524 . doi : 10.1109 / CVPR.2014.81 . ISBN 978-1-4799-5118-5. S2CID 215827080 .
- ^ Girschick, Ross (2015). "Fast R-CNN" (PDF) . Actas de la Conferencia Internacional IEEE sobre Visión por Computador : 1440–1448. arXiv : 1504.08083 . Código Bib : 2015arXiv150408083G .
- ^ Shaoqing, Ren (2015). "Más rápido R-CNN". Avances en sistemas de procesamiento de información neuronal . arXiv : 1506.01497 .
- ^ a b Pang, Jiangmiao; Chen, Kai; Shi, Jianping; Feng, Huajun; Ouyang, Wanli; Lin, Dahua (4 de abril de 2019). "Libra R-CNN: hacia el aprendizaje equilibrado para la detección de objetos". arXiv : 1904.02701v1 [ cs.CV ].
- ^ Liu, Wei (octubre de 2016). "SSD: Detector multibox de disparo único". Visión por computadora - ECCV 2016 . Congreso Europeo de Visión por Computador . Apuntes de conferencias en Ciencias de la Computación. 9905 . págs. 21–37. arXiv : 1512.02325 . doi : 10.1007 / 978-3-319-46448-0_2 . ISBN 978-3-319-46447-3. S2CID 2141740 .
- ^ Redmon, Joseph (2016). "Solo miras una vez: detección de objetos unificada en tiempo real". Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones . arXiv : 1506.02640 . Código bibliográfico : 2015arXiv150602640R .
- ^ Redmon, Joseph (2017). "YOLO9000: mejor, más rápido, más fuerte". arXiv : 1612.08242 [ cs.CV ].
- ^ Redmon, Joseph (2018). "Yolov3: una mejora incremental". arXiv : 1804.02767 [ cs.CV ].
- ^ Wang, Chien-Yao (2021). "Scaled-YOLOv4: Escala de red parcial de etapas cruzadas". Actas de la Conferencia IEEE / CVF sobre Visión por Computador y Reconocimiento de Patrones (CVPR) . arXiv : 2011.08036 . Código Bib : 2020arXiv201108036W .
- ^ Zhang, Shifeng (2018). "Red neuronal de refinamiento de disparo único para la detección de objetos". Actas de la conferencia IEEE sobre visión artificial y reconocimiento de patrones : 4203–4212. arXiv : 1711.06897 . Código bibliográfico : 2017arXiv171106897Z .
- ^ Lin, Tsung-Yi (2020). "Pérdida focal para la detección de objetos densos". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 42 (2): 318–327. arXiv : 1708.02002 . Código bibliográfico : 2017arXiv170802002L . doi : 10.1109 / TPAMI.2018.2858826 . PMID 30040631 . S2CID 47252984 .
- ^ Zhu, Xizhou (2018). "ConvNets deformables v2: más deformables, mejores resultados". arXiv : 1811.11168 [ cs.CV ].
- ^ Dai, Jifeng (2017). "Redes convolucionales deformables". arXiv : 1703.06211 [ cs.CV ].
- "Detección de clase de objeto" . Vision.eecs.ucf.edu. Archivado desde el original el 14 de julio de 2013 . Consultado el 9 de octubre de 2013 .
- "ETHZ - Computer Vision Lab: Publicaciones" . Vision.ee.ethz.ch. Archivado desde el original el 3 de junio de 2013 . Consultado el 9 de octubre de 2013 .
enlaces externos
- Detección de clases de objetos múltiples
- Localización de acciones espacio-temporales
- Detección y co-segmentación de objetos de video