Un scientifique développe un algorithme de reconnaissance d’image qui fonctionne 40% plus vite que les analogues

reconnaissance

Crédit: CC0 Public Domain

Un scientifique de l’Université HSE a développé un algorithme de reconnaissance d’image qui fonctionne 40% plus rapidement que les analogues. Il peut accélérer le traitement en temps réel des systèmes de reconnaissance d’images basés sur la vidéo. Les résultats de l’étude ont été publiés dans la revue Sciences de l’information.

Les réseaux de neurones convolutifs (CNN), qui comprennent une séquence de couches convolutives, sont largement utilisés en vision par ordinateur. Chaque couche d’un réseau a une entrée et une sortie. La description numérique de l’image va à l’entrée de la première couche et est convertie en un ensemble différent de nombres à la sortie. Le résultat va à l’entrée du calque suivant et ainsi de suite jusqu’à ce que l’étiquette de classe de l’objet dans l’image soit prédite dans le dernier calque. Par exemple, cette classe peut être une personne, un chat ou une chaise. Pour cela, un CNN est formé sur un ensemble d’images avec une étiquette de classe connue. Plus le nombre et la variabilité des images de chaque classe de l’ensemble de données sont élevés, plus le réseau formé sera précis.

S’il n’y a que quelques exemples dans l’ensemble d’apprentissage, l’entraînement supplémentaire (réglage fin) du réseau neuronal est utilisé. CNN est formé pour reconnaître les images d’un ensemble de données similaire qui résout le problème d’origine. Par exemple, lorsqu’un réseau de neurones apprend à reconnaître des visages ou leurs attributs (émotions, sexe, âge), il est préalablement formé pour identifier les célébrités à partir de leurs photos. Le réseau neuronal résultant est ensuite affiné sur le petit ensemble de données disponible pour identifier les visages de la famille ou des proches dans les systèmes de vidéosurveillance à domicile. Plus il y a de profondeur (nombre) de couches dans un CNN, plus il prédit avec précision le type d’objet dans l’image. Cependant, si le nombre de couches est augmenté, il faut plus de temps pour reconnaître les objets.

L’auteur de l’étude, le professeur Andrey Savchenko du campus HSE de Nizhny Novgorod, a pu accélérer le travail d’un réseau neuronal convolutif pré-formé avec une architecture arbitraire, composé de 90 à 780 couches dans ses expériences. Le résultat a été une augmentation de la vitesse de reconnaissance jusqu’à 40%, tout en contrôlant la perte de précision à pas plus de 0,5-1%. Le scientifique s’est appuyé sur des méthodes statistiques telles que l’analyse séquentielle et les comparaisons multiples (tests d’hypothèses multiples).

« La décision concernant le problème de reconnaissance d’image est prise par un classificateur – un algorithme mathématique spécial qui reçoit un tableau de nombres (caractéristiques / imbrications d’une image) en entrée et produit une prédiction sur la classe à laquelle l’image appartient. Le classificateur peut être appliqué en lui alimentant les sorties de n’importe quelle couche du réseau neuronal.Pour reconnaître des images «simples», le classifieur n’a besoin que d’analyser les données (sorties) des premières couches du réseau neuronal.

Inutile de perdre plus de temps si nous sommes déjà confiants dans la fiabilité de la décision prise. Pour les images «complexes», les premières couches ne sont manifestement pas suffisantes – vous devez passer à la suivante. Par conséquent, des classificateurs ont été ajoutés au réseau de neurones en plusieurs couches intermédiaires. En fonction de la complexité de l’image d’entrée, l’algorithme proposé a décidé de poursuivre la reconnaissance ou de la compléter. Puisqu’il est important de contrôler les erreurs dans une telle procédure, j’ai appliqué la théorie des comparaisons multiples: j’ai introduit de nombreuses hypothèses, à quelle couche intermédiaire s’arrêter, et j’ai testé séquentiellement ces hypothèses », a expliqué le professeur Savchenko.

Si le premier classificateur a déjà produit une décision considérée comme fiable par la procédure de test d’hypothèses multiples, l’algorithme s’est arrêté. Si la décision était déclarée non fiable, les calculs dans le réseau neuronal se poursuivaient jusqu’à la couche intermédiaire et le contrôle de fiabilité était répété.

Comme le note le scientifique, les décisions les plus précises sont obtenues pour les sorties des dernières couches du réseau neuronal. Les premières sorties réseau sont classées beaucoup plus rapidement, ce qui signifie qu’il est nécessaire de former simultanément tous les classificateurs afin d’accélérer la reconnaissance tout en contrôlant la perte de précision. Par exemple, pour que l’erreur due à un arrêt antérieur ne dépasse pas 1%.

« La haute précision est toujours importante pour la reconnaissance d’image. Par exemple, si une décision dans les systèmes de reconnaissance faciale est prise de manière incorrecte, alors soit quelqu’un de l’extérieur peut accéder à des informations confidentielles, soit à l’inverse l’utilisateur se verra refuser l’accès à plusieurs reprises, car le réseau neuronal ne peut pas identifier La vitesse peut parfois être sacrifiée, mais c’est important, par exemple, dans les systèmes de vidéosurveillance, où il est hautement souhaitable de prendre des décisions en temps réel, c’est-à-dire pas plus de 20 à 30 millisecondes par image. Reconnaître un objet dans une image vidéo ici et maintenant, il est très important d’agir rapidement, sans perdre en précision », a déclaré le professeur Savchenko.


Les réseaux de neurones ont appris à reconnaître des objets similaires sur des vidéos sans dégradation de la précision


Plus d’information:
AV Savchenko, inférence rapide dans les réseaux de neurones convolutifs basés sur des décisions séquentielles à trois voies, Sciences de l’information (2021). DOI: 10.1016/j.ins.2021.01.068

Fourni par l’École supérieure d’économie de l’Université nationale de recherche

Citation: Un scientifique développe un algorithme de reconnaissance d’image qui fonctionne 40% plus rapidement que les analogues (2021, 11 mai) récupéré le 11 mai 2021 sur https://techxplore.com/news/2021-05-scientist-image-recognition-algorithm-faster.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.