banner
Maison / Blog / Les transformateurs de la vision surmontent les défis avec le nouveau "patch"
Blog

Les transformateurs de la vision surmontent les défis avec le nouveau "patch"

Dec 17, 2023Dec 17, 2023

Publié

sur

Par

Les technologies d'intelligence artificielle (IA), en particulier les transformateurs de vision (ViT), se sont révélées extrêmement prometteuses dans leur capacité à identifier et à catégoriser les objets dans les images. Cependant, leur application pratique a été limitée par deux défis importants : les exigences élevées en matière de puissance de calcul et le manque de transparence dans la prise de décision. Aujourd'hui, un groupe de chercheurs a développé une solution révolutionnaire : une nouvelle méthodologie connue sous le nom de "Patch-to-Cluster attention" (PaCa). PaCa vise à améliorer les capacités des ViT en matière d'identification, de classification et de segmentation des objets d'image, tout en résolvant simultanément les problèmes de longue date des exigences informatiques et de la clarté de la prise de décision.

Les transformateurs, en raison de leurs capacités supérieures, font partie des modèles les plus influents du monde de l'IA. La puissance de ces modèles a été étendue aux données visuelles grâce aux ViT, une classe de transformateurs entraînés avec des entrées visuelles. Malgré l'énorme potentiel offert par les ViTs dans l'interprétation et la compréhension des images, ils ont été freinés par quelques problèmes majeurs.

Premièrement, en raison de la nature des images contenant de grandes quantités de données, les ViT nécessitent une puissance de calcul et une mémoire importantes. Cette complexité peut être écrasante pour de nombreux systèmes, en particulier lors de la manipulation d'images haute résolution. Deuxièmement, le processus décisionnel au sein des ViT est souvent compliqué et opaque. Les utilisateurs ont du mal à comprendre comment les ViTs différencient les différents objets ou caractéristiques d'une image, ce qui est crucial pour de nombreuses applications.

Cependant, la méthodologie innovante PaCa offre une solution à ces deux défis. "Nous relevons le défi lié aux demandes de calcul et de mémoire en utilisant des techniques de clustering, qui permettent à l'architecture du transformateur de mieux identifier et se concentrer sur les objets d'une image", explique Tianfu Wu, auteur correspondant d'un article sur le travail et professeur agrégé de Génie électrique et informatique à l'Université d'État de Caroline du Nord.

L'utilisation de techniques de clustering dans PaCa réduit considérablement les exigences de calcul, transformant le problème d'un processus quadratique en un problème linéaire gérable. Wu explique en outre le processus : "En regroupant, nous sommes en mesure d'en faire un processus linéaire, où chaque unité plus petite n'a besoin d'être comparée qu'à un nombre prédéterminé de clusters."

Le regroupement sert également à clarifier le processus de prise de décision dans les ViT. Le processus de formation des clusters révèle comment le ViT décide quelles caractéristiques sont importantes pour regrouper les sections des données d'image. Comme l'IA ne crée qu'un nombre limité de clusters, les utilisateurs peuvent facilement comprendre et examiner le processus de prise de décision, améliorant considérablement l'interprétabilité du modèle.

Grâce à des tests complets, les chercheurs ont découvert que la méthodologie PaCa surpasse les autres ViT sur plusieurs fronts. Wu précise : "Nous avons constaté que PaCa surpassait SWin et PVT à tous points de vue." Le processus de test a révélé que PaCa excellait dans la classification et l'identification des objets dans les images et la segmentation, décrivant efficacement les limites des objets dans les images. De plus, il s'est avéré plus efficace en termes de temps, exécutant les tâches plus rapidement que les autres ViT.

Encouragée par le succès de PaCa, l'équipe de recherche vise à poursuivre son développement en le formant sur de plus grands ensembles de données fondamentales. Ce faisant, ils espèrent repousser les limites de ce qui est actuellement possible avec l'IA basée sur l'image.

Le document de recherche, "PaCa-ViT : Apprentissage de l'attention patch-à-cluster dans les transformateurs de vision", sera présenté lors de la prochaine conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes. Il s'agit d'une étape importante qui pourrait ouvrir la voie à des systèmes d'IA plus efficaces, transparents et accessibles.

Les leaders technologiques soulignent les risques de l'IA et l'urgence d'une réglementation robuste de l'IA

Alex McFarland est un écrivain basé au Brésil qui couvre les derniers développements de l'intelligence artificielle. Il a travaillé avec les meilleures entreprises et publications d'IA à travers le monde.

Segment Anything Model - La vision par ordinateur reçoit un coup de pouce massif

5 applications de vision par ordinateur en 2022

Séparer les humains « fusionnés » dans la vision par ordinateur

Utilisation de l'IA pour résumer de longues vidéos "Comment faire"

Des chercheurs développent un système de vision artificielle amphibie

Diagnostiquer les troubles de santé mentale grâce à l'évaluation de l'expression faciale de l'IA