
RASSAR est une application qui scanne une maison, met en évidence les problèmes d’accessibilité et de sécurité et permet aux utilisateurs de cliquer dessus pour en savoir plus. Crédit : Su et al./ASSETS ’23
La course des Big Tech à la réalité augmentée (RA) devient de jour en jour plus compétitive. Ce mois-ci, Meta a publié la dernière itération de son casque, le Quest 3. Au début de l’année prochaine, Apple prévoit de lancer son premier casque, le Vision Pro. Les annonces de chaque plateforme mettent l’accent sur les jeux et divertissements qui fusionnent les mondes virtuel et physique : un jeu de société numérique imposé sur une table basse, un écran de cinéma projeté au-dessus des sièges d’avion.
Certains chercheurs, cependant, sont plus curieux de connaître d’autres utilisations de la RA. Le Makeability Lab de l’Université de Washington applique ces technologies naissantes pour aider les personnes handicapées. Ce mois-ci, les chercheurs du laboratoire présenteront plusieurs projets qui déploient la RA, via des casques et des applications téléphoniques, pour rendre le monde plus accessible.
Les chercheurs du laboratoire présenteront pour la première fois RASSAR, une application capable d’analyser les maisons pour mettre en évidence les problèmes d’accessibilité et de sécurité, le 23 octobre lors de la conférence ASSETS ’23 à New York.
Peu de temps après, le 30 octobre, d’autres équipes du laboratoire présenteront leurs premières recherches lors de la conférence UIST ’23 à San Francisco. Une application permet aux casques de mieux comprendre le langage naturel et l’autre vise à rendre le tennis et d’autres sports de balle accessibles aux utilisateurs malvoyants.
UW News s’est entretenu avec les auteurs principaux des trois études, Xia Su et Jae (Jaewook) Lee, tous deux doctorants de l’UW à la Paul G. Allen School of Computer Science & Engineering, de leur travail et de l’avenir de la RA pour l’accessibilité.
Qu’est-ce que la RA et comment est-elle généralement utilisée à l’heure actuelle ?
Jae Lee : Je pense qu’une réponse communément acceptée est que vous utilisez un casque portable ou un téléphone pour superposer des objets virtuels dans un environnement physique. Beaucoup de gens connaissent probablement la RA grâce à “Pokémon Go”, où vous superposez ces Pokémon dans le monde physique. Apple et Meta introduisent désormais la « réalité mixte » ou passthrough AR, qui mélange davantage les mondes physique et virtuel via des caméras.
Xia Su : Ce que j’ai également observé ces derniers temps, c’est que les gens essaient d’élargir la définition au-delà des lunettes et des écrans de téléphone. Il peut y avoir de l’audio AR, qui manipule votre audition, ou des appareils essayant de manipuler votre odorat ou votre toucher.
Beaucoup de gens associent la RA à la réalité virtuelle, et cela se résume à une discussion sur le métaverse et les jeux. Comment est-il appliqué pour l’accessibilité ?
JL : La RA en tant que concept existe depuis plusieurs décennies. Mais dans le laboratoire de Jon Froehlich, nous combinons la réalité augmentée et la recherche sur l’accessibilité. Un casque ou un téléphone peuvent être capables de savoir combien de personnes se trouvent devant nous, par exemple. Pour les personnes aveugles ou malvoyantes, ces informations pourraient être essentielles à la manière dont elles perçoivent le monde.
XS : Il existe en réalité deux voies différentes pour la recherche sur l’accessibilité de la RA. La solution la plus répandue consiste à rendre les appareils AR plus accessibles aux gens. L’autre approche, moins courante, consiste à se demander : comment pouvons-nous utiliser la réalité augmentée ou la réalité virtuelle comme outils pour améliorer l’accessibilité du monde réel ? C’est sur cela que nous nous concentrons.
JL : À mesure que les lunettes AR deviennent moins encombrantes et moins chères, et que l’IA et la vision par ordinateur progressent, cette recherche deviendra de plus en plus importante. Mais la RA généralisée, même en matière d’accessibilité, soulève de nombreuses questions. Comment gérez-vous la vie privée des spectateurs ? En tant que société, nous comprenons que la technologie de la vision peut être bénéfique pour les personnes aveugles et malvoyantes. Mais nous pourrions également ne pas vouloir inclure la technologie de reconnaissance faciale dans les applications pour des raisons de confidentialité, même si cela aide quelqu’un à reconnaître ses amis.
Parlons des articles que vous allez sortir. Tout d’abord, pouvez-vous expliquer votre application RASSAR?
XS : Il s’agit d’une application que les gens peuvent utiliser pour analyser leurs espaces intérieurs et les aider à détecter d’éventuels problèmes de sécurité en matière d’accessibilité dans les maisons. C’est possible car certains iPhones disposent désormais de scanners lidar (détection et télémétrie de la lumière) qui indiquent la profondeur d’un espace, afin que nous puissions reconstruire l’espace en 3D. Nous avons combiné cela avec des modèles de vision par ordinateur pour mettre en évidence les moyens d’améliorer la sécurité et l’accessibilité. Pour l’utiliser, quelqu’un (peut-être un parent qui assure la sécurité des enfants dans une maison ou un soignant) scanne une pièce avec son smartphone et RASSAR détecte les problèmes d’accessibilité. Par exemple, si un bureau est trop haut, un bouton rouge apparaîtra sur le bureau. Si l’utilisateur clique sur le bouton, il y aura plus d’informations sur les raisons pour lesquelles la hauteur de ce bureau constitue un problème d’accessibilité et sur les solutions possibles.
JL : Il y a dix ans, il aurait fallu parcourir 60 pages de fichiers PDF pour vérifier entièrement l’accessibilité d’une maison. Nous avons résumé ces informations dans une application.
Et c’est quelque chose que tout le monde pourra télécharger sur son téléphone et utiliser ?
XS : C’est l’objectif final. Nous avons déjà une démo. Cette version s’appuie sur le lidar, qui n’est actuellement disponible que sur certains modèles d’iPhone. Mais si vous possédez un tel appareil, c’est très simple.
JL : C’est un exemple de ces avancées matérielles et logicielles qui nous permettent de créer rapidement des applications. Apple a annoncé RoomPlan, qui crée un plan d’étage 3D d’une pièce, en ajoutant le capteur lidar. Nous l’utilisons dans RASSAR pour comprendre la disposition générale. Pouvoir s’appuyer sur cela nous permet d’aboutir très rapidement à un prototype.
RASSAR est donc presque déployable désormais. Les autres domaines de recherche que vous présentez en sont à un stade plus précoce de leur développement. Pouvez-vous me parler GazePointAR?
JL : Il s’agit d’une application déployée sur un casque AR pour permettre aux gens de parler plus naturellement avec des assistants vocaux comme Siri ou Alexa. Il y a tous ces pronoms que nous utilisons lorsque nous parlons et qui sont difficiles à comprendre pour les ordinateurs sans contexte visuel. Je peux demander « Où l’avez-vous acheté ? » Mais qu’est-ce que c’est”? Un assistant vocal n’a aucune idée de ce dont je parle. Avec GazePointAR, les lunettes observent l’environnement autour de l’utilisateur et l’application suit le regard et les mouvements des mains de l’utilisateur. Le modèle tente ensuite de donner un sens à toutes ces entrées : le mot, les mouvements de la main, le regard de l’utilisateur. Ensuite, à l’aide d’un grand modèle de langage, GPT, il tente de répondre à la question.
Comment détecte-t-il les mouvements ?
JL : Nous utilisons un casque appelé HoloLens 2 développé par Microsoft. Il dispose d’un système de suivi du regard qui surveille vos yeux et essaie de deviner ce que vous regardez. Il dispose également d’une capacité de suivi manuel. Dans un document que nous avons soumis sur cette base, nous avons remarqué que cela nous posait de nombreux problèmes. Par exemple, les gens n’utilisent pas qu’un seul pronom à la fois : nous en utilisons plusieurs. Nous dirons : “Qu’est-ce qui est plus cher, ce ou ce” Pour répondre à cette question, nous avons besoin d’informations au fil du temps. Mais, encore une fois, vous pouvez rencontrer des problèmes de confidentialité si vous souhaitez suivre le regard ou le champ de vision de quelqu’un au fil du temps : quelles informations stockez-vous et où sont-elles stockées ? À mesure que la technologie s’améliore, nous devons certainement faire attention à ces problèmes de confidentialité, notamment en matière de vision par ordinateur.
C’est difficile même pour les humains, n’est-ce pas ? Je peux demander : « Pouvez-vous expliquer cela ? » en pointant plusieurs équations sur un tableau blanc et vous ne saurez pas à laquelle je fais référence. Quelles applications voyez-vous pour cela ?
JL : Pouvoir utiliser le langage naturel serait majeur. Mais si vous étendez cela à l’accessibilité, il est possible qu’une personne aveugle ou malvoyante utilise cela pour décrire ce qui l’entoure. La question « Y a-t-il quelque chose de dangereux devant moi ? est également ambigu pour un assistant vocal. Mais avec GazePointAR, idéalement, le système pourrait dire : « Il y a des objets potentiellement dangereux, tels que des couteaux et des ciseaux. » Ou encore, des personnes malvoyantes peuvent distinguer une forme, la pointer du doigt, puis demander au système de quoi il s’agit plus précisément.
Et enfin, vous travaillez sur un système appelé ARTennis. De quoi s’agit-il et qu’est-ce qui a motivé cette recherche ?
JL : Cela va encore plus loin dans le futur que GazePointAR. ARTennis est un prototype qui utilise un casque AR pour rendre les balles de tennis plus visibles pour les joueurs malvoyants. La balle en jeu est marquée par un point rouge et entourée d’un réticule de flèches vertes. Le professeur Jon Froehlich a un membre de sa famille qui souhaite faire du sport avec ses enfants mais qui n’a pas la vision résiduelle nécessaire pour le faire. Nous avons pensé que si cela fonctionnait pour le tennis, cela fonctionnerait également pour beaucoup d’autres sports, car le tennis a une petite balle qui rétrécit à mesure qu’elle s’éloigne. Si nous pouvons suivre une balle de tennis en temps réel, nous pouvons faire de même avec un ballon de basket plus gros et plus lent.
L’un des co-auteurs de l’article est lui-même malvoyant et joue beaucoup au squash. Il souhaitait essayer cette application et nous faire part de ses commentaires. Nous avons fait de nombreuses séances de brainstorming avec lui et il a testé le système. Le point rouge et le réticule vert sont le design qu’il a imaginé pour améliorer la perception de la profondeur.
Qu’est-ce qui empêche les gens d’utiliser cela immédiatement ?
JL : Eh bien, comme GazePointAR, il s’appuie sur un casque HoloLens 2 qui coûte 3 500 $. C’est donc un problème d’accessibilité différent. Il fonctionne également à environ 25 images par seconde et pour que les humains puissent le percevoir en temps réel, il doit être d’environ 30 images par seconde. Parfois, nous ne pouvons pas capturer la vitesse de la balle de tennis. Nous allons élargir l’article et inclure le basket-ball pour voir s’il existe différents modèles que les gens préfèrent pour différents sports. La technologie deviendra certainement plus rapide. Notre question est donc la suivante : quel sera le meilleur design pour les personnes qui l’utilisent ?
Fourni par l’Université de Washington
Citation: Q&A : Les chercheurs visent à améliorer l’accessibilité grâce à la réalité augmentée (17 octobre 2023) récupéré le 17 octobre 2023 sur https://Testeur Joe.com/news/2023-10-qa-aim-accessibility-augmented-reality.html
Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.