Les dernières News

Rechercher
Fermer ce champ de recherche.

L’IA pourrait changer la façon dont les aveugles voient le monde

business_gpt4_ai_google_glass_blind.jpg
L’IA pourrait changer la façon dont les aveugles voient le monde

Des assistants IA révolutionnent l’expérience visuelle des personnes malvoyantes

Pour célébrer son 38e anniversaire, Chela Robles et sa famille ont choisi de se rendre à One House, sa boulangerie préférée à Benicia, en Californie. Après avoir savouré un sandwich à la poitrine et des brownies, au retour en voiture, Chela a tapoté un petit écran tactile sur sa tempe pour obtenir une description du monde extérieur. À travers ses Google Glass, la réponse est apparue : « Un ciel nuageux ».

À l’âge de 28 ans, Chela a perdu la vue dans son œil gauche, puis un an plus tard, dans son œil droit. Elle explique que la cécité lui fait perdre de précieux détails qui favorisent les connexions sociales, tels que les expressions faciales et les signaux visuels. Par exemple, son père aime raconter des blagues sèches, et elle a du mal à savoir quand il est sérieux. Elle souligne : « Si une image peut valoir mille mots, imaginez combien de mots une expression peut transmettre ».

Des assistants IA pour les personnes malvoyantes

Chela a essayé divers services lui permettant d’obtenir de l’aide de personnes voyantes par le passé. Cependant, en avril, elle a décidé de participer à un essai avec Ask Envision, un assistant IA utilisant GPT-4 d’OpenAI. Ce modèle multimodal accepte à la fois des images et du texte pour générer des réponses conversationnelles. Ask Envision fait partie des nombreux produits d’assistance qui permettent aux personnes malvoyantes d’accéder à des modèles de langage, leur offrant ainsi plus de détails visuels sur le monde qui les entoure et une plus grande indépendance.

A lire aussi  Avraham Eisenberg reconnu coupable d'exploitation de 110 millions de dollars sur les marchés de mangues

Envision a été lancée en tant qu’application pour smartphone en 2018, permettant aux utilisateurs de lire du texte sur des photos. Au début de 2021, elle est également devenue disponible sur Google Glass. Plus récemment, la société a commencé à tester un modèle conversationnel open source, puis a intégré GPT-4 d’OpenAI pour les descriptions image-texte.

Be My Eyes, une application qui existe depuis 12 ans et aide les utilisateurs à identifier les objets qui les entourent, a également adopté GPT-4 en mars. Microsoft, un investisseur majeur d’OpenAI, a commencé à tester l’intégration de GPT-4 dans son service SeeingAI, offrant des fonctionnalités similaires, selon Sarah Bird, responsable de l’IA chez Microsoft.

Un accès amélioré à l’information visuelle

Dans sa version précédente, Envision lisait le texte d’une image du début à la fin. Désormais, l’application est capable de résumer le contenu textuel d’une photo et de répondre aux questions de suivi. Ainsi, Ask Envision peut lire un menu et répondre à des questions telles que les prix, les restrictions alimentaires et les options de desserts.

Richard Beardsley, un autre testeur précoce d’Ask Envision, utilisegénéralement le service pour des tâches telles que la recherche d’informations de contact sur une facture ou la lecture des listes d’ingrédients sur des emballages alimentaires. Grâce à l’option mains libres offerte par Google Glass, il peut utiliser l’assistant tout en tenant la laisse de son chien-guide et une canne. Il explique : « Auparavant, il était impossible d’accéder à une partie spécifique du texte. Maintenant, cela rend vraiment la vie beaucoup plus facile, car vous pouvez accéder directement à ce que vous recherchez. »

A lire aussi  À mesure que la popularité du Dogecoin et des autres pièces Meme diminue, les cryptos IA sont-ils la prochaine grande nouveauté ?

Sina Bahram, une informaticienne aveugle et consultante spécialisée dans l’accessibilité et l’inclusion pour des musées, des parcs à thème et des entreprises technologiques telles que Google et Microsoft, affirme que l’intégration de l’IA dans les produits de vision peut avoir un impact profond sur les utilisateurs. Elle utilise Be My Eyes avec GPT-4 et souligne que le grand modèle de langage fait une différence « d’un ordre de grandeur » par rapport aux générations précédentes de technologies, grâce à ses capacités et à sa facilité d’utilisation, sans nécessiter de compétences techniques particulières.

Récemment, lorsqu’elle marchait dans les rues de New York avec son associé, celui-ci s’est arrêté pour observer quelque chose de plus près. Sina a utilisé Be My Eyes avec GPT-4 pour apprendre qu’il s’agissait d’une collection d’autocollants, certains caricaturaux, avec du texte et des graffitis. Selon elle, ce niveau d’information était « inexistant il y a un an en dehors du laboratoire ». Elle conclut en affirmant : « C’était tout simplement impossible ».

Nos autres articles
Technologie