Apple a imaginé une technologie qui permettrait à Siri de lire sur les lèvres en utilisant non pas des caméras, mais des capteurs de mouvement. Une nouvelle méthode de reconnaissance de la parole qui élimine complètement les problèmes de bruit de fond !
Le brevet d’Apple déposé en janvier de cette année décrit un système permettant de déterminer si les données de mouvement correspondent à un mot ou à une phrase. Au lieu d’utiliser la caméra de l’appareil, le logiciel de reconnaissance vocale utiliserait l’un des capteurs de mouvement du téléphone pour enregistrer les mouvements de la bouche, du cou ou de la tête pour déterminer si l’un d’entre eux pourrait représenter un discours humain.
Une lecture labiale à haute teneur en technologie
Ces capteurs peuvent être un accéléromètre ou un gyroscope, ce qui, selon le brevet, est beaucoup moins susceptible d’être corrompu par des stimuli indésirables qu’un microphone. La technologie pourrait également être intégrée dans des AirPods ou même dans des lunettes intelligentes, envoyant ces données à l’iPhone de l’utilisateur.
En termes d’accessibilité, une telle technologie a de quoi ouvrir les assistants connectés aux personnes souffrant d’un handicap de la voix. Et même pour l’utilisateur lambda de Siri, ce brevet pourrait avoir beaucoup d’intérêt : il est assez largement admis que l’assistant d’Apple a du mal à comprendre ce qu’on lui raconte, alors si cette technologie peut lui permettre de mieux saisir les ordres vocaux, ce serait un plus indéniable…
Pour mettre en place ce genre de système, Apple aurait besoin de beaucoup de données sur la façon dont les êtres humains utilisent leur bouche. La société pourrait établir un profil vocal pour les utilisateurs du système, en utilisant des fonctionnalités telles que Live Speech d’iOS, qui peut enregistrer les profils vocaux des utilisateurs.
Apple mentionne également un premier modèle de langage qui devrait être formé sur des ensembles de données d’échantillons. Il n’est pas clairement établi si cela nécessiterait un modèle d’apprentissage machine, mais il serait logique d’entraîner un modèle d’intelligence artificielle pour reconnaître les mouvements faciaux à partir d’un vaste ensemble de données.
En dépit des rumeurs qui annoncent un retard important d’Apple sur ses concurrents dans le domaine de l’intelligence artificielle générative, ce brevet montre que le constructeur explore activement des moyens d’améliorer la reconnaissance vocale et d’augmenter ses capacités en matière d’IA. L’intégration d’une telle technologie dans les produits d’Apple, comme les AirPods ou un futur casque, pourrait marquer une étape importante dans l’évolution des interfaces utilisateur et de la communication entre l’homme et la machine.
Néanmoins, les détails restent vagues, et il reste à voir comment et quand cette technologie pourrait être déployée. Bien qu’Apple dépose beaucoup de brevets (et tous ne se transforment pas en produits), celui-ci étant récent, il semble contenir un peu plus de substance que certaines des autres idées de la société.
Gizmodo