Un drone autonome, piloté par une intelligence artificielle, a surclassé pour la première fois des champions de course de drones, selon une étude publiée dans la revue Nature mercredi 30 août 2023, ouvrant la voie à une optimisation de systèmes utilisés dans les voitures autonomes ou les robots industriels.
J’étais si proche du drone autonome que je pouvais sentir ses turbulences en essayant de ne pas le lâcher », a dit dans l’étude Alex Vanover, un des trois champions de la discipline recrutés par le Groupe de robotique et perception à l’Université de Zurich pour affronter leur champion.
La course s’est tenue sur un circuit de 75 mètres composé de sept portes, -de grands cadres bleus à franchir dans un certain ordre-, et sur trois tours. Avec des machines atteignant aisément 100 km/heure et des accélérations qui laisseraient loin derrière une F1, tout en négociant des virages à 180 degrés. Munis du casque transmettant les images de leur drone pour son pilotage, les trois hommes dont un ex-champion du monde de la Drone racing league, ont eu une semaine pour s’entraîner.
Le drone autonome a remporté une majorité de ses courses contre chacun d’entre eux, et effectué le tour le plus rapide du circuit. C’est la première fois qu’« un robot autonome mobile atteint une performance au niveau d’un champion du monde dans un sport de compétition dans le monde réel », selon l’étude publiée dans la revue scientifique Nature.
Des drones avaient bien atteint un niveau « expert », mais avec l’aide d’un système extérieur de capture de mouvement optimisant leur trajectoire. Un avantage « injuste » pour l’équipe de Zurich qui présente Swift, un système complètement autonome, embarquant ses seuls capteurs et sa puissance de calcul à bord du drone.
« Swift corrige sa course en temps réel, en envoyant 100 nouvelles commandes par seconde au drone », explique à l’AFP Elia Kaufmann, premier auteur de l’étude et encore doctorant au moment de sa rédaction. Le secret de Swift repose sur une technique dite d’apprentissage par renforcement profond (« deep reinforcement learning », ndlr), qui combine le traitement d’un très grand nombre de données à l’observation de règles récompensant les progrès de la machine.
Eviter un crash
Le système a testé des millions de trajectoires combinant la perception de son environnement et sa progression vers la porte suivante. Une simulation en accéléré : « Swift s’est entraîné sur l’équivalent d’environ un mois de temps réel, mais en accéléré, c’est-à-dire en une heure sur un ordinateur de bureau », a dit M. Kaufmann.
Cette méthode d’apprentissage est au cœur de programmes capables d’affronter un maître du jeu de Go ou d’échecs, ou encore un pro de jeux vidéo tels que StarCraft ou Gran Turismo. Mais hors du monde virtuel, l’humain restait jusqu’ici maître de la course.
La machine bénéficie d’avantages inhérents, comme une centrale inertielle embarquée qui lui restitue des informations comme l’accélération, que le pilote humain ne peut ressentir sans embarquer sur son drone. Autre avantage, un temps de réaction cinq fois plus rapide à une commande que celle reçue par un cerveau humain.
A ce stade, l’humain conserve un avantage dans un environnement dégradé, avec par exemple des changements d’éclairage que Swift pourrait avoir du mal à prendre en compte. L’humain tient compte aussi de son avance éventuelle sur son adversaire pour ralentir un peu afin d’éviter un crash. La machine elle, va toujours à fond « en prenant potentiellement trop de risque tout en étant en tête », remarque l’étude.
L’impact de ces travaux s’étend au-delà des courses de drones, remarque Guido de Croon, expert du sujet et professeur à l’Université technologique néerlandaise de Delft, dans un commentaire accompagnant l’étude dans Nature. Les avancées dans ce domaine intéressent au plus haut point les militaires, selon lui, mais « ont une étendue d’applications beaucoup plus larges ». En facilitant des « missions plus fluides, rapides et de plus grande autonomie ».
Pour Elia Kaufmann, qui travaille aujourd’hui comme ingénieur dans une société de drones destinés à l’industrie, l’enjeu est de répondre à « une faiblesse inhérente aux drones autonomes: une autonomie de vol très limitée ».
L’approche retenue avec Swift, « qui permet de replanifier des actions en temps réel sans besoin de recalculer une trajectoire », permettrait ainsi une navigation plus efficace, et donc plus économe en énergie.
AFP