Des drones intelligents pour retrouver des personnes disparues

La méthode de l’apprentissage par renforcement sert à générer des cartes orientant les recherches d’un drone équipé d’une caméra. La méthode a été testée en simulation.

Des randonneurs, des chasseurs, des pêcheurs qui se perdent en pleine nature, cela arrive, et la solution la plus connue consiste à envoyer un hélicoptère pour mener les recherches. Mais le dispositif est lourd et prend du temps, dans une situation où chaque minute compte.

D’où le recours à des drones dotés de caméra.

Une équipe en sciences aérospatiales de l’université de Glasgow (Grande-Bretagne) a conçu une solution combinant un drone et un algorithme d’apprentissage automatique capable de générer des trajectoires probables empruntées par la personne disparue. Ce qui a pour objectif d’orienter plus précisément les zones où envoyer l’appareil.

Une méthode particulière de l’apprentissage automatique est sollicitée ici : l’apprentissage par renforcement, par laquelle l’algorithme n’apprend pas à partir d’exemples tirés d’une base de données mais à partir d’un procédé par essai-erreur. Il se comporte aléatoirement mais reçoit un signal de récompense lorsqu’il fait un bon choix. En l’occurrence, ici, concernant ses déplacements. Le projet est détaillé dans un article de mai 2024 diffusé sur la plateforme Arxiv en preprint.

Des drones pour lancer plus vite les recherches
Ce travail a été effectué avec pour référence le cas de l’Ecosse, où les équipes de police secours ou le Scottish Mountain Rescue (secours en montagne écossais) disposent de flottes de drones en plus de leurs hélicoptères. Les premiers n’ont pas vocation à remplacer les seconds, ne serait-ce que parce qu’un hélicoptère peut, lui, hisser à son bord et transporter une personne après l’avoir retrouvée.

Les drones permettent de lancer plus vite les recherches. Mais un usage efficace, précisent les chercheurs dans leur article, nécessitent « une planification minutieuse ».

L’équipe a utilisé un algorithme d’apprentissage par renforcement appelé SAC (« Soft Actor Critic »). Le mécanisme de récompense consiste à signaler à l’algorithme que son mode d’exploration est conforme aux limites de la zone de recherche définie au départ ; à l’inverse, une fonction de pénalité lui sert à corriger le tir si son comportement est incohérent ou si le vol s’attarde sur des endroits déjà explorés et ayant déjà procuré une récompense (l’algorithme cherchant automatiquement à maximiser ses dernières).

L’idée étant d’arriver à ce que les chercheurs appellent un « compromis entre exploration et exploitation ».

Les expérimentations n’ont pas été menées sur le terrain, avec un vrai drone, mais en environnement simulé. C’est la pratique habituelle en apprentissage par renforcement tant cette méthode serait chronophage et exigerait des manipulations en conditions réelles (sans compter les dommages possibles causés au drone).

Les scénarios de disparition sont rejoués en simulation
L’équipe a donc encodé dans un scénario des données relatives à des cas réels de personnes perdues dans la nature. « Nous disposons de bons corpus de données qui répartissent les cas par âge, genre, activité ou d’autres éléments (l’état mental par exemple), explique Jan-Hendrik Ewers, doctorant de l’université de Glasgow coauteur de l’étude, tout ce qui peut nous renseigner sur la manière dont a pu se comporter la personne ».

Ces données viennent de la base internationale ISRID et d’une étude sur le comportement des personnes perdues au Royaume-Uni.

Toutefois, l’équipe n’avait pas à disposition d’informations sur la météo et l’heure à la laquelle la personne s’est égarée. « Ce manque de données est l’une des limites clefs du projet », reconnaît Jan-Hendrik Ewers.

Quoi qu’il en soit, à partir de ces éléments, les scénarios de disparition sont rejoués en simulation.

L’algorithme de déplacement du drone est lancé, récompensé ou pénalisé selon ses choix de trajectoire. Une fois l’apprentissage terminé, il est capable de générer des cartes cohérentes, avec des trajectoires possibles empruntées par la personne à retrouver et que le pilote du drone pourra alors aller survoler. En situation réelle, l’intérêt de la méthode est le gain de temps : « La carte est générée tandis que le pilote est en chemin pour la zone d’exploration avant de lancer le drone. »

Des mouvements de « tondeuse »
Les performances de l’algorithme ont été comparées à celles de deux autres utilisés dans des missions de recherche. L’un fait décrire au drone des mouvements dits de « tondeuse », c’est-à-dire qu’il explore des bandes parallèles et contigües de terrain ; l’autre est aussi basé sur l’apprentissage par renforcement.

En simulation, la solution des chercheurs écossais s’avère être la meilleure.

D’abord, la personne disparue est retrouvée dans 19% des cas contre 7,77% % et 12%. Ensuite, la distance moyenne entre le lieu où le drone estime avoir repéré la personne et l’endroit où elle se trouve vraiment est aussi nettement plus réduite avec la nouvelle solution : 239 mètres au lieu de 249 et 282,6 mètres.

Mais l’équipe prévient : il existe encore de sérieuses limites à leur technique. La simulation concernait un terrain plat, sans variation d’altitude. L’angle de vue restreint de la caméra et l’altitude fixe de vol du drone (un des paramètres de la simulation) causent des angles morts. Et, bien sûr, des expérimentations en conditions réelles s’imposeront à un moment ou à un autre pour faire face à toute la complexité du terrain.

scienceetavenir

You may like