Sur des milliers de sites internet, les données des formulaires sont collectées avant même de cliquer sur « envoyer »

Une équipe de chercheurs en informatique a découvert que des milliers de sites web exfiltrent des e-mails d’internautes à partir de leurs pages de prise de contact. Les données sont collectées avant même que les visiteurs cliquent sur « envoyer ».

C’est les vacances, vous réservez une chambre dans un hôtel de la chaîne Marriott via Internet. Vous allez sur le site, trouvez la page de réservation et commencez à remplir le formulaire. Vos nom, prénom, e-mail… et puis bon, Marriott, c’est un peu cher. Vous vous dites qu’un camping suffira bien, avant d’abandonner la procédure de réservation et de quitter le site Marriott.com. Or, alors même que vous n’avez rien validé, que vous pensez n’avoir envoyé aucune donnée, votre e-mail a été collecté par le simple fait que vous l’avez saisi dans le formulaire en ligne !

Une équipe de quatre chercheurs spécialistes en informatique et confidentialité à l’université Radboud de Nimègue aux Pays-Bas, à la KU Leuven (Louvain) en Belgique et à l’Ecole polytechnique fédérale de Lausanne (Suisse) ont exposé cette découverte lors du colloque Usenix Securiy de Boston, entre les 10 et 12 août 2022.

Collecte par des sociétés tierces

En scrutant le comportement des pages de saisie de coordonnées sur pas moins de 100.000 sites internet parmi les plus en vue en Europe et aux Etats-Unis (sites d’hôtelleries, de médias, de commerce en ligne…), ils ont constaté que des milliers d’entre eux récupèrent des données personnelles avant que l’internaute ait cliqué sur « envoyer » : 1.844 sites européens et 2.950 côté web américain. Et évidemment, sans que l’internaute ait donné un quelconque accord pour cela.

Pour être exact, la collecte n’est pas effectuée par les sites eux-mêmes mais par les sociétés tierces spécialisées dans le ciblage marketing et publicitaire et dont les « trackers » prolifèrent partout sur le web. Des sociétés comme Taboola, Adroll, AddThis, SaleCycle, FullStory ou encore, plus connues, Criteo, Facebook (qui capte notamment les numéros de téléphone) ou Yahoo.

On parle là des e-mails, sous forme hashée (cryptée) ou non, des noms ou des numéros de téléphone. Ce n’est pas tout : sur 52 sites, même les mots de passe sont récupérés, toujours avant validation. Dans ce dernier cas, les chercheurs ont aussitôt averti les sites concernés qui ont corrigé ce qui tient plus de l’opacité que du bug technique.
L’e-mail, une cible privilégiée

Parfois, les données sont exfiltrées quand le formulaire est complet mais n’a pas été validé ; dans d’autres cas, il suffit qu’un champ soit rempli et que le visiteur passe à la ligne suivante pour que la donnée fuite ; ou, encore, dès qu’un caractère a été tapé, il y a collecte !

Pour Asuman Senol, doctorante à la KU Leuven spécialiste de question de traçage en ligne et coauteur de cette étude, l’annonce de Google de mettre fin aux cookies tiers dans Chrome d’ici 2023 (des trackers qui permettent actuellement à un site de suivre un internaute partout où il va sur Internet) et la recherche d’une donnée d’identité stable font de l’e-mail une cible privilégiée.

En revanche, la responsabilité des sites sur lesquels a lieu cette fuite via les formulaires de contacts est loin d’être évidente. « Les sites web intègrent des scripts tiers pour diverses raisons : analyse de trafic, marketing, authentification… Dans certains cas, les développeurs ne savent pas exactement quel type de données récupèrent des sociétés tierces », estime la chercheuse. D’ailleurs, le cas spécifique de la collecte des mots de passe est accidentel, dû essentiellement à un bout de code présent dans l’infrastructure de développement React et utilisé par Yandex Metrica (un service d’analyse web gratuit).

Un « inspecteur de fuite »

Quoi qu’il en soit, face à ces découvertes, l’équipe s’est aussi rendue compte qu’il n’existait aucune « contre-mesure permettant de détecter les tentatives d’exfiltration [de données personnelles]« , indique l’article de recherche. Elle a donc développé une extension de navigateur dédiée à cette tâche, appelée Leak Inspector (littéralement, inspecteur de fuite), pour que les développeurs voient ce qui se passe sur les sites qu’ils créent en utilisant des briques technologiques toute prêtes. Elle est encore très expérimentale et son code est libre et ouvert, destiné à être amélioré. Leak Inspector n’est par exemple pour l’instant pas comptable avec les navigateurs Firefox et Chrome.

sciencesetavenir

You may like