Le 25 mars 2015 s’est tenu dans les locaux de Telecom ParisTech le colloque Données et Sécurité organisé par Daniel Ventre et Daniel Kofman. La question du partage, de la protection, du négoce et de la sécurité des données est un sujet de préoccupation majeur de nos jours si l’on en juge par le nombre de conférences et de publications qui s’y rapportent, auxquelles j’ai d’ailleurs contribué ici et là. Sans avoir la prétention de faire ici un compte-rendu complet de cette journée assez dense, dont j’espère que les actes seront publiés en ligne, voici quelques notes sur certaines interventions.
Les mégadonnées utiles contre le terrorisme ?
Une industrie française des mégadonnées ?
Du virtuel au vulnérable (Jérôme Lèbre)
Il est toujours stimulant, dans un colloque de spécialistes, d’entendre la contribution d’un chercheur venu d’un horizon totalement différent. Ainsi lors des premières Assises de la souveraineté numérique, en mai 2014, la philosophe Blandine Kriegel était venue nous expliquer la naissance et l’évolution de la notion de souveraineté, et les différences de points de vue entre différentes traditions nationales : ce cours n’était pas inutile, loin de là ! Cette année Jérôme Lèbre, membre du Collège international de philosophie, lors de ce colloque Données et Sécurité, invitait les auditeurs à s’interroger sur le terme « virtuel », mis aujourd’hui à toutes les sauces, exercice également salubre.
Je n’aurais garde de résumer une intervention aussi dense et savante, je retiendrai seulement que « la psychose n’est pas le rejet du réel, mais se laisser submerger par lui », et que le psychotique essaie de se soigner par les jeux vidéo. Et aussi une idée dont on voit bien à quoi elle correspond dans le contexte de la dissuasion nucléaire, mais dont l’application aux conflits dans le cyberespace demanderait une réflexion dont les bases sont encore à trouver : plutôt que l’attaque, la meilleure défense serait « l’offensive virtuelle ».
Ce que disent les métadonnées (Thierry Berthier)
Thierry Berthier, en bon mathématicien, nous a livré une approche quantitative (mais pas seulement) des métadonnées. En attendant la mise en ligne de sa communication (désormais ici), vous pouvez lire sur un sujet similaire ses articles Projections algorithmiques et illusion d’anonymat et Projections algorithmiques et villes ubiquitaires. Et, comme souvent, les chiffres révèlent sous une lumière crue des choses que nous savions de façon nébuleuse sur les métadonnées : « le concept de projection algorithmique a été introduit en 2013 pour décrire la production de données et de métadonnées résultant des interactions d’un opérateur humain avec les systèmes qui l’entourent. Par son formalisme élémentaire, il permet de généraliser la notion floue de traces numériques produites volontairement ou non par un individu. Prenons l’exemple d’un message Twitter rédigé par un utilisateur du réseau social. Son auteur croit n’émettre que 140 signes et être donc en mesure de les contrôler. Toutefois, plus de 4000 signes sont réellement envoyés. La différence tient à l’ensemble des métadonnées qui accompagne chaque message (compte de l’émetteur, adresse IP, date et lieu d’émission, etc.). Encore s’agit-il là d’une démarche volontaire de l’individu, d’une émission consciente. Mais chaque fois que l’individu traverse la ville, il passe sous l’œil intrusif de caméras de surveillance, franchit le tourniquet du métro, met en œuvre de multiples senseurs qui comptabilisent son activité. Une part toujours plus grande de ses actes est ainsi captée par un système d’observation qui agrandit, sans qu’il en ait conscience, sa projection algorithmique. Ainsi, la projection algorithmique d’un individu donné est bien plus importante que ce qu’il croit émettre par ses usages conscients... »
Les articles proposent une formalisation de la distinction entre métadonnées introduites volontairement par l’utilisateur du système (comme l’adresse du destinataire de son message électronique) et métadonnées introduites silencieusement par le système (données de géolocalisation par exemple). Suit une discussion de la propension de l’utilisateur à accepter cet ajout de métadonnées par le système, et de sa mesure. Les enquêtes menées auprès des utilisateurs dans différents pays montrent que cette propension à accepter est généralement élevée, et qu’il y a même une forte demande du public (par exemple, en Corée du Sud, des parents pour que les traces des activités de leurs enfants soient collectées). La France est le pays dont la population semble la plus rétive à cette collecte de données qui s’apparente à de la surveillance.
Au cœur du Bertillonnage : collecte des données et nouvelles logiques policières (Pierre Piazza)
Cet exposé retraçait de façon passionnante un épisode grandiose de la surveillance policière : l’invention par Alphonse Bertillon de l’anthropométrie judiciaire. A priori cela pourrait sembler assez éloigné des préoccupations contemporaines, et pourtant... Je m’écarte ici de l’exposé de Pierre Piazza pour voir dans cet exemple comment la scientificité proclamée d’une méthode policière ne prémunit en rien contre son détournement partisan : alors qu’une expertise graphologique avait établi que le bordereau produit à charge pour accuser le capitaine Dreyfus n’avait pas été écrit de sa main, la partie adverse demanda une contre-expertise, confiée à Bertillon. Selon Wikipédia, celui-ci, convaincu de la culpabilité de Dreyfus et peut-être influencé par l’État-Major, aurait arrangé ses analyses pour conclure à la culpabilité de Dreyfus. Les mathématiciens Jacques Hadamard et Henri Poincaré, toujours selon Wikipédia, établiront la fausseté des analyses de Bertillon.
Cartographie prédictive : Problématiques, état de l’art, enjeux, l’exemple de Map Revelation (Christophe Courtois)
Le logiciel Map Revelation est utilisé par divers services du Ministère de l’Intérieur pour améliorer l’efficacité des forces de police, notamment dans la prévention et la répression des délits de voie publique. Il s’agit de combiner la compilation de statistiques sur les délits du passé avec des algorithmes d’apprentissage pour orienter les actions de patrouille et de surveillance de la police.
La cartographie prédictive est souvent l’objet de fantasmes et de défiance. Tandis que les outils de machine learning cherchent à comprendre Qui ou Pourquoi, la cartographie prédictive se concentre sur l’angle Où et Quand, ce qui est moins spectaculaire mais plus réaliste, pose moins de défis à la protection des libertés individuelles, et donne des résultats encourageants. Les cartes montrées par l’orateur permettent aux policiers de voir, pour tel jour à telle heure, quelles sont les zones à risque pour tel type de délit, ce qui permet d’y diriger les patrouilles de surveillance.
Combinée avec la collecte de données de géolocalisation des téléphones, ce système permet de repérer et de suivre les déplacements d’un délinquant identifié par sa présence renouvelée sur le lieu et à l’heure de délits successifs, de connaître ses habitudes et éventuellement de l’appréhender en flagrant délit.