Site WWW de Laurent Bloch
Slogan du site

ISSN 2271-3905
Cliquez ici si vous voulez visiter mon autre site, orienté vers des sujets moins techniques.

Pour recevoir (au plus une fois par semaine) les nouveautés de ce site, indiquez ici votre adresse électronique :

Pour le colloque La donnée n’est pas donnée :
Une industrie française des mégadonnées ?
Article mis en ligne le 23 mai 2015
dernière modification le 28 mars 2016

par Laurent Bloch

Le Centre de Recherches de l’École des Officiers de la Gendarmerie nationale, le Centre d’Enseignement supérieur de la Gendarmerie nationale et Echoradar ont organisé, avec plus particulièrement le concours de Philippe Davadie, de Thierry Berthier et d’Olivier Kempf, le 23 mars 2015 un colloque intitulé « La donnée n’est pas donnée – Stratégie et Big Data ». Ils avaient eu l’amabilité de m’inviter à participer à une des tables rondes, voici à peu près ce que j’y ai raconté.

Une des questions posées lors de cette table ronde portait sur la possibilité de créer une industrie des mégadonnées dans notre pays. L’enjeu est bien sûr crucial dans la mesure où le négoce de ces données en masse n’est pas seulement un secteur en plein essor et déjà très lucratif, mais où la quasi-totalité des autres secteurs de l’économie, de la santé à l’agriculture en passant par les transports, en seront affectés, en bien ou en mal selon leur capacité à s’y adapter.

Le commerce de données et ses acteurs

Les GAFA (Google Apple Facebook Amazon) sont de très grandes entreprises du cyberespace, Apple est la cinquième entreprise américaine par le chiffre d’affaires avec 183 milliards de dollars, juste derrière le géant américain de la grande distribution Wal‑Mart, les pétroliers Exxon-Mobil et Chevron et la société d’investissement de Warren Buffett, Berkshire Hathaway (au classement mondial ils sont au 18ème rang derrière quelques pétroliers chinois et européens, Volkswagen, Toyota, Samsung et d’autres, cf. http://en.wikipedia.org/wiki/List_o...). Google et Amazon sont autour de 60 milliards de dollars.

Les revenus de ces entreprises proviennent en partie (pour Apple et Amazon) ou en quasi-totalité (pour Google et Facebook) de la commercialisation de données secondaires laissées sur leurs sites par les internautes. Chaque recherche sur le site de Google, chaque bavardage sur Facebook, chaque achat sur Amazon engrange dans les greniers électroniques de ces entreprises des informations dites secondaires, éventuellement calculées à partir des méta-données (origine et destination des communications, identité des interlocuteurs, adresses réseau, dates et heures...), relatives à vos goûts, votre résidence, vos fréquentations, etc., qui, dûment anonymisées, agrégées et soumises à des traitements statistiques, seront vendues à des agences publicitaires, des cabinets de marketing, des agences matrimoniales, des opérateurs touristiques, etc. Quant aux données primaires, ce sont la teneur de vos bavardages ou vos messages de blog, que vous aurez fournis gratuitement et qui attireront d’autant plus d’internautes que vous aurez raconté des bêtises et publié des photos scabreuses qui vous nuiront auprès des conjoints et employeurs potentiels pour le reste de votre vie en ce bas monde.

Les données, qui deviennent des informations dès lors qu’elles atteignent un esprit humain et qu’elles le modifient, comme nous l’apprend Gilbert Simondon, sont un bien en réseau, c’est-à-dire que plus elles sont « consommées » (consultées), plus leur valeur s’accroît (des données auxquelles personne n’a accès ont une valeur nulle, elles ne transmettent aucune information). Une donnée, sauf si elle est protégée par un dispositif de contrôle d’accès tel que chiffrement ou tatouage électronique, est un bien non-rival (la consommation du bien par un agent n’a aucun effet sur la quantité disponible de ce bien pour les autres individus) et non-exclusif (une fois que le bien est produit, tout le monde peut en bénéficier), en d’autres termes un bien public (cf. Wikipédia).

Ce commerce de données produites gratuitement par des centaines de millions d’internautes et collectées par les entreprises qui ont créé les plates-formes géantes que sont les sites des GAFA est d’ores et déjà un axe de l’économie mondiale, mais ce n’est qu’un début parce que ce phénomène qui concerne aujourd’hui principalement la publicité et le marketing étend progressivement son influence à tous les secteurs.

La négociation du projet de traité de libre échange transatlantique (TAFTA/TTIP) place ces entreprises géantes de l’industrie des données dans une position à bien des égards analogue à celle des marchands britanniques d’opium qui voulaient imposer au marché chinois la commercialisation de leurs stupéfiants, d’où résultèrent au XIXe siècle les deux guerres de l’opium qui asservirent la Chine, jusqu’alors première puissance économique mondiale. De la même façon, les grands acteurs de l’Internet souhaitent accéder aux divers marchés nationaux sans en accepter les systèmes fiscaux ni en respecter les législations sur la protection des données personnelles, pour y vendre ce qui semble bien être une marchandise addictive.

Il ne faudrait surtout pas croire qu’il ne s’agirait là que de l’activité habile de quelques jeunes gens décontractés autour de deux ou trois ordinateurs dans le garage de leurs parents. Ainsi on a pu lire sous la plume de Charles de Laubier [1] que le prélèvement de 20 % du prix de la course effectué par Uber sur la recette du chauffeur de VTC affilié relevait « du servage », mais le même supplément hebdomadaire que La Tribune a consacré à cette plate-forme d’intermédiation nous apprend quelques pages plus loin qu’Uber emploie 450 développeurs à San Francisco et à Amsterdam, qu’il faut bien rémunérer (sans oublier les autres personnels, par exemple à la hot-line). D’ailleurs ces 20 % sont à comparer aux 33 % des compagnies de taxis traditionnelles.

Uber est une plate-forme d’intermédiation parce qu’au lieu de simplement percevoir un fermage elle conserve, organise et exploite toutes les données qu’elle reçoit sur ses chauffeurs et sur ses clients. Mais c’est encore une petite entreprise comparée aux GAFA. Il faut savoir que Google ou Amazon exploitent chacun des millions de serveurs à la surface de la terre, ils achètent des centrales hydroélectriques pour en assurer le fonctionnement, ils exploitent leurs propres réseaux de fibres optiques transocéaniques. Bref, derrière le commerce éthéré et en apparence immatériel des données il y a une industrie lourde.

On sait que sous le régime de l’économie numérique, que l’on propose de baptiser iconomie, et qui est la concurrence monopolistique, le gagnant ramasse tout : Google ou Facebook disposent d’une telle avance, et partant d’une telle avance financière, qu’il n’est pas possible de créer un concurrent sur le même terrain. Mais si la locution « concurrence monopolistique » évoque la notion de monopole, elle suggère aussi celle de concurrence, parce qu’il est possible de créer une activité dans une niche de marché voisine mais séparée. C’est ainsi qu’Apple, que beaucoup croyaient condamné il y a vingt ans face à Microsoft, a su se réinventer et est aujourd’hui trois fois plus gros que son concurrent.

Que peut-on faire en France, en Europe dans ce domaine ?

Les données publiques seraient un atout si modernes et disponibles

Dans une émission diffusée récemment sur la Web-télé Canal Xerfi Olivier Passet, directeur des synthèses du cabinet Xerfi, déclarait : « Notre comptabilité nationale n’est-elle pas à la veille d’une révolution majeure ? Peut-on entrer dans le monde du Big Data, de la traçabilité de presque tout, sans que nos indicateurs de suivi économiques ne soient profondément remis en cause dans leur contenu comme dans leur process d’élaboration ? » Ainsi la productivité des services est-elle très mal appréhendée : ne sont pris en compte que les coûts destinés à les produire, mais pas la qualité du service rendu, qui a été démultipliée par l’informatisation.

Pascal Lamy, lorsqu’il était Directeur général de l’Organisation mondiale du Commerce (OMC), avait publié dans la revue Commentaire un article [2] où il insistait sur les réformes nécessaires du système statistique destinées à rendre compte du commerce international, mais aussi des règles de nomenclature et d’étiquetage des produits selon leur origine, ainsi bien sûr que des analyses économiques qui s’y rattachent. Dès lors que la production d’un bien est distribuée entre cinq ou six pays entre lesquels il fait des allers et retours permis par le faible coût du transport, il convient en effet de s’interroger sur la signification de ces statistiques.

De façon plus générale, la transformation en cours du système productif, qui constitue une révolution industrielle, remet en cause toutes les méthodes de classification utilisées pour les statistiques économiques de l’Insee, qui n’ont guère évolué depuis un demi-siècle. Comme Olivier Passet le signale dans son émission, alors que la productivité des services a été considérablement accrue par la généralisation de l’informatique, rien ne permet de s’en rendre compte dans les statistiques publiées, et ce n’est qu’un exemple.

La puissance publique française recueille et crée une masse considérable de données dont elle ne tire pas tout le bénéfice potentiel, ni ne les met suffisamment à la disposition du public. Il est paradoxal que pour obtenir des données démographiques ou économiques sur la France, plutôt que le site de l’Insee, il faille consulter les sites d’organismes internationaux ou privés qui font le travail de repartir des données de base de l’Insee, de les croiser avec d’autres sources et de les agréger de façon utilisable par quelqu’un qui ne soit pas un statisticien expert : Eurostat, l’OCDE, Wikipédia, Xerfi par exemple. Signalons d’ailleurs que cette difficulté d’interprétation des données brutes publiées par l’Insee et d’autres organismes publics crée un marché pour des entreprises qui les mettent en forme et procurent des outils de navigation, comme par exemple la société Spallian.

De même, il a fallu attendre plus de trente ans pour que l’IGN mette à disposition gratuite du public ses fonds de cartes au niveau communal, et encore sous une forme difficile à utiliser. C’est un contraste saisissant avec la doctrine des agences gouvernementales américaines selon laquelle le contribuable n’a pas à payer une seconde fois pour accéder à des données pour lesquelles il a déjà payé une fois par ses impôts.

Ces politiques différentes ne sont pas sans conséquences économiques : la restriction française d’accès aux données publiques est un handicap pour nos entreprises. Il y a des décennies que les entreprises américaines peuvent accéder aux bases de données d’American Demographics qui mettent en forme de façon inventive les données fournies par le Census Bureau, éventuellement au niveau de l’îlot, ce qui représente un atout considérable pour leur politique commerciale. Sans que ce soit rigoureusement impossible, obtenir la même qualité d’information en France demande un parcours du combattant hors de portée d’une entreprise de taille moyenne ou petite. La situation est la même pour les données cadastrales, elles aussi d’un intérêt social et économique considérable.

L’examen des possibilités d’accès aux données d’EdF, de la SNCF ou du Ministère de l’Éducation nationale conduit à des conclusions analogues. Ainsi, les statistiques du Ministère de l’Éducation nationale sont-elles soigneusement conçues de sorte qu’aucune réflexion susceptible de contester la politique officielle ne puisse les utiliser facilement, ce qui contribue au caractère monolithique du système éducatif français, souvent évoqué pour expliquer son déclin relatif illustré par les résultats des enquêtes européennes PISA.

Mais les lacunes les plus dommageables, tant pour le bien-être des citoyens que pour l’économie du pays, se situent sans doute dans le domaine des données de santé. Le projet de Dossier médical personnel (DMP), remis plusieurs fois sur le métier, a déjà englouti plus de 500 millions d’euros depuis 2004 pour des résultats plus que modestes. Le projet SESAM-Vitale, qui comporte notamment les deux générations de la carte Vitale (1998 et 2007), avait déjà coûté en 1999 cinq milliards de francs. En septembre 2013 l’Inspection générale des finances et l’Inspection générale des affaires sociales ont mis leurs efforts en commun pour publier un rapport de 112 pages (et plus de 200 pages d’annexes) consacré aux « Coûts de gestion de l’Assurance maladie » mais curieusement les coûts totaux de ce système n’y figurent pas. Bien sûr l’information figure encore moins sur le site du GIE SESAM-Vitale.

Or depuis la création du système français de protection sociale à la fin des années 1940 la démographie, la santé, la médecine et l’économie ont connu des mutations radicales qui nécessiteraient des ajustements non moins radicaux : tout dans la réglementation et dans la restriction de l’accès à l’information semble destiné à protéger les positions (parfois confortables) des acteurs en place (comme les prestataires du GIE et du DMP, sans oublier les administrateurs paritaires des caisses) plutôt qu’à procurer aux citoyens les meilleurs soins possibles au meilleur coût pour la collectivité. Il n’y a pas d’autre raison à l’opacité d’un système qui interdit aux mutuelles et autres régimes complémentaires de savoir ce qu’ils remboursent à leurs adhérents, opacité qui obère depuis des décennies la couverture des soins dentaires et optiques. On consultera à ce sujet les travaux (malheureusement trop peu publiés) de l’économiste de la santé Norbert Paquel.

Pour tout ce qui concerne l’accès aux données et leur utilisation, Michel Volle nous donne deux conseils à garder à l’esprit :

 Il faut, quand on utilise des données, savoir comment elles ont été produites : quel est leur définition, comment elles ont été observées. Il ne faut pas se fier au seul nom qu’elles portent. Dans une de ses
émissions, Passet a montré qu’une même dénomination pouvait recouvrir des indicateurs au comportement très divers.
 Il faut, pour interpréter les données, disposer d’un référentiel théorique. Le seul examen des corrélations, dans lesquels certains croient voir la réponse à tout, peut orienter vers des hypothèses causales loufoques.

Et nous attendons que l’État français adopte enfin une politique cohérente de données ouvertes (Open Data) !

Initiatives positives

Après ce tour d’horizon assez sombre du traitement des données par la puissance publique, ce qui dans un pays hyper-centralisé et hyper-administré comme la France a des conséquences pour l’ensemble de la société, il convient de signaler les projets et les réalisations qui donnent quelque espoir.

Si les grands acteurs traditionnels, étatiques ou privés, semblent peu capables de tirer parti des gains de productivité considérables qui seraient permis par la numérisation généralisée des données administratives, économiques et culturelles, de nouveaux acteurs apparaissent qui obtiennent de grands succès. Nous n’en citerons que quelques-uns, mais le potentiel est énorme et le ticket d’entrée abordable.

C’est en effet un paradoxe de la révolution cyberindustrielle sous le régime de la concurrence monopolistique analysée par Michel Volle : les GAFA d’aujourd’hui sont des entreprises colossales, la production de composants électroniques de pointe nécessite des investissements considérables (les usines les plus récentes d’Intel ou de Samsung coûtent de l’ordre de huit milliards d’euros chacune, il n’y a pas plus d’une vingtaine de telles usines dans le monde, dont celle du franco-italien STMicroelectronics à Crolles près de Grenoble), mais il est aussi possible, grâce au logiciel libre et à la disponibilité d’ordinateurs sur une carte (System on Chip, SoC) pour moins de dix euros logiciel compris, de démarrer une activité avec une mise de départ relativement faible.

Pour l’industrie des données les entreprises françaises déjà solides sont, par exemple, OVH, Gandi et Iliad. Si Iliad (la maison-mère de Free) a réinvesti les revenus d’une activité antérieure sur Minitel, OVH et Gandi sont partis pratiquement de zéro. Ces trois acteurs sont notamment solidement présents dans le secteur en plein essor de l’informatique en nuage (Cloud Computing), à la différence des attributaires de projets étatiques de « cloud souverain » dont les gesticulations impuissantes n’éviteront pas l’échec.

Il faut saluer aussi le succès du site d’annonces gratuites LeBonCoin.fr, qui dame le pion au leader mondial eBay, qui chaque mois enregistre plus de 20 millions de visiteurs, et qui est en outre le premier fournisseur d’offres d’emploi en France, plus efficace que Pôle Emploi, spécialement pour les PME. LeBonCoin.fr a malheureusement connu le sort de beaucoup d’entreprises françaises prometteuses qui n’ont pas trouvé sur place les moyens financiers de leur développement, elle a été rachetée par des investisseurs norvégiens.

Moins visibles mais prometteuses, citons aussi Quinten pour la consolidation de données de santé (essais cliniques, études post-AMM, chimie médicinale), et Spallian déjà citée plus haut. Ariana Pharma, issue de l’Institut Pasteur, est spécialisée dans le diagnostic du cancer : « Notre technologie KEM® de fouille de données détecte des signaux faibles et des relations complexes qui échappent aux analyses statistiques traditionnelles. C’est une approche exclusive qui sous-tend tous nos services et garantit ainsi des résultats robustes et reproductibles. ».

Enclencher un cercle vertueux

La société de la seconde révolution industrielle reposait sur l’exploitation de la main d’œuvre, la société cyberindustrielle repose désormais sur le développement du cerveau d’œuvre.

La productivité de la main d’œuvre s’obtenait par la contrainte physique : chronomètres, horaires rigides, présence physique. Les entreprises du passé, les administrations s’efforcent de transposer ces méthodes dans le monde cyber : cela s’appelle la gestion de projet, le reporting, la gestion des ressources humaines, cela coûte très cher et les résultats sont mauvais.

Michel Volle a décrit en termes simples ce qui permet d’obtenir le meilleur du cerveau d’œuvre : le commerce de la considération.

Accorder de la considération à ceux qui produisent ne suffit bien sûr pas, il faut aussi qu’ils soient dotés des savoirs et des compétences nécessaires à leur mission. Le rôle du système éducatif et de la formation continue est donc crucial. Introduire l’enseignement de l’informatique, la vraie informatique, programmation des ordinateurs, système d’exploitation et réseaux, pas les « usages numériques », est donc vital pour toute l’économie, y compris pour l’industrie et le commerce des données.

Voilà les transformations qu’il nous faut entreprendre, faute de quoi nous deviendrons, pour reprendre les mots de la sénatrice de Seine Maritime Catherine Morin-Desailly, une « colonie du monde numérique ».