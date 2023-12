On peut faire dire tout et n’importe quoi aux statistiques. Ce manque de fiabilité s’explique par la manipulation, l’incompétence ou la négligence de leurs auteurs et de ceux qui les interprètent. Dans un essai irrévérencieux et argumenté, Sami Biasoni prouve qu’on peut leur faire dire la vérité.

Sondages d’intentions de vote, courbe du Covid, taux d’endettement public… Les statistiques sont partout dans l’actualité. Mais sont-elles fiables ? Et, surtout, sont-elles convenablement employées par ceux qui les invoquent ? Docteur en philosophie des sciences de l’École normale supérieure et professeur chargé de cours à l’Essec, Sami Biasoni n’en est pas si sûr. Après avoir épluché des milliers de pages d’études et rapports en tous genres, refait les calculs, lu les notes de bas de page, il montre que, soit par malignité, soit par incompétence, soit par négligence, les médias et les politiques ne sont pas à la hauteur de la science statistique dont ils se réclament à longueur de temps. Et propose quelques pistes pour sortir de l’amateurisme ambiant.

Causeur. Commençons par une mise au point. Dans votre livre, vous critiquez ceux qui font profession d’interpréter les statistiques et qui sévissent dans les journaux, les ministères ou les partis. Cependant vous n’allez pas jusqu’à dire que les données elles-mêmes, sur lesquelles ils s’appuient, seraient truquées. En êtes-vous bien certain ?

Sami Biasoni. Il existe bien sûr, comme dans toute activité humaine, des cas de fraude statistique. Toutefois, il ne faut pas exagérer, nous ne sommes pas en Union soviétique. En France, les organismes de référence comme l’Insee et l’INED, mais aussi les grands instituts de sondage privés, sont des établissements respectables, où la majorité des chercheurs travaillent consciencieusement.

La collecte des données statistiques est donc irréprochable dans notre pays ?

Non, elle pèche notamment par manque de transparence. Pour les besoins de mon livre, j’ai étudié un certain nombre de statistiques ayant fait la une de l’actualité ces dernières années, et je me suis plusieurs fois retrouvé face à des raisonnements qui me semblaient incohérents. Pour confirmer ou infirmer mes réserves, il fallait donc que je puisse consulter les données brutes et les notices méthodologiques. Or ce type d’information est rarement public. Les citoyens devraient y avoir un droit d’accès total, telle est la condition de la confiance et de la reproductibilité des travaux.

À quoi servent ces notices méthodologiques dont vous parlez ?

Sans notices précises et exhaustives, il y a un risque de méprise quant à la définition des phénomènes mesurés. Prenez par exemple le concept apparemment simple de « Français moyen ». Pour en fixer les caractéristiques, doit-on inclure les personnes mineures ? Les Français vivant à l’étranger ? Les immigrés non naturalisés mais présents sur notre territoire ? Il n’existe pas de consensus à ce sujet. Autre exemple que j’analyse dans le livre : à partir de données de référence publiées par l’INED, deux chercheurs ont affirmé, en 2019, que « Nicolas » et « Yanis » étaient les deux prénoms les plus fréquemment portés par les petits-fils d’immigrés maghrébins – information largement reprise par la presse progressiste, mais qui interroge tant elle semble contre-intuitive.

Or l’analyse des sources confirme bel et bien qu’il y a un loup. Non pas que les deux chercheurs aient eu la volonté de duper… Seulement ils avaient oublié d’attirer notre attention sur un détail essentiel : « Les petits-enfants d’immigrés du Maghreb se prénomment si souvent Nicolas et portent si rarement un prénom “arabo-musulman” […] tout simplement parce que ces petits-enfants d’immigrés incluent de nombreux petits-enfants de rapatriés – ainsi que des petits-enfants de juifs marocains et tunisiens et des petits-enfants d’Européens, majoritairement chrétiens, qui ont combattu pour les indépendances. » Autrement dit, l’affirmation n’est pas fausse, mais elle ne dit pas ce qu’elle devrait dire. Elle est parfaitement « statistiquement correcte ».

Il n’y a pas dans ce cas d’intention de duper, dites-vous. Admettons, quoique l’omission soit un peu grosse. En revanche, quand l’AFP publie une dépêche fallacieuse sur la supposée contribution globalement positive des étrangers à l’économie française, c’est un biais idéologique, n’est-ce pas ?

Tout part d’une récente étude chiffrée de l’OCDE, dans laquelle se trouve un passage sur les apports économiques de l’immigration. Un passage qui a été mis en exergue par l’AFP, puis abondamment repris par les médias progressistes – ceux de droite se gardant bien sûr d’en parler. Mais, quelques lignes plus loin, dans la même étude, il est écrit sans ambiguïté que les calculs ne tiennent pas compte de l’ensemble des dépenses publiques, notamment celles spécifiquement engagées dans les services publics (hôpitaux, écoles et forces de l’ordre) en raison de la présence d’étrangers sur le territoire. Ces calculs n’intègrent pas non plus le coût des enfants des personnes immigrées. Cependant, dès qu’elle adopte une vision holistique, l’OCDE reconnaît elle-même que l’immigration représente un coût économique ! Une information escamotée par l’AFP, qui est donc à l’origine d’une présentation erronée du document. Par négligence ? Par intérêt idéologique ? Nul ne saurait le dire.

Vous restez prudent, c’est entendu. Mais que dire des enquêtes de « victimation », qui ont récemment fait leur apparition dans les médias ? Si, par exemple, une femme entend un commentaire désagréable au sujet de son physique dans le métro, elle peut se déclarer victime en toute bonne foi, et ainsi rentrer, sans autre forme de procès, dans les statistiques nationales de violences sexuelles et sexistes. Cet outil statistique n’est-il pas vicié par définition ?

Je n’irai pas si vite en besogne. Les enquêtes de victimation relèvent, en sociologie, de travaux généralement sérieux et honnêtes, qui visent à comprendre les atteintes aux personnes à partir de leur vécu, en complément des informations issues de la police et de la justice. Cela dit, vous pointez du doigt un vrai problème avec l’exemple du métro : le terme de « victime » est infiniment extensible, car il est porteur de subjectivité. Sur certains campus américains, un simple regard peut être considéré comme une (micro-)agression. Je plaide pour que les définitions retenues dans les statistiques publiques soient celles qui sont fixées par la loi, ce système de normes, certes imparfait, présente néanmoins l’avantage de refléter les limites du répréhensible telles qu’elles ont été choisies par la société de façon démocratique. Dès lors, toutes les pseudo-études woke qui prétendent démontrer, chiffres à l’appui, que la France serait structurellement raciste ou sexiste, me semblent largement relever d’impostures scientifiques. Et ce n’est pas parce qu’elles se parent pompeusement de pourcentages et de graphiques qu’elles sont méthodologiquement rigoureuses.

En vous lisant, on comprend en effet que le bon statisticien est celui qui sait choisir le type de données judicieuses pour appréhender une question.

C’est ce que l’on appelle le « choix de la variable pertinente ». Savoir sélectionner les bons indicateurs pour comprendre un phénomène relève d’un savoir-faire rare. Le fait que les résultats du baccalauréat soient meilleurs d’une année sur l’autre ne permet pas de conclure que le niveau monte ! Penser que le taux de succès à cet examen nous renseigne d’une quelconque manière sur le niveau réel des bacheliers relève de que l’on appelle le « paradoxe de la loi de Goodhart », paradoxe en vertu duquel « lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure ». On pourrait même y voir une tentative de manipulation de la perception commune du réel si l’on est plus hardi dans l’analyse de la situation.

Mais alors, dans ce cas, faudrait-il, pour se prémunir de tels risques d’enfumage, limiter tout bonnement les statistiques dans le débat public ?

Non, surtout pas, car de même que la démocratie reste le pire des régimes à l’exception de tous les autres, la statistique est peut-être le pire des arguments à l’exception de tous les autres. Certes, les êtres humains n’ont pas les mêmes propriétés d’homogénéité – de symétrie pour parler en termes mathématiques – que les particules élémentaires, ce qui les rend difficilement réductibles à des paramètres chiffrés, pour autant les sciences humaines ont fait des progrès remarquables depuis qu’elles intègrent une dimension de quantification.

Les sciences humaines sont pourtant restées un bastion d’esprits « littéraires »…

Vous avez raison. Et cela n’a pas manqué de soulever un débat dans le milieu académique. La plupart des chercheurs en sciences humaines ont reçu une formation de sociologue, de philosophe ou d’historien. De ce fait, leurs publications contiennent parfois des erreurs basiques de calcul ou de raisonnement statistique. Selon certaines méta-analyses, il pourrait y avoir plus de 50 % d’études quantitatives partiellement invalides du point de vue de leurs résultats ! D’où la nécessité de renforcer la formation en mathématiques dans les facultés de sciences humaines. L’embauche par les grandes revues de sciences humaines de statisticiens chargés de contrôler la validité technique des articles est également une mesure nécessaire. Je milite pour que les grands médias recrutent eux aussi des secrétaires de rédaction statistique, non seulement pour vérifier la justesse des chiffres publiés chaque jour dans leurs pages, mais aussi pour veiller à ce que ceux-ci puissent être bien compris par les lecteurs… ainsi que par les rédacteurs.

Sami Biasoni, Le Statistiquement Correct, Le Cerf, 2023.

