De la dégradation continue des échantillons

mercredi 2 décembre 2015, par Christian Barrault

#Échantillon représentatif #Election #FN

Les dernières consultations électorales, que ce soit en France, en Grande Bretagne, en Autriche, ou en Grèce, sont à porter à la longue liste des fiascos du sondage politique.

Les sondeurs ont fourni des prévisions systématiquement biaisées, sur-évaluant notamment, les partis extrêmes au détriment des partis modérés. Difficile d’entrapercevoir dans ces biais des erreurs de jeunesse 70 ans après la « première » sérieuse déconvenue de la profession, quelques années seulement après le scrutin présidentiel américain de 1936 considéré pourtant par les sondeurs comme l’événement fondateur scellant définitivement la preuve de leurs qualités prédictives [1]. Quant aux progrès de la technologie (sondages par internet) ils n’ont rien apporté si ce n’est des biais bien identifiés eux aussi depuis longtemps affectant la représentativité des échantillon de sondés.

La qualité de l’échantillon en question

Un sondage est une enquête statistique d’opinion basée sur l’interrogation d’individus formant un échantillon représentatif. Sa qualité dépend, entre autre, du tirage de cet échantillon. Un tirage aléatoire n’est pas une garantie assurée contre les biais. Une structuration a priori permet d’éviter les dérives lors du choix aléatoire des individus. Cette structuration doit permettre de contrôler les variables sous-jacentes potentiellement explicatives du phénomène que le sondage veut mesurer. Chacun des sous-ensembles de la population, constitué lors de cette structuration, doit être le plus homogène possible, quant à la variable étudiée, et les sous-ensembles les plus hétérogènes possibles entre eux. Le sondage sera fait en tirant dans chaque sous-ensemble un nombre d’individus proportionnel à la taille du sous-ensemble. Le groupe de référence étant homogène quant à la variable étudiée, la probabilité de tirer des individus correspondant à une occurrence donnée de la variable étudiée est stable et l’ensemble des individus interviewés dans le groupe de référence aura une structure conforme à la réalité du groupe, même si la taille de l’ensemble est faible. Dans le groupe de référence, les individus doivent être choisis aléatoirement, c’est-à-dire que le sondé intervient dans sa sélection préalable, seulement par une acceptation ou un refus de répondre. Les catégories ainsi constituées constituent des quotas.

De l’inanité des quotas utilisés

Qu’en est-il des enquêtes actuelles d’intentions de vote ? Les variables utilisées comme quotas ne répondent pas aux exigences statistiques minimales car elles ne constituent pas des groupes homogènes quant au sujet de l’analyse. Le croisement Région-Habitat (repartition de la population selon 8 régions croisées par 5 classes de taille d’agglomérations) à l’échelle de la ville de Marseille rapporté au scrutin des européennes 2014 permet à la fois d’appréhender un problème élémentaire de constitution d’un échantillon représentatif et d’illustrer la non pertinence statistique des quotas utilisés. La répartition Région-Habitat doit, en principe, créer des groupes de population relativement homogènes où il sera possible de choisir un ensemble d’individus restreint représentatif de ceux composant le groupe. Concernant le Front national objet de tant d’attention des sondeurs et des médias en général, la dispersion de ses suffrages selon les bureaux de vote lors des Européennes de 2014 est très inégale, les scores du parti variant de 2.84% à 63.6% selon le bureau considéré [2]. La probabilité d’obtenir des réponses d’intention favorables au FN varie donc énormément selon la position des sondés dans la ville. Autant dire que cette dispersion n’est jamais pris en compte et a fortiori évalué dans les sondages actuels. Parler de quota pour le croisement Région-Habitat est, au mieux, un abus de langage. Il va sans dire qu’un échantillon (de petite taille sur la ville de Marseille) ne saurait être qualifié de représentatif puisque tiré sans précaution pour mesurer une variable qui s’avère très dispersée dans la population. La même remarque s’applique à l’agglomération de Lille-Roubaix-Tourcoing où le pourcentage de dispersion lors des Européennes de 2014 varie de 6.58% à 50.56% pour le vote FN selon les bureaux de vote.

Défaillance dans le choix des sondés

Une fois l’échantillon structuré par des conditions d’appartenance à des catégories (quotas), les individus doivent être choisis aléatoirement, c’est-à-dire que le possible sondé n’intègre l’échantillon soumis au questionnaire que par son acceptation ou son refus d’y répondre, rien d’autre. Cette condition n’est évidemment pas remplie par les sondages réalisées en ligne (par internet) pour lesquels la personne doit :
Etre équipée et apte à utiliser ce média.
Avoir accepté préalablement le principe d’interrogations périodiques.
Etre volontaire pour répondre au questionnaire lorsqu’il est diffusé, et rapidement pour être dans l’ensemble des questionnaires retenues pour satisfaire aux « quotas ».

Des conditions qui favorisent la présence dans l’échantillon des individus fortement motivés par l’enquête. La sur-représentation des extrêmes et plus généralement d’individus souhaitant manifestés leur opposition marquées à certaines idées au détriment des plus modérés est un risque récurrent à ce mode d’administration devenu la règle en matière de sondage d’intention également. De nouvelles "déconvenues" en perspective mais sans surprise.

Christian Barrault

Ingénieur d’études à la SOFRES puis à BVA. Conseil statistique auprès de la SOFRES, d’IPSOS, de Médiamétrie et d’instituts belges. Auteur du premier programme de redressement d’échantillons de la SOFRES en 1968.

[1] En 1948, les deux grands « instituts » Gallup et Pew étaient tellement sûrs de la victoire du candidat républicain Thomas E. Dewey sur le président sortant Harry Truman qu’ils arrêtèrent tout sondage plusieurs semaines avant l’élection. Or, Truman l’emporta.

[2] Analyse des résultats par bureau de vote édités par le ministère de l’intérieur.

De la dégradation continue des échantillons

La qualité de l’échantillon en question

De l’inanité des quotas utilisés

Défaillance dans le choix des sondés

Lire aussi

Croire sur parole : le sport préféré des doxosophes et leurs séides

Marine Le Pen présidente : l’intox continue

Echantillons en tranche

Rubriques