Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Estimation

Contenu archivé

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Plans autopondérés
Ajustement des poids
Autres méthodes d'estimation
Estimation de l'erreur d'échantillonnage
Exemples d'estimations à l'aide d'un plan d'échantillonnage aléatoire simple
Estimation de la moyenne de la population
Estimation du total de la population

Comme nous le savons maintenant, une enquête a pour but d'obtenir de l'information sur une population donnée. Lorsque l'échantillon a été sélectionné et que les données ont été recueillies (voir le chapitre Collecte de données) et traitées (voir le chapitre Traitement des données), il reste à s'acquitter de la tâche consistant à apparier les données rassemblées à partir de l'échantillon à l'ensemble de la population.

L'estimation est le processus consistant à déterminer une valeur vraisemblable pour une variable de la population observée, en se fondant sur des données recueillies à partir de l'échantillon. Les chercheurs sont habituellement intéressés à examiner pour différentes variables des estimations d'un grand nombre de statistiques—des totaux, des moyennes et des proportions le plus souvent. On pourrait, par exemple, utiliser une enquête-échantillon pour produire les statistiques suivantes : des estimations de la proportion de fumeurs chez les 15 à 24 ans, les gains moyens des hommes et des femmes titulaires d'un grade universitaire et le nombre total de voitures que possède l'ensemble de la population observée.

Ce qui sous-tend le processus d'estimation, c'est le poids d'échantillonnage d'une unité, qui indique le nombre d'unités incluses dans la population (y compris le poids d'échantillonnage lui-même) et qui sont représentées par cette unité échantillonnée. Le poids d'échantillonnage est l'inverse de la probabilité de sélection de l'unité.

  • Exemple n° 1 : Supposez que la Ville de Québec a décidé d'octroyer des cartes d'abonnement d'autobus à des usagers de ces derniers pour faire la promotion de ses services de transport en commun. Elle sélectionne à cette fin un échantillon aléatoire simple de 10 personnes parmi les 30 passagers d'un autobus. Puisque l'échantillonnage aléatoire simple donne à chaque membre de la population (tous les passagers de l'autobus dans ce cas) une chance égale d'être sélectionné, chacun des passagers avait une chance sur trois de l'être. Cela se traduit en un poids d'échantillonnage de trois pour chaque unité sélectionnée, ce qui signifie que chaque personne incluse dans l'échantillon représente trois personnes faisant partie de la population : elle-même, plus deux autres personnes.

    Afin d'estimer ce poids d'échantillonnage, on pourrait prendre les données d'enquête pour les 10 passagers sélectionnés et les copier trois fois afin de créer une population artificielle de 30 passagers. On pourrait ensuite estimer des totaux, des moyennes ou des proportions pour la population réelle à l'aide des statistiques correspondantes calculées au moyen de la population artificielle. Cependant, les statisticiens d'enquête attribuent plutôt un poids d'échantillonnage à chaque unité incluse dans l'échantillon et tiennent compte de ce poids lorsqu'ils établissent des estimations.

    Si une personne incluse dans un échantillon (d'un poids d'échantillonnage de 18) avait les yeux bleus et les cheveux bruns, ce serait alors comme si 18 personnes au total faisant partie de la population avaient les yeux bleus et les cheveux bruns.

    Exemple n° 2 : Vous êtes en train de mener une enquête pour déterminer le nombre total de gens qui habitent votre rue et le nombre moyen de voitures que possède chaque ménage qui y vit. Vous décidez de sélectionner un échantillon systématique de 5 ménages à partir des 20 que compte votre rue et entendez utiliser cet échantillon pour estimer les totaux que vous cherchez à calculer. Le tableau qui suit résume l'information que vous avez rassemblée durant vos interviews auprès des ménages échantillonnés :
Tableau 1. Échantillon de ménages de la rue des Érables
Numéro de ménage Nombre de personnes Nombre de voitures Probabilité de sélection Poids d'échantillonnage
1
1
0
1/4
4
2
4
2
1/4
4
3
2
1
1/4
4
4
2
1
1/4
4
5
3
2
1/4
4
  • La probabilité de sélection de 1 sur 4 découle du fait que l'échantillonnage systématique accorde une chance égale d'être sélectionné à chaque ménage de votre rue. Le poids d'échantillonnage de 4 est simplement l'inverse de cette probabilité. Lorsque vous établissez des estimations, vous devez examiner les caractéristiques de chaque ménage échantillonné. Dans ce cas, vous déterminez que 4 ménages sur la population des 20 que compte votre rue ont les mêmes caractéristiques.

    Pour estimer le nombre total de personnes habitant votre rue, vous devez multiplier le nombre de personnes membres d'un ménage par le nombre de ménages inclus dans ce poids d'échantillonnage, puis additionner tous les chiffres finals. Par exemple, il y a 4 ménages d'une personne (représentés par le numéro de ménage 1), 4 ménages de quatre personnes, 8 ménages de deux personnes (4 ménages représentés par le numéro de ménage 3 et 4 ménages représentés par le numéro de ménage 4) et 4 ménages de trois personnes. Votre estimation du nombre total de personnes serait alors la suivante :

    Nombre estimatif de personnes habitant votre rue
    = (4 x 1) + (4 x 4) + (8 x 2) + (4 x 3)
    = 48 personnes

    Vous devez procéder de la même façon pour estimer le nombre moyen de voitures par ménage. Établissez une estimation du nombre total de voitures que possèdent les ménages domiciliés dans votre rue, puis divisez cette estimation par le nombre réel de ménages que compte votre rue. Il y a, par exemple, 4 ménages qui ne possèdent pas de voiture (représentés par le numéro de ménage 1), 8 ménages qui en possèdent deux (représentés par le numéro de ménage 2 et le numéro de ménage 5) et 8 ménages en possédant chacun un (représentés par le numéro de ménage 3 et le numéro de ménage 4).

    Nombre estimatif de voitures
    = (4 x 0) + (8 x 2) + (8 x 1)
    = 24 voitures

    Moyenne estimative
    = 24 ÷ 20
    = 1,2 voiture par ménage

Plans autopondérés

Toutes les unités échantillonnées n'ont pas toujours le même poids d'échantillonnage. Certains plans donnent aux unités une probabilité inégale d'être sélectionnées, ce qui fait que des unités incluses dans le même échantillon ont des poids d'échantillonnage différents. Les réponses d'un ménage ou d'une entreprise à un questionnaire pourraient représenter celles de 200 unités de la population, tandis que les réponses d'un autre ménage ou d'une autre entreprise au même questionnaire pourraient ne représenter que 50 unités faisant partie de la population.

Lorsque chaque unité incluse dans l'échantillon a le même poids d'échantillonnage, on dit que le plan d'échantillonnage est autopondéré. Ce genre de plan épargne du temps et est pratique sur le plan opérationnel, pour des échantillons de grande taille en particulier. Parce que chaque unité a le même poids, on peut ne pas tenir compte de tels poids lorsqu'on estime des moyennes et des proportions. La moyenne établie pour l'échantillon donne une estimation appropriée de la moyenne pour l'ensemble de la population.

Les plans d'échantillonnage aléatoire simple et d'échantillonnage systématique sont des exemples de plans autopondérés. Ils auraient pu, pour cette raison, faciliter les calculs dans le cas de l'exemple n° 2. Pour estimer le nombre moyen de voitures par ménage inclus dans la population, par exemple, nous aurions pu utiliser la même moyenne que celle employée à l'intérieur de l'échantillon. Les 5 ménages échantillonnés possèdent au total 6 voitures, ce qui donne une moyenne de 1,2 voiture par ménage. C'est le même résultat que celui obtenu à l'aide de la procédure de calcul d'un poids d'échantillonnage.

Ajustement des poids

On ajuste parfois les poids d'échantillonnage avant une estimation, et ce, pour deux raisons fondamentalement :

  • Pour tenir compte des non-réponses à un questionnaire : L'utilisation de poids d'échantillonnage pour établir une estimation donne de bons résultats lorsque vous avez pu interviewer toutes les unités sélectionnées. Dans l'exemple n° 2, si deux des cinq ménages échantillonnés avaient refusé de répondre à votre questionnaire ou n'étaient pas disponibles au moment de l'enquête, vous n'auriez des réponses que pour trois ménages, ce qui ne représenterait que 12 des 20 ménages que compte votre rue. Les deux unités qui n'auraient pas répondu à votre questionnaire représenteraient quatre ménages chacune, ce qui signifie que nous n'aurions aucune information sur le nombre de personnes ou de voitures pour huit ménages domiciliés dans votre rue. Afin d'apporter un ajustement pour en tenir compte, les statisticiens d'enquête accroissent habituellement les poids des unités ayant répondu au questionnaire d'enquête de manière à prendre en considération la perte de représentativité causée par les non-réponses à ce dernier. L'objectif consisterait à n'utiliser que les trois unités pour lesquelles nous disposerions d'information, mais qui représenteraient quand même les 20 ménages que compte votre rue.

  • Pour tenir compte de données externes : Nous connaissons parfois le total réel pour une ou plusieurs variables mesurées à l'intérieur d'un échantillon. Dans l'exemple n° 3 de la section portant sur échantillonnage probabiliste on a divisé en proportions égales la population des 1 000 meilleurs films d'horreur, c'est-à-dire en 500 films classiques et en 500 films modernes. Même si vous connaissiez ce total avant l'échantillonnage, vous avez décidé de sélectionner un échantillon aléatoire simple de 100 films, ce qui vous a donné finalement 77 films classiques et 23 films modernes. Chacun de ces films avait un poids de 10 (parce que vous avez sélectionné 1 titre de film sur 10). Si vous utilisiez les réponses découlant de l'enquête et le poids d'échantillonnage, votre échantillon représenterait une population de 770 films classiques et de 230 films modernes. Cela pourrait entraîner des estimations inexactes. L'une des solutions à ce problème consisterait à réduire le poids de chaque film classique échantillonné et à accroître celui de chacun des films modernes échantillonnés également pour que votre échantillon donne une estimation de 500 films classiques et de 500 films modernes, ce qui réduirait la distorsion entraînée par un « mauvais » échantillon.

Évidemment, la stratification par date de parution sur les écrans avant l'échantillonnage aurait réglé le problème. Dans bien des cas, cependant, nous avons des totaux au niveau de la population, mais nous ignorons l'attribut de chaque unité incluse dans la base de sondage. Nous savons, par exemple, à partir du Recensement de la population, combien d'hommes et de femmes il y a dans une localité donnée, mais tout ce dont nous disposons pour un échantillonnage, c'est d'une liste de ménages. Il serait donc impossible de stratifier notre population selon le sexe. On utilise souvent des projections démographiques suivant l'âge et le sexe pour chaque province dans le cadre d'enquêtes sociales afin d'ajuster les poids d'échantillonnage.

On emploie les poids ajustés pour tenir compte des non-réponses à un questionnaire d'enquête et/ou de dénombrements externes à des fins d'estimation de la même façon qu'on a employé le poids d'échantillonnage dans l'exemple n° 1.

Autres méthodes d'estimation

L'utilisation des poids pour extrapoler les résultats de l'échantillonnage n'est pas l'unique méthode d'estimation qui existe, mais c'est la plus simple et la seule dont nous traiterons. Il est, néanmoins, important de savoir qu'il existe d'autres méthodes pouvant mener à des estimations plus précises (comme l'utilisation de données auxiliaires). Le processus d'estimation doit tenir compte du plan d'échantillonnage qui a été utilisé. Les estimations qui en résulteraient pourraient, autrement, être sérieusement biaisées.

Estimation de l'erreur d'échantillonnage

Comme nous l'avons déjà mentionné, toutes les estimations calculées à partir d'échantillons sont exposées à ce qu'on appelle l'erreur d'échantillonnage, qui découle du fait qu'on n'a observé qu'une partie, au lieu de la totalité, de la population. Un échantillon différent aurait pu fournir des résultats différents également. L'erreur d'échantillonnage est le degré de variation qui existe entre les estimations établies à partir des différents échantillons possibles. (Comme il y a en gros 14 millions de combinaisons différentes de 6 numéros de 1 à 49, imaginez alors combien il y a de façons de sélectionner un échantillon de 25 000 ménages canadiens!). On ne connaît pas, évidemment, cette erreur d'échantillonnage, puisque nous devrions connaître la réponse pour chaque unité de la population afin de la calculer. On peut, cependant, l'estimer en utilisant les données d'enquête. L'ampleur de l'erreur d'échantillonnage dépend de bien des éléments, y compris de la méthode d'échantillonnage, de la méthode d'estimation, de la taille de l'échantillon et de la variabilité de la caractéristique estimée. C'est pourquoi chaque estimation d'un échantillon entraîne une erreur d'échantillonnage qui lui est propre. On devrait donc lisser cette erreur pour chaque estimation d'un total, d'une moyenne, d'une proportion, etc., fournie par une enquête.

Exemples d'estimations à l'aide d'un plan d'échantillonnage aléatoire simple

L'échantillonnage aléatoire simple est la plus simple de toutes les méthodes d'échantillonnage. On a déjà beaucoup étudié l'estimation effectuée à l'aide de la méthode d'échantillonnage aléatoire simple. Il existe des formules toute simples permettant d'estimer l'erreur d'échantillonnage pour bien des statistiques lorsqu'on a recours à un plan d'AES, étant donné surtout qu'il s'agit d'un plan d'échantillonnage autopondéré. Nous présentons ici l'estimateur le plus courant pour établir une moyenne (arithmétique) et un total d'une population, sous l'échantillonnage aléatoire simple.

Estimation de la moyenne d'une population

Dans le cas de l'échantillonnage aléatoire simple, l'estimation de la moyenne d'une population est identique à la moyenne de l'échantillon :

Formule pour estimer la population moyenne


x = une valeur observée,

Symbol mathématique pour l'estimation de la moyenne de la population
= estimation de la moyenne de la population,
Symbol mathématique pour sommation de
x = somme de toutes les valeurs x observées dans l'échantillon,
n = nombre d'observations effectuées à l'intérieur de l'échantillon.

Nota : On devrait utiliser x et n (minuscules) si l'on renvoie à une enquête-échantillon et X et N (majuscules) lorsqu'on renvoie à une population.

Si les résultats de l'échantillonnage ont été résumés à l'intérieur d'une table des fréquences, l'estimation de la moyenne d'une population est alors la même que la moyenne de l'échantillon. Ainsi,

Formule pour l'estimation de la moyenne d'une population en utilisent une tableau de fréquence


x = une valeur observée,
f = la fréquence de la valeur (le nombre de fois que cette valeur a été observée dans l'échantillon),

Symbol mathématique pour l'estimation de la moyenne de la population
= estimation de la moyenne de la population,
Sommation de
xf
 = somme de toutes les valeurs xf observées (le produit des valeurs observées multiplié par sa fréquence) dans l'échantillon,
Sommation de
= somme des fréquences enregistrées à l'intérieur de l'échantillon.

Exemple n° 2 : Un producteur agricole sélectionne au hasard 10 œufs à partir d'une grosse (12 douzaines) d'œufs (144 œufs) qu'il trouve dans son poulailler. Il pèse soigneusement chacun des 10 œufs. Les poids suivants ont été enregistrés en grammes :

0,75, 0,70, 0,55, 0,50, 0,60, 0,65, 0,75, 0,65, 0,75 et 0,50

Quel est le poids moyen de ces œufs?

Nous pouvons déterminer à l'aide de la formule figurant ci-dessus le poids moyen des 10 œufs sélectionnés :

Calcule de le poids moyen de dix oeufs.

Estimation du total d'une population

Dans le cas d'un échantillonnage aléatoire simple, la formule d'estimation d'un total pour la population est :

Formule d'estimation d'un total pour la population


x = une valeur observée,

Symbol mathématique pour total estimatif de la population
= total estimatif de la population,
Symbol mathématique pour sommation de
x = somme de toutes les valeurs x observées dans l'échantillon,
n = nombre d'observations effectuées dans l'échantillon,
N = nombre total d'observations effectuées à l'intérieur de la population.

C'est simplement l'estimation de la valeur moyenne multipliée par le nombre d'unités incluses dans la population. Dans l'exemple précédent, le poids moyen d'un œuf est 0,64 gramme; il est donc logique de penser que le poids total des 144 œufs serait 92,16 grammes (144 x 0,64 = 92,16 grammes).

Si les résultats de l'échantillonnage étaient résumés à l'intérieur d'une table des fréquences, la formule d'estimation pour la population totale serait :

Formule pour l'estimation de la moyenne d'une population en utilisent une tableau de fréquence


x = une valeur observée,

Symbol mathématique pour total estimatif de la population
= total estimatif de la population,
Symbol mathématique pour sommation de
xf = somme de toutes les valeurs xf observées dans l'échantillon,
Symbol mathématique pour sommation de
f = somme des fréquences enregistrées dans l'échantillon,
N = nombre total d'observations effectuées à l'intérieur de la population.