6. Pondération

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Pour le calcul des poids initiaux, les « faux Autochtones » ont été traités comme s’ils n’avaient jamais existés, c’est-à-dire qu’ils ont été exclus de la base de sondage et de l’échantillon. Voir la sous-section 3.2.3 sur le plan de sondage et la répartition de l’échantillon.

Dans une enquête basée sur un échantillon, chaque personne sélectionnée est représentative non seulement d’elle-même, mais aussi des autres personnes qui n’ont pas été échantillonnées. Par conséquent, un poids est lié à chaque personne sélectionnée, afin d’indiquer le nombre de personnes que cette dernière représente. Ce poids doit être utilisé pour toutes les estimations. Par exemple, dans un échantillon aléatoire simple de 2 % de la population, chaque personne en représente 50. Le poids initial est par la suite ajusté afin de tenir compte d’éléments comme la non-réponse et les écarts entre les caractéristiques de l’échantillon et les totaux connus pour la population cible (poststratification ou stratification a posteriori). On a eu recours à sept étapes dans le processus de pondération.

6.1 Poids initiaux

Le poids initial d’une unité donnée dans une strate de l’Enquête auprès des peuples autochtones (EAPA) correspond au produit de deux composantes : l’inverse de la fraction de sondage dans la strate et le poids de l’Enquête nationale auprès des ménages (ENM) corrigé pour la non-réponse à l’ENM pour l’unité en question. La fraction de sondage dans la strate est calculée comme étant le nombre de personnes sélectionnées à l’EAPA dans chaque strate, divisé par le nombre total de répondants à l’ENM disponibles pour cette strate. Le poids de l’ENM utilisé est le poids de sondage de l’ENM corrigé pour la non-réponse, puis borné au 99e centile, tel que calculé par l’équipe de méthodologie travaillant sur l’estimation à l’ENM.

6.2 Ajustement pour les unités non envoyées à la collecte

Un nombre relativement faible d’unités échantillonnées n’ont pas été envoyées à la collecte, pour différentes raisons. Ces unités comprenaient entre autres:

  • les cas où trois membres d’un même ménage avaient déjà été sélectionnés;
  • les unités sans nom ni date de naissance;
  • les « unités non admissibles de la vague 2 », c’est-à-dire les personnes sélectionnées à la vague 2 dans des ménages où au moins une personne avait refusé de participer à l’enquête à la vague 1.

Dans les deux premiers cas, un ajustement par ratio a été fait par région et par groupe autochtone de l’ENM. Dans le troisième cas, un ajustement par ratio a été fait par région, par groupe autochtone et par groupe de scolarité de l’ENM. À l’intérieur d’une région et d’un groupe autochtone (ou d’une région, d’un groupe autochtone et d’un groupe de scolarité dans le troisième cas), les poids des unités retirées ont été remis à zéro et les poids des unités restantes ont été accrus proportionnellement (ajustement par ratio).

6.3 Ajustement pour tenir compte de la non-réponse

Deux ajustements ont été effectués pour deux types différents de non-réponse : les personnes sélectionnées pour lesquelles aucun contact n’avait été établi avec la personne elle-même ou son parent ou tuteur (« non-contact » : 2 981 adultes et 770 enfants), et les personnes contactées qui n’ont pas fourni (ou qui n’ont pas pu fournir) de renseignements sur eux-mêmes ou leur enfant (« non-réponse avec contact » : 6 263 adultes et 1 763 enfants). Cette seconde forme de non-réponse est principalement associée aux refus ou aux « refus déguisés ». Un exemple de « refus déguisé » pourrait être une personne contactée à plusieurs reprises qui repousse continuellement l’entrevue à plus tard. Deux ajustements ont été effectués puisque les caractéristiques des gens qu’on ne réussit pas à contacter sont souvent différentes des caractéristiques des gens qui refusent de répondre, une fois contactés.

La distinction entre enfants et adultes est faite ici selon l’âge à l’ENM (et non l’âge au 1er février 2012, tel que mesuré à l’EAPA ), soit les moins de 15 ans pour les enfants et les 15 ans et plus pour les adultes. Il s’agit d’une distinction importante puisque beaucoup moins de caractéristiques pouvant expliquer la non-réponse sont disponibles chez les enfants que chez les adultes à l’ENM. Par ailleurs, chez les enfants, ce ne sont pas les caractéristiques de l’enfant lui-même qui influent sur la réponse ou la non-réponse, mais plutôt les caractéristiques de la personne répondant pour l’enfant (parent ou tuteur). Il a donc fallu déterminer pour chaque enfant de moins de 15 ans à l’ENM qui était la personne la plus susceptible de répondre pour l’enfant selon la situation de l’enfant dans la famille de recensement, et ce, peu importe qu’une réponse ou non ait été obtenue à l’EAPA pour cet enfant. Dans les situations où les parents ou tuteurs de l’enfant vivaient en couple de sexes opposés, la préférence a été donnée à la personne de sexe féminin (mère, grand-mère, tante, par exemple).

Il convient de mentionner que la définition de non-contact a changé par rapport à ce qu’elle était lors de l’EAPA 2006. Étant donné que les interviews en 2012 ont été menées par interview assistée par ordinateur (IAO) plutôt que par mode d’entrevue « papier-crayon » comme en 2006, un ensemble de variables de collecte appelées « paradonnées » sont disponibles pour toutes les unités de l’échantillon. En particulier, des informations sont recueillies pour chaque tentative de contact. Ainsi, une unité sera déclarée comme étant un « non-contact », si aucune des tentatives n’a permis d’entrer en contact avec la personne sélectionnée ou le parent ou tuteur de l’enfant sélectionné. En 2006, le non-contact était établi en fonction de la dernière tentative de contact seulement. En conséquence, en 2012, on a eu proportionnellement moins de « non-contact » et davantage de « non-réponse avec contact », comparativement à 2006.

Les poids ont d’abord été ajustés pour tenir compte des cas de « non-contact », puis des cas de « non-réponse avec contact », pour les adultes et les enfants séparément. Dans ce qui suit, le terme « non-réponse » sera utilisé pour les deux types de non-réponse. Le terme « répondant » désigne la personne qui fournit l’information sur la personne sélectionnée (habituellement elle-même dans le cas d’un adulte, ou le parent ou tuteur pour les enfants).

Chaque ajustement pour tenir compte de la non-réponse a été effectué en trois étapes. Dans la première étape, un modèle de régression logistique a été utilisé pour prédire la probabilité de répondre (probabilité d’obtenir une réponse) pour chaque unité (à la fois pour les unités répondantes et non répondantes), à partir d’une série de variables explicatives. Ces variables explicatives sont scindées en deux groupes. Dans le premier groupe, on retrouve les caractéristiques « personnes » ou « ménages » de l’ENM pour la personne sélectionnée ou du parent ou tuteur de l’enfant (p. ex. groupe autochtone de la personne sélectionnée ou du parent ou tuteur de l’enfant, nombre de personnes dans le ménage de la personne sélectionnée, etc.). Dans le second groupe de variables explicatives, on retrouve les variables de collecte appelées « paradonnées ». Le nombre de tentatives de contacts avec un sujet, le fait que des tentatives de dépistages aient été requises ou non sont des exemples de variables de paradonnées retenues par les modèles de régression logistique. Les paradonnées ont été considérées comme des variables particulièrement utiles pour prédire la réponse ou la non-réponse. En effet, nombre de ces variables mesurent les efforts déployés pour contacter une personne ou pour obtenir une réponse d’une personne contactée. Par exemple, les personnes pour lesquelles un nombre important de tentatives de contacts ont été nécessaires ont été considérées comme très similaires aux personnes non contactées (toutes les tentatives ont échouées).

Dans la deuxième étape, les répondants et non-répondants ayant des probabilités prédites de réponse similaires ont été regroupés en classes d’ajustement en se servant de l’analyse de classification. Une simulation a été effectuée pour déterminer de façon approximative le nombre optimal de classes ainsi que le nombre de répondants minimum par classe. Le taux de réponse a été calculé pour chacune des classes en fonction du nombre de répondants et de non-répondants dans la classe. Le taux de réponse calculé était pondéré par les poids obtenus à l’étape d’ajustement précédente.

Dans la troisième étape, l’inverse du taux de réponse pondéré dans une classe a servi de facteur d’ajustement pour cette classe, et les poids des unités répondantes à l’intérieur de la classe ont été ajustés en conséquence. Les poids des unités non-répondantes ont été mis à 0.

Il est important de noter qu’à cette étape, toutes les unités considérées comme étant hors du champ de l’enquête ont été classées comme étant des répondants. En effet, toutes les informations nécessaires ont été obtenues de ces personnes pour déterminer qu’elles étaient hors du champ de l’enquête. Les poids de ces unités ne faisant pas partie du champ de l’enquête ont été mis à 0 à la dernière étape de l’ajustement des poids et ces unités ont été retirées du fichier analytique. Le fait de les conserver jusqu’à la dernière étape permettra de produire à l’interne des estimations pondérées de différents groupes d’unités hors de la population cible. Ceci sera, entre autres, très utile pour l’estimation de certains paramètres lors d’une prochaine enquête.

6.4 Ajustement pour les répondants partiels

Les répondants partiels correspondent aux personnes ayant l’identité autochtone dans l’EAPA mais qui n’ont pas fourni suffisamment de renseignements pour correspondre à la définition de répondant tel que décrite au chapitre 5. Les répondants partiels sont au nombre de 157, ce qui devrait avoir peu d’impact sur les estimations.

L’ajustement a été effectué selon la région, le groupe autochtone et le groupe de scolarité mesurés dans l’ENM. Certains regroupements ont été effectués à partir du croisement de ces variables de façon à obtenir un nombre suffisant d’observations pour calculer le facteur d’ajustement. Sachant que ces répondants partiels ont déclaré l’identité autochtone, seuls les poids des répondants d’identité autochtone ont été augmentés pour tenir compte des répondants partiels (les poids des hors-champs, y compris les non-Autochtones à l’EAPA n’ont pas été modifiés). Les poids des répondants partiels ont alors été mis à 0.

6.5 Poststratification

La poststratification (aussi appelée ajustement par stratification a posteriori) fait en sorte que la somme des poids ajustés des unités répondantes correspond aux estimations de l’ENM, selon différents groupes appelés poststrates.

Dans le cas de l’EAPA , deux poststratifications distinctes ont été effectuées. La première poststratification visait à ajuster les poids à la population d’identité ou d’ascendance autochtone de l’ENM par poststrate en utilisant les variables d’identité et d’ascendance qui ont été prises de la BDR (voir la sous-section 3.1.3) lors de la sélection de l’échantillon (et non les variables mesurées à l’EAPA qui font plutôt l’objet de la 2e poststratification). Les poststrates sont définies à partir de certaines combinaisons de la région, du type d’Autochtone (identité autochtone ou ascendance autochtone seulement), du groupe autochtone (Première Nation avec statut, Première Nation sans statut, Métis, Inuit, autre) et du groupe d’âge (6 à 14 ans, 15 à 44 ans et 45 ans et plus). La distinction entre Première Nation avec et sans statut a été faite uniquement pour les provinces entre l’Ontario et la Colombie Britannique. Il est important de mentionner que les estimations de l’ENM sur lesquelles les poids sont ajustés correspondent exactement à la couverture de l’EAPA . Il s’agit donc de la population d’identité ou d’ascendance autochtone âgée de 6 ans et plus au 1er février 2012, excluant celle vivant dans les réserves et certaines communautés de Premières Nations dans les territoires.

Les poids ont été ajustés selon le ratio de l’estimation pondérée de l’ENM et de l’estimation pondérée de l’échantillon pour chaque poststrate. Ceci fait en sorte que l’échantillon ne sous-représentait ou ne surreprésentait pas certaines combinaisons de groupes autochtones, régions et groupes d’âge de l’ENM.

Étant donné que les réponses aux questions définissant la population d’identité autochtone (présentées à la sous-section 3.1.1) peuvent différer entre l’EAPA et l’ENM, une seconde poststratification a été effectuée. Il est à noter que les questions de l’EAPA définissant la population d’identité autochtone sont légèrement différentes de celles posées dans l’ENM (voir le tableau 1 à la section 2 et la sous-section 3.1.1). La seconde poststratification faisait en sorte que la population d’identité autochtone estimée à partir des questions de l’EAPA, correspondait à celle définie dans l’ENM à l’intérieur de chaque poststrate. À noter que, contrairement à la première poststratification, la deuxième n’était pas une poststratification « classique » où les poids étaient réajustés pour tenir compte de la sous-représentation ou surreprésentation de certains groupes dans l’échantillon. En effet, les réponses aux questions sur l’identité autochtone à l’EAPA pouvaient être différentes de celles obtenues par l’ENM pour diverses raisons (section 8.1). Il s’agissait plutôt d’une poststratification « pratique » qui faisait en sorte que les comptes de population d’identité autochtone selon l’EAPA étaient les mêmes que ceux obtenus à l’ENM. Après cette étape, seuls les répondants ayant l’identité autochtone selon l’EAPA avaient des poids positifs.

Il est important de noter que le système de traitement et d’imputation de l’EAPA de 2012 faisait en sorte qu’une catégorie d’identité autochtone n’existait plus. Il s’agissait du groupe « Indien avec statut ou membre d’une Première Nation/bande indienne seulement » (voir la sous-section 3.2.1). Les cas appartenant à ce groupe ont été imputés comme étant des Premières Nations dans l’enquête de 2012. Lors de la seconde poststratification, les personnes de ce groupe à l’ENM ont aussi été combinées avec les Premières Nations. Comme il était impossible de préserver les comptes d’identité multiples entre l’EAPA et l’ENM (comptes trop petits et écarts trop grands), les personnes déclarant une identité de Première Nation et Métis, Première Nation et Inuit ou Première Nation, Métis et Inuit ont été combinées à celles déclarant une identité de Première Nation lors de la seconde poststratification. Les personnes déclarant une identité de Métis et d’Inuit ont été combinées aux Métis. Les secondes poststrates sont formées de certaines combinaisons spécifiques de la région, du groupe d’identité autochtone (Première Nation avec statut, Première Nation sans statut, Métis, Inuit) ainsi que du groupe d’âge (6 à 14 ans, 15 à 44 ans et 45 ans et plus).

6.6 Ajustement des poids extrêmes – méthode de l’écart-sigma

Une fois les ajustements de poids précédents effectués, certains poids pouvaient avoir de très grandes valeurs comparés aux autres. Ceci pouvait créer des problèmes lors de l’estimation si, en plus, les observations ayant de grands poids avaient des caractéristiques très distinctes des observations avec de plus petits poids. Une méthode appelée « écart-sigma » a été utilisée pour détecter ces poids extrêmes à l’intérieur de chaque poststrate, les poststrates étant étroitement reliées aux domaines d’estimation de l’enquête (voir la sous-section 3.2.1). Un exemple d’application de la méthode de l’écart-sigma est décrit dans Bernier et Nobrega (1998).Note1 La méthode de l’écart-sigma, telle qu’utilisée ici, visait à détecter les « valeurs aberrantes » (poids excessivement grands) en calculant la différence entre deux poids successifs, après que ceux-ci aient été triés en ordre décroissant. On a comparé cette différence à n*l’écart type des poids à l’intérieur de chaque poststrate. Si la différence dépassait n*l’écart type des poids, le poids le plus grand était déterminé comme aberrant. Lorsqu’un poids était déterminé aberrant, tous les autres qui lui étaient supérieurs, dans sa poststrate, étaient automatiquement considérés comme aberrants. Ces poids étaient alors tronqués à la valeur du premier poids non aberrant. Ensuite, la masse des poids tronqués était redistribuée à l’intérieur des poststrates par un ajustement ratio. Après avoir étudié plusieurs scénarios, une valeur de 2 a finalement été choisie pour n. Cette valeur particulière de n permettait de trouver les poids que nous aurions intuitivement considérés comme étant aberrants.


Note

  1. Bernier, J. et Nobrega, K. 1998. Outlier detection in asymmetric samples: A comparison of an inter-quartile range method and a variation of a sigma-gap method. Congrès annuel de la société Statistique du Canada, juin 1998.
Date de modification :