Annexe A - Méthodologie

Avertissement Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Méthodologie de l'Enquête sur la vitalité des minorités de langue officielle
Mises en gardes et limites quant à l'interprétation et à l'utilisation des données

Méthodologie de l'Enquête sur la vitalité des minorités de langue officielle

Population d'enquête
Instrument d'enquête
Plan d'échantillonnage
Source des données
Détection des erreurs et vérification
Estimation
Évaluation de la qualité
Contrôle de la divulgation
Mesure d'exactitude des données
Différence significative entre deux estimations

Population d'enquête

La population d'enquête comprend les enfants de moins de 18 ans dont au moins un des parents (âgé de 15 ans ou plus) fait partie de la minorité de langue officielle. Elle comprend également les adultes de 18 ans ou plus faisant partie de la minorité. L'enquête couvre les 10 provinces et les 3 territoires et exclut les personnes vivant dans les logements collectifs, les institutions, dans les réserves indiennes et dans les communautés inuit du Nord du Québec. Sont également exclus les résidents non permanents (détenteurs de permis de travail ou d'étude et les personnes qui réclament un statut de réfugié).

Les minorités de langue officielle sont définies essentiellement comme étant les personnes de langue française à l'extérieur du Québec et les personnes de langue anglaise au Québec y compris les personnes ayant une langue non officielle comme langue maternelle selon leur connaissance et leur utilisation du français ou de l'anglais. Les variables utilisées pour déterminer si une personne appartient à la population cible ou non sont la langue maternelle, la connaissance des langues officielles ainsi que la langue parlée le plus souvent à la maison. Une description plus détaillée des critères utilisés pour définir la population d'enquête se retrouve à la section 1 : Contexte et information relative à l'enquête.

Instrument d'enquête

Deux questionnaires ont été développés en consultation avec des clients externes, un questionnaire adulte et un questionnaire enfant. Le développement de chacun des questionnaires a été ponctué de plusieurs vagues de mise à l'essai. Des tests qualitatifs ont été effectués à plusieurs stades de développement alors qu'une enquête pilote a eu lieu un an avant la réalisation de l'enquête.

Plan d'échantillonnage

L'enquête est une enquête postcensitaire. Cela signifie que son échantillon a été sélectionné à partir des individus ayant complété le questionnaire long du Recensement de 2006, distribué à environ un ménage sur cinq de façon systématique. Les réponses aux questions sur la langue maternelle, la connaissance des langues officielles et la langue le plus souvent parlée à la maison permettent d'identifier la population cible de l'enquête.

Ensuite, un échantillon stratifié de personnes faisant partie de la population cible a été sélectionné. Les strates sont définies par le croisement des dix provinces et de certaines régions infraprovinciales (au Nouveau-Brunswick, au Québec et en Ontario), par sept groupes d'âges (0 à 4 ans, 5 à 11 ans, 12 à 17 ans, 18 à 24 ans, 25 à 44 ans, 45 à 64 ans et 65 ans ou plus). Les territoires ont été regroupés et seulement deux groupes d'âges ont été considérés dans le plan, les 0 à 17 ans et les 18 ans ou plus. D'autres variables de stratification ont été utilisées pour l'allocation de l'échantillon, la concentration de la population cible dans la région habitée, le fait d'être allophone ou non ainsi que des sous-régions géographiques dans certaines régions.

Ainsi, un échantillon de 30 794 adultes et un échantillon de 22 362 enfants ont été sélectionnés pour un total de 53 156 personnes dans l'enquête.

Source des données

La collecte a débuté le 10 octobre 2006 et s'est terminée le 15 janvier 2007. L'Enquête sur la vitalité des minorités de langue officielle (EVMLO) est une enquête à participation volontaire. La collecte des données a été réalisée à l'aide d'entrevues téléphoniques assistées par ordinateur (ITAO). Les données ont été recueillies directement auprès des répondants sélectionnés. Les entrevues par procuration n'étaient pas permises pour l'échantillon adulte. Dans le cas de l'échantillon enfant, un répondant avait été choisi a priori à partir de la base de sondage. Celui-ci était généralement l'un des deux parents de l'enfant ou, à de rares occasions, l'un des grands-parents si l'enfant ne vivait pas avec ses parents mais avec ses grands-parents. Comme l'appartenance de l'enfant à la population cible dépend de l'appartenance de ses parents (ou grands-parents) à la minorité de langue officielle, il était important de contacter le parent choisi pour l'entrevue et non n'importe lequel des adultes du ménage. Si le parent choisi était absent pour toute la durée de l'enquête, il était possible d'effectuer l'entrevue auprès de l'autre parent si, et seulement si, ce dernier faisait aussi partie de la minorité de langue officielle. Le questionnaire permettait d'identifier ces situations.

Détection des erreurs et vérification

Le système informatique utilisé par les intervieweurs pour recueillir les réponses des répondants lors de la collecte a permis de prévenir un certain nombre d'erreurs. Lorsqu'une réponse impossible, improbable ou incohérente était entrée par l'intervieweur dans le système, ce dernier émettait un message qui permettait à l'intervieweur de corriger l'erreur de frappe ou de vérifier l'information auprès du répondant, tout en l'empêchant d'aller plus loin tant que la correction n'était pas effectuée. Un contrôle de certaines entrevues était assuré par les surveillants des intervieweurs et une rétroaction était fournie afin d'éviter la répétition des erreurs.

Une fois la collecte complétée, un processus de traitement des données a été mis en place, incluant le traitement de la validité des réponses, la vérification de la cohérence entre les sections, le codage des réponses écrites, le contrôle de la cohérence des liens entre les membres du ménage, la dérivation du statut de réponse ainsi que le traitement des cheminements du questionnaire.

Estimation

L'étape qui suit le traitement des données de l'enquête consiste à attribuer un poids à chacun des enregistrements dans l'échantillon. Le calcul des poids comporte trois grandes étapes : (1) le calcul du poids initial, (2) l'ajustement pour la non-réponse et (3) la post-stratification.

  1. À la première étape, l'inverse de la probabilité de sélection est attribué comme poids initial à chaque enregistrement de l'échantillon. Ce poids reflète donc le plan d'échantillonnage utilisé.
  2. La correction des poids pour la non-réponse totale a été effectuée à l'aide d'une méthode prédisant la propension à répondre. La probabilité de réponse des répondants et des non-répondants a été estimée à l'aide d'un modèle de régression logistique. Des classes de réponse ont ensuite été formées à l'aide d'une analyse de classification à partir des probabilités de réponse prédites par le modèle. Une fois les classes formées, la masse de poids des non-répondants est transférée aux répondants à l'intérieur de chaque classe. La correction pour la non-réponse a été effectuée en trois parties pour chacun des deux échantillons : l'ajustement pour les « non contact », l'ajustement pour les refus et l'ajustement pour les hors champs. Comme les variables explicatives pour ces trois types de non-réponse sont différentes, il a été préférable de construire des modèles différents.
  3. La poststratification consiste à corriger les poids des enregistrements répondants de façon à ce que les totaux pour certaines variables comme la province, la région et le groupe d'âge soient cohérents avec les totaux du recensement correspondant.

L'erreur due à l'échantillonnage a été estimée à l'aide de la méthode du « bootstrap ». Des poids « bootstrap » ont été calculés et ajustés selon les mêmes étapes que pour les poids d'enquête. Ainsi, il est possible d'estimer la variance d'échantillonnage pour chaque estimation et de la présenter sous forme de coefficient de variation (CV).

Évaluation de la qualité

Des études qualitatives ont eu lieu à différentes étapes du développement du questionnaire afin de s'assurer de la qualité des questions. On s'est ainsi assuré que les questions étaient comprises par les répondants et qu'elles permettaient de bien mesurer les concepts. Une enquête pilote a également eu lieu environ un an avant l'enquête pour évaluer toutes les procédures, allant du contenu du questionnaire à l'analyse des données.

Afin de limiter la non-réponse et dans le but de minimiser les erreurs de mesure, les intervieweurs ont reçu une formation donnée par des membres de l'équipe de L'Enquête sur la vitalité des minorités de langue officielle (EVMLO). Ils avaient à leur disposition des manuels décrivant clairement les procédures et étaient sous la supervision de gens d'expérience qui pouvaient à tout moment les corriger ou les conseiller. Un suivi a aussi été effectué par les intervieweurs principaux auprès des gens qui refusaient de participer, dans le but de réduire la non-réponse. De plus, pendant les entrevues, les intervieweurs ont utilisé une fonction du système qui permettait d'insérer des commentaires de sorte qu'il était facile de résoudre certaines réponses invalides ou des interprétations erronées. Ces notes ont été utiles dans le traitement des données.

Contrôle de la divulgation

La Loi interdit à Statistique Canada de rendre publique toute donnée susceptible de révéler de l'information obtenue en vertu de la Loi sur la statistique et se rapportant à toute personne, entreprise ou organisation reconnaissable sans que cette personne, entreprise ou organisation le sache ou y consente par écrit. Diverses règles de confidentialité s'appliquent à toutes les données diffusées ou publiées afin d'empêcher la publication ou la divulgation de toute information jugée confidentielle. Au besoin, des données sont supprimées pour empêcher la divulgation directe ou par recoupement de données identifiables.

Afin d'assurer la confidentialité, toute estimation issue d'un groupe de moins de 10 personnes dans l'échantillon ne peut être publiée. L'arrondissement des estimations constitue une mesure supplémentaire qui permet d'assurer la confidentialité. Ainsi, les comptes de population et les totaux sont arrondis au multiple de dix le plus près alors que les ratios et les proportions sont arrondis à l'unité près.

Mesure d'exactitude des données

Les erreurs possibles dans une enquête peuvent être regroupées en deux catégories, selon qu'elles sont induites par l'échantillonnage ou non.

Les erreurs d'échantillonnage sont principalement dues au fait que l'on utilise un échantillon plutôt que la population entière pour l'analyse. Elles ne peuvent donc être évitées complètement, mais on peut en mesurer l'importance. Une mesure de cette forme d'erreur est donc fournie pour chacune des cellules des tableaux de données diffusés. Pour une estimation donnée, cette mesure est présentée sous forme de coefficient de variation (CV) qui est le rapport de la racine carrée de la variance (erreur-type) de l'estimation sur la valeur de l'estimation elle-même. Le CV donne la proportion que représente l'erreur-type par rapport à l'estimation. Ainsi, plus le CV est faible, plus l'estimation correspondante peut être jugée fiable. Les CV qui accompagnent les estimations dans les tableaux de l' L'Enquête sur la vitalité des minorités de langue officielle (EVMLO) ont été calculés à partir de la méthode du « bootstrap ».

Selon les lignes directrices qui régissent les publications de Statistique Canada, les données diffusées doivent être accompagnées d'une mesure de la qualité. Selon la taille du CV , une estimation peut être classée dans l'une des trois catégories de diffusion :

  • Si le CV est inférieur ou égal à 16,5 %, l'estimation peut être diffusée sans restriction.
  • Si le CV est supérieur à 16,5 % mais inférieur ou égal à 33,3 %, l'estimation doit être utilisée avec prudence car un niveau d'erreur élevé y est associé. Les estimations se trouvant dans cette catégorie sont accompagnées de la lettre « E ».
  • Si le CV est supérieur à 33,3 %, il est préférable de ne pas diffuser l'estimation tant l'erreur associée est élevée.

Les erreurs non dues à l'échantillonnage ne peuvent être estimées facilement, mais elles peuvent être évitées. Elles peuvent se produire à toutes les étapes d'une enquête. Il peut s'agir d'erreurs de couverture, de non-réponse, de mesure ou de traitement.

Les erreurs potentielles de couverture ont pu être évitées dans la plupart des cas en utilisant la base du recensement, laquelle procure une très bonne couverture de la population canadienne. Toutefois, comme le recensement s'effectue par auto-dénombrement et qu'il permet des réponses par procuration, des erreurs ont pu survenir dans les réponses aux questions linguistiques. Ainsi, un adulte d'un ménage donné pouvait répondre aux trois questions linguistiques pour les autres adultes du ménage sans avoir une connaissance suffisante pour ce faire. Une telle situation aurait pour conséquence l'inclusion d'un de ces individus dans la population cible alors qu'il ne devrait pas s'y trouver (surcouverture) ou, au contraire, l'exclusion d'individus qui devraient en faire partie (sous-couverture). Compte tenu du fait que les trois questions linguistiques « filtres » ont été posées au répondant concerné, une partie de la surcouverture a ainsi pu être corrigée. Une fois démontré que cette personne ne fait pas partie de la population cible, elle est exclue de l'échantillon et la pondération est ajustée en conséquence. Par contre, la sous-couverture n'a pas pu être corrigée et elle est difficilement quantifiable.

Le délai entre le recensement et la collecte pour une enquête postcensitaire est également un facteur important dans l'erreur de couverture. Les réponses à certaines questions sont en effet susceptibles de changer avec le temps. Par exemple, la réponse à la question sur la connaissance des langues officielles peut différer si l'on a fait l'apprentissage d'une langue officielle dans l'intervalle. La langue parlée à la maison peut également avoir changé. Bien que dans la plupart des cas, l'information soit relativement stable sur une courte période, il est tout de même important de minimiser le délai entre la création de la base de sondage et la collecte des données. Grâce à des changements dans la méthodologie et dans les opérations du recensement, il a été possible de sélectionner nos échantillons très rapidement et, ainsi, réduire le risque de changements dans les questions filtres.

Le taux de réponse pour l'enquête est d'environ 73 % (pour les échantillons d'adultes et d'enfants combinés). Dans le calcul de ce taux, les unités qui sont exclues de la population cible, les hors champs, ne font pas partie du calcul puisque la taille de l'échantillon avait été préalablement majorée pour tenir compte de ces éventuelles pertes. Si l'on s'intéresse plutôt à la proportion d'individus qui ont complété la totalité du questionnaire parmi ceux sélectionnés pour l'enquête, on obtient un taux de 67 %, les hors champ étant considérés comme des non-répondants. D'un autre point de vue, les hors champs pourraient aussi être considérés comme des répondants, puisque nous avons réussi à les rejoindre et à les interroger. Toutefois, cette option n'a pas été retenue ici.

De façon générale, les taux de réponse sont relativement semblables d'une région à l'autre du pays. Toutefois, certaines régions ou provinces affichent un taux de réponse nettement inférieur aux autres : soit Terre-Neuve-et-Labrador, Toronto, la Colombie-Britannique et les territoires. Ces régions affichent à la fois un taux de hors champs et un taux de non-contact supérieur aux autres régions. En plus de limiter le potentiel d'analyse, en raison du nombre réduit de répondants pour certains tableaux, la précision des estimations pour ces régions est inférieure à celle des autres régions. De plus, pour des groupes d'âge particuliers au sein de ces régions, les taux de non-contact et de hors champs sont à ce point élevés qu'il est difficile de garantir des estimations sans biais. Ainsi, nous suggérons d'utiliser avec précaution les résultats d'analyses pour les groupes suivants : les 18 à 24 ans de Terre-Neuve-et-Labrador, de Toronto et de Colombie-Britannique ainsi que les 65 ans ou plus de Terre-Neuve-et-Labrador, de Toronto et de la région du reste du Nouveau-Brunswick.

Les erreurs de mesure et de traitement sont difficiles à quantifier, mais elles ont pu être minimisées lors de la construction de l'application ITAO. Cette application a été mise à l'essai et corrigée lors des différentes étapes du développement de l'enquête.

Différence significative entre deux estimations

Lorsque l'on désire comparer deux estimations entre elles, on doit déterminer si la différence est statistiquement significative avant de tirer des conclusions. Puisqu' il y a une mesure d'erreur associée à chacune des estimations, il se peut que malgré leur différence apparente, les erreurs associées soient si élevées qu'on ne puisse affirmer que ces deux estimations sont différentes. La méthode recommandée lorsqu'on a accès à l'estimation de l'erreur type ou du coefficient de variation (CV) est la méthode dite du chevauchement des intervalles de confiance. Pour chacune des estimations, on calcule un intervalle de confiance à 95 %. Si les deux intervalles se chevauchent, on ne peut pas affirmer que les deux estimations sont différentes (ou, en termes plus techniques, avec un degré de confiance de 95 %, on ne peut pas rejeter l'hypothèse nulle selon laquelle il n'y a aucune différence statistique entre les deux estimations). Cependant, si les deux intervalles ne se chevauchent pas, il est possible d'affirmer que les deux pourcentages sont différents (en termes plus techniques, avec un degré de confiance de 95 %, on peut rejeter l'hypothèse nulle selon laquelle il n'y a aucune différence statistique entre les deux estimations).

Pour construire un intervalle de confiance à 95 % (IC95) lorsqu'on dispose d'une estimation et de son erreur type :

IC95 = estimation ± 1,96 X erreur-type

Comme c'est le coefficient de variation (CV) qui est fourni avec les estimations et que le CV est obtenu à l'aide de l'erreur type, on peut réécrire la formule :

IC95 = estimation ± 1,96 X [CV X estimation]

Mises en garde et limites quant à l'interprétation et à l'utilisation des données

Deux échantillons distincts : adultes et enfants
Base de sondage pour Terre-Neuve-et-Labrador et l'Île-du-Prince-Édouard
Allophones utilisant le français à Montréal
Poids élevés
Allophones et hors champs (échantillon adulte)
Hors champs
Couverture incomplète du groupe des 0 à 4 ans

Deux échantillons distincts : adultes et enfants

Les données de L'Enquête sur la vitalité des minorités de langue officielle (EVMLO) proviennent de deux échantillons distincts et non complémentaires, un échantillon d'adultes (personnes âgées de 18 ans ou plus) faisant partie de la minorité de langue officielle et d'un échantillon d'enfants de moins de 18 ans dont au moins l'un des parents (âgé de 15 ans ou plus) fait partie de la minorité de langue officielle. Ainsi, il n'est pas nécessaire qu'un enfant fasse partie de la minorité pour qu'il soit inclus dans l'échantillon. Pour cette raison, les résultats provenant des deux échantillons ne peuvent être combinés. Ainsi, aucun grand total de personnes faisant partie de la minorité ne sera publié.

Base de sondage pour Terre-Neuve-et-Labrador et l'Île-du-Prince-Édouard

La population cible étant relativement peu nombreuse à Terre-Neuve-et-Labrador et à l'Île-du-Prince-Édouard, le questionnaire long du recensement distribué à un ménage sur cinq ne permettait pas d'identifier assez de gens pour garantir des estimations de qualité à partir de l'échantillon de L'Enquête sur la vitalité des minorités de langue officielle (EVMLO). Il a donc été nécessaire de recourir également au questionnaire court, afin d'avoir accès à toute la population cible. L'inconvénient avec cette mesure est que le questionnaire court est moins précis pour identifier la population cible, ne comportant qu'une seule question sur la langue (la langue maternelle), que le questionnaire long à partir duquel trois questions sur la langue sont utilisées.

Allophones utilisant le français à Montréal

Dans la région de Montréal, où l'on s'intéresse particulièrement à la situation des allophones, un échantillon d'allophones utilisant le français (et non la langue de la minorité, l'anglais) a aussi été sélectionné. Cette partie de l'échantillon n'est utilisée que dans le but d'obtenir un portrait complet de la situation des allophones dans la région de Montréal et ne peut être utilisée qu'à cette fin. Ces individus formeront ainsi toujours un groupe à part dans les tableaux et ils ne pourront en aucun temps être agrégés aux autres.

Poids élevés

Il n'est pas très efficace de sélectionner un très grand nombre de personnes provenant d'un milieu homogène où l'on obtiendrait des réponses très semblables. Il est en effet plutôt préférable d'avoir une diversité de milieux desquels on sélectionne les gens. Ainsi, la stratégie d'échantillonnage adoptée nous a permis de hausser le taux d'échantillonnage dans les milieux moins homogènes par rapport à ce qu'aurait fait un échantillonnage purement proportionnel. Cette mesure a été utilisée dans le but d'accroître l'efficacité de l'échantillonnage. Mais, plus on s'éloigne de la proportionnalité, plus on augmente la variabilité des poids. Ainsi, il peut arriver, dans certains tableaux, qu'une ou quelques observations ayant un poids relativement plus élevé que les autres, influencent l'estimation de façon importante. La stratégie de pondération a été élaborée de façon à limiter ce genre de situation, mais il est toujours préférable d'étudier la distribution des poids lorsqu'on observe des résultats surprenants.

Allophones et hors champs (échantillon adulte)

Les allophones qui utilisent la langue de la minorité ont été couverts de façon proportionnelle à l'intérieur de chacun des domaines géographiques. Ainsi, nous retrouvons dans l'échantillon environ la même proportion d'allophones que dans la population. Dans la région de Toronto et dans la province de la Colombie-Britannique, ils représentent une fraction importante de la population cible totale (plus de 50 %) et, par conséquent, de l'échantillon. Nous observons un taux de hors champs relativement élevé chez les allophones dans l'enquête (environ 26 %). La principale raison pour laquelle on obtient un taux de hors champs de cette ampleur pour ces deux régions (respectivement 20 % et 14 %) tient au nombre d'allophones dans l'échantillon. En effet, les allophones qui se retrouvent hors champs représentent 72 % de tous les hors champs de Toronto et 51 % des hors champs de la Colombie-Britannique.

Hors champs

Certains domaines d'estimation présentent un taux de hors champs assez élevé de sorte que les résultats qui y sont associés doivent être utilisés avec prudence. C'est le cas du groupe des 5 à 11 ans (21 %) et du groupe des 18 à 24 ans 28 % à Terre-Neuve-et-Labrador. Une partie du problème peut être expliquée par le fait qu'une fraction de l'échantillon, pour cette province, a été sélectionnée parmi les gens ayant répondu au questionnaire court du recensement et pour lesquels on a observé un taux de hors champs plus élevé que pour ceux ayant répondu au questionnaire long. À Toronto et en Colombie-Britannique, les cas hors champs représentent une proportion non négligeable de l'échantillon pour tous les groupes d'âge (voir section précédente), mais c'est pour le groupe des 18 à 24 ans que la situation est la plus problématique, avec un taux de 32 % à Toronto et de 23 % en Colombie-Britannique. En dernier lieu, dans les territoires, le groupe des enfants est le plus durement touché avec 20 % de cas hors champs alors que pour le groupe des adultes ce taux atteint 13 %.

Couverture incomplète du groupe des 0 à 4 ans

Étant donné qu'il s'est écoulé environ cinq mois entre le début du recensement et le début de la collecte pour L'Enquête sur la vitalité des minorités de langue officielle (EVMLO), et que la date de référence pour le calcul de l'âge dans l'enquête correspond au début de la collecte, on ne peut donc pas affirmer que les enfants âgés de 5 mois ou moins ont été couverts par l'enquête. Toutefois, pour différentes raisons, certains enfants qui n'étaient pas nés au moment du recensement ont été inclus dans l'échantillon au moment de la collecte. Ainsi, même s'il y a un certain nombre de bébés de 5 mois ou moins dans l'échantillon, comme leur couverture est incomplète, ils ne doivent pas faire l'objet d'une analyse spécifique.