Publications
Apprentissage et réussite : premiers résultats de l'Enquête sur la littératie et les compétences des adultes
Annexe B
Méthodes d'estimation et d'établissement d'un lien entre les échelles
Consulter la version la plus récente.
Information archivée dans le Web
L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.
Estimation et échelonnage des compétences de l'ELCA
Vraisemblance des schémas de réponse
Estimation des résultats et des valeurs plausibles
Conception de livrets avec renouvellement
Estimation des paramètres
Différences liées aux items
Établissement d'un lien entre les échelles de
littératie de l'ELCA et de l'EIAA
Notes en fin de texte
Bibliographie
Estimation et échelonnage des compétences de l'ELCA
Dans l'Enquête sur la littératie et les compétences des adultes (ELCA), l'estimation et l'échelonnage des compétences reposaient sur l'application de la théorie de la réponse à l'item (TRI). Cette théorie suppose que la proportion de répondants qui possèdent un certain niveau de compétence et qui répondent correctement à un certain item dépend entièrement de la relation entre les caractéristiques de l'item et le degré de compétence dans le domaine du test. Autrement dit, la réponse à un item donné ne dépend pas d'autres caractéristiques, d'autres répondants ou des autres items compris dans le test. Essentiellement, les répondants possédant un niveau de compétence élevé sont censés offrir un meilleur rendement à chaque item que ceux dont le niveau de compétence est faible.
Ce principe constitue une extension de l'indice de discrimination classique, qui représente l'exactitude avec laquelle un item mesure la compétence. On calcule cet indice en comparant la proportion de bonnes réponses chez les répondants au niveau de compétence élevé et cette proportion chez ceux dont le niveau de compétence est faible. Si l'on incluait la proportion de bonnes réponses des répondants au rendement moyen, les résultats pour un item typique se présenteraient de la manière illustrée à la figure B.1. La proportion de bonnes réponses d'un groupe augmente en fonction du niveau de compétence. Plus l'écart entre les barres adjacentes s'accroît, plus l'item est considéré comme exact, car il permet de mieux distinguer les personnes au niveau de compétence élevé de celles dont le niveau de compétence est faible; les premières seraient donc plus portées que les secondes à donner une bonne réponse à l'item en question.
Figure B.1 Proportions prévues de bonnes réponses par niveau de compétence
Si l'on regroupait les répondants en plus de trois catégories, un graphique détaillé ressemblerait à celui de la figure B.2. Ici, un plus grand nombre d'estimations étant tirées des données, le risque d'erreur d'échantillonnage dans chacune des estimations est donc plus élevé, ce qui entraîne des irrégularités et parfois des proportions élevées de bonnes réponses pour des répondants dont le niveau de compétence est faible. Sur le plan statistique, on peut réduire l'erreur d'échantillonnage en supposant que la relation doit être lisse et monotone (en hausse seulement) et en adaptant statistiquement la courbe aux résultats. Cette courbe, appelée fonction de la réponse à l'item (FRI), représente la probabilité de bonne réponse pour chaque niveau de compétence (Lord, 1980).
Figure B.2 Relation entre les proportions estimées (barres verticales) et la probabilité conditionnelle (ligne)
La pente de la courbe FRI évolue à mesure qu'on se déplace d'un niveau faible à un niveau élevé sur l'échelle de compétence. Le point où la pente est la plus prononcée est appelé point d'inflexion. La courbe de chaque FRI est déterminée par trois propriétés appelées paramètres d'item : premièrement, l'asymptote inférieure; deuxièmement, la pente au point d'inflexion; troisièmement, l'emplacement du point d'inflexion sur l'échelle de compétence. Ces trois paramètres sont illustrés dans la figure B.3, qui représente la compétence à l'aide de l'échelle classique, avec une moyenne de 0 et un écart-type de 1. Chaque paramètre fait l'objet d'une définition conceptuelle :
- L'asymptote inférieure représente la probabilité, pour des répondants qui ne peuvent produire la bonne réponse (c'est-à-dire. qui ne possèdent pas le niveau de compétence nécessaire pour répondre correctement à l'item), de donner une réponse qui sera notée « bonne ». Ce paramètre peut être contraint lorsque la construction de l'item élimine pratiquement la probabilité de deviner la bonne réponse, par exemple dans le cas d'items ouverts. Dans l'EIAA (Enquête internationale sur l'alphabétisation des adultes) comme dans l'ELCA, toutes les asymptotes inférieures ont été contraintes de manière à être nulles.
- La pente de la courbe FRI représente, pour chaque valeur donnée de la compétence des élèves, la capacité d'un item d'établir une distinction entre les personnes dont la compétence est inférieure ou supérieure à cette valeur. Plus la pente est prononcée, plus la distinction est grande. Un item correspondant à une pente prononcée établit une forte distinction au point d'inflexion, alors qu'un item correspondant à une courbe lisse et allongée horizontalement établit une faible distinction.
- L'emplacement de l'item indique le niveau de compétence pour lequel l'item offre la plus grande exactitude. Les items qui mesurent exactement les faibles niveaux de compétence sont habituellement moins difficiles que ceux qui mesurent exactement une compétence élevée. Par conséquent, les items faciles correspondent habituellement à un point d'inflexion situé assez près de l'extrémité « faible compétence » de l'échelle.
Figure B.3 Paramètres d'une fonction de la réponse à l'item
Vraisemblance des schémas de réponse
Si la compétence d'un répondant est déjà connue, la FRI de chaque item produit une estimation unique indiquant la vraisemblance d'une réponse observée à l'item. Si la réponse à un item est bonne, cette vraisemblance est égale à la valeur de la FRI à l'emplacement de la compétence du répondant. Si la réponse est mauvaise, la vraisemblance est égale à 1, moins la valeur de la FRI. La vraisemblance d'un schéma de réponse complet est le produit de la vraisemblance de tous les items, évaluée selon une valeur de compétence donnée. Un schéma de réponse unique produit une vraisemblance différente en fonction de la valeur de la compétence du répondant.
Si les répondants offrent un rendement uniforme en réponse à tous les items, que les items mesurent exactement le domaine de test et qu'on a administré un nombre suffisant d'items, on n'observe alors des valeurs élevées de la vraisemblance que pour un éventail très étroit de compétences. Toutefois, si l'une ou l'autre de ces conditions n'est pas remplie, toutes les valeurs de la vraisemblance pour un schéma de réponse sont relativement faibles et un vaste éventail de niveaux de compétence présentent à peu près la même vraisemblance. Si la vraisemblance est faible pour tous les résultats, c'est que le test fournit des données insuffisantes pour estimer exactement les résultats.
Lorsque les items administrés à un répondant ne suffisent pas à produire des estimations exactes, on peut utiliser d'autres données pour conditionner les fonctions de vraisemblance. Le conditionnement utilise des données concernant une population élargie de répondants pour estimer la vraisemblance qu'un répondant présentant certaines caractéristiques possède un certain niveau de compétence (par exemple des répondants peu scolarisés sont généralement moins susceptibles de posséder une compétence élevée en lecture). Combiné avec les données sur la vraisemblance liées aux réponses aux items, le conditionnement peut produire des indications plus exactes d'une compétence individuelle que le seul recours aux réponses aux items.
La figure B.4 montre les effets du conditionnement en comparant la fonction de vraisemblance pour un répondant individuel avant le conditionnement à la répartition des compétences de tous les répondants possédant des caractéristiques semblables. Dans cette figure, on a uniformisé les échelles verticales de toutes les fonctions pour qu'elles figurent sur le même graphique de manière à ce que l'intégrale définie pour l'éventail observé soit égale à 1. La fonction de vraisemblance conditionnelle (appelée aussi distribution a posteriori) est le produit de la fonction de vraisemblance individuelle et de la distribution de conditionnement (ou distribution a priori). L'étendue de la fonction de vraisemblance conditionnelle est plus étroite que celle des autres fonctions; il s'agirait donc d'une représentation plus exacte de la compétence individuelle que l'une ou l'autre des fonctions initiales.
Figure B.4 Exemples d'une fonction de vraisemblance inconditionnelle (ligne continue), d'une fonction de conditionnement (ligne en tirets) et d'une fonction de vraisemblance conditionnelle (ligne pointillée)
Le conditionnement vise avant tout à réduire le biais introduit dans l'estimation des notes lorsqu'on administre l'ensemble d'items à tous les répondants. Comme les répondants possèdent différents degrés de compétence, ils ne répondent pas tous correctement au même nombre d'items. Par conséquent, les notes des répondants dont la proportion de bonnes réponses s'écarte nettement de 0,50 reposent sur moins de données que les notes brutes des répondants qui se situent à 0,50. On a tendance à sous-estimer les notes brutes inférieures à 0,50, car le test ne met pas sur le même pied les données concernant la limite supérieure et celles concernant la limite inférieure des notes des répondants. L'inverse est vrai pour les répondants dont les notes brutes sont supérieures à 0,50. Lorsqu'on introduit une fonction de conditionnement, les données concernant l'ensemble de la population de répondants remplacent des données qui, autrement, reposeraient sur un trop grand nombre d'items extrêmement faciles ou extrêmement difficiles.
Estimation des résultats et des valeurs plausibles
Si la compétence des répondants n'est pas déjà connue, on peut alors utiliser la vraisemblance conditionnelle d'un schéma de réponse pour estimer la compétence d'un répondant donné. Pour les personnes, la meilleure estimation repose sur la compétence qui produit la vraisemblance la plus élevée, appelée estimation du maximum de vraisemblance.
Lorsqu'on a recours au conditionnement, on estime les données concernant la compétence des personnes à l'égard de réponses inconnues (réponses manquantes ou réponses hypothétiques à un plus vaste ensemble d'items) d'après des données fondées sur la répartition des réponses pour une population de répondants semblables. Si l'on avait observé directement les données pour chaque répondant, les données observées varieraient selon les répondants. Toutefois, le processus de conditionnement utilise les mêmes données pour des groupes entiers de répondants présentant des caractéristiques de conditionnement équivalentes. Comme l'estimation du maximum de vraisemblance n'indique qu'un emplacement unique de la fonction de vraisemblance, elle n'exprime pas adéquatement l'incertitude que comporte l'application d'une estimation de population à un répondant unique. Par conséquent, les estimations du maximum de vraisemblance sont moins variables que ne le seraient les estimations vraies si l'ensemble complet d'observations était disponible. Les statistiques qui reposent sur une estimation exacte de la variabilité d'une population (comparaisons de moyennes de groupe, centiles, tests de signification statistique, etc.) produisent donc des résultats incorrects si elles portent sur l'estimation du maximum de vraisemblance(ou toute autre « meilleure » estimation).
Afin d'éviter que le conditionnement ne réduise artificiellement la variabilité, on peut représenter l'incertitude de la fonction de vraisemblance fondée sur le test et celle de la distribution de conditionnement en faisant des imputations multiples couvrant l'éventail plausible des compétences du répondant. Chaque imputation, ou valeur plausible, est choisie au hasard, la probabilité de sélection étant plus grande pour les estimations de la compétence dont la valeur est plus élevée selon la fonction de vraisemblance conditionnelle. Si chaque valeur plausible n'est pas optimale pour chaque répondant, chaque ensemble de valeurs plausibles pour la totalité de l'échantillon produit cependant des statistiques plus exactes aux niveaux de la population et de la sous-population que l'estimation du maximum de vraisemblance ou d'autres « meilleures » estimations au niveau individuel.
Conception de livrets avec renouvellement
Les promoteurs d'une enquête espèrent généralement recueillir le plus de renseignements possible, dans la mesure où les limites pratiques du processus de collecte le permettent.
Les interviews de l'ELCA duraient en moyenne une heure et demie, soit la durée maximale qu'on estimait pouvoir imposer aux répondants sans trop les fatiguer ni accroître leur taux d'abandon. La première moitié de l'interview était consacrée au questionnaire et la deuxième, aux tests. Le nombre de questions de test qu'on pouvait poser au répondant en trois quarts d'heure environ était insuffisant pour couvrir les quatre domaines que l'ELCA visait à mesurer. Toutefois, grâce à l'imputation statistique, on a attribué des notes à tous les répondants dans les quatre domaines de compétence1.
La validité de l'imputation statistique repose sur le respect des conditions suivantes :
- Les données non observées (appelées plus couramment données manquantes) doivent être aléatoires, c'est-à-dire que leur absence n'est pas liée à une caractéristique qui serait en corrélation avec les données si elles étaient observées2. Dans les ouvrages publiés, les données manquantes de ce type sont dites « MAR » (manquant au hasard).
- Les questions de l'échantillon doivent être réparties de manière à créer un chevauchement suffisant des questions pour pouvoir inférer des corrélations.
- Les données doivent être traitées à l'aide d'un modèle TRI qui, en distinguant la compétence de la difficulté des questions, sert à déterminer la probabilité qu'un répondant donne une bonne réponse à une question donnée.
Lorsque ces conditions sont respectées, il devient possible de ne pas poser toutes les questions à tous les répondants. On peut ainsi accroître le nombre total de questions bien au-delà du nombre qu'on aurait pu poser à un seul répondant et, de ce fait, couvrir un certain nombre de domaines, ce qui aurait été impossible autrement3. Comme nous avons déjà abordé la troisième condition, nous allons voir ci-dessous comment on a respecté les deux premières conditions.
Il y avait en tout 160 questions (ou items)4 : 52 en compréhension de textes suivis, 48 en compréhension de textes schématiques, 41 en numératie et 19 en résolution de problèmes. On a réparti les 100 questions de littératie en quatre blocs (blocs 1 à 4), les 41 questions de numératie, en deux blocs (blocs 5 et 6) et les 19 questions de résolution de problèmes, en deux blocs également (blocs 7 et 8). Combinés par paires, les huit blocs constituaient les 28 livrets représentés ci-dessous. Chaque répondant a reçu un seul livret et chaque livret a été présenté au même nombre de répondants; les livrets ont été attribués au hasard pour satisfaire à la première condition.
Figure B.5 Répartition des huit blocs en 28 livrets
Note : Littératie = blocs 1 à 4, Numératie = blocs 5 et 6, Résolution de problèmes = blocs 7 et 8.
B = Blocs; D = Document; L = littératie, N = Numératie; RP = Résolution de problème
On a réalisé toutes les combinaisons possibles de paires de blocs entre les blocs de littératie (6 livrets), entre les blocs de littératie et de numératie (8 livrets) et entre les blocs de littératie et de résolution de problèmes (8 livrets). Ces combinaisons représentent au total 22 livrets, complétés par les livrets 5 et 8, qui reprennent les livrets 2 et 4 en inversant l'ordre des blocs; les livrets 17 et 18, composés de deux blocs de numératie en ordre inverse; et les livrets 27 et 28 en résolution de problèmes. Aucun livret ne contenait à la fois des items de résolution de problèmes et de numératie. Cette configuration des livrets crée un chevauchement des questions qui satisfait à la deuxième condition.
Chaque répondant devait remplir un seul livret de test, donc répondre aux questions de deux des blocs existants. On a noté le rendement de chaque répondant dans les quatre domaines testés. Les données de chaque domaine représenté par les carrés vides dans le diagramme de la composition des livrets sont établies grâce au processus de conditionnement et d'imputation. Les livrets ont été attribués aux répondants au hasard, ce qui satisfait à l'hypothèse MAR mentionnée plus haut.
Estimation des paramètres
Les paramètres d'une fonction de la réponse à l'item sont estimés directement à partir des données de réponse. Sur le plan conceptuel, l'estimation des paramètres suit un processus itératif en deux étapes. Premièrement, on estime des fonctions de vraisemblance provisoires pour les répondants. Puis, ces fonctions de vraisemblance servent à estimer des paramètres d'item provisoires. Les deux étapes constituent un cycle d'estimation, et chaque cycle accroît l'exactitude des estimations provisoires. On répète les cycles d'estimation jusqu'à ce que les cycles successifs cessent d'accroître l'exactitude des résultats (lorsque la variation absolue des estimations provisoires des paramètres d'item entre les cycles est inférieure à 0,005).
La procédure est grandement simplifiée grâce à la technique du maximum de vraisemblance marginale, qui n'estime pas un résultat unique pour chaque répondant (on trouvera une introduction à cette technique dans Bock et Aitkin, 1981 ou Dempster, Laird et Rubin, 1977). On attribue plutôt à chaque répondant plusieurs résultats prédéterminés. À chaque résultat correspond un poids proportionnel à la valeur de la fonction de vraisemblance du répondant pour le résultat en question. Ce poids sert à estimer la note moyenne par item de tous les répondants, calculée pour chacun des résultats prédéterminés de l'ensemble5. Comme toutes les notes par item sont de 0 ou 1, la note moyenne par item est la proportion de bonnes réponses pour chaque résultat.
Différences liées aux items
Pour que les estimations des résultats soient des représentations valides de la compétence, la relation entre la compétence et la probabilité de bonne réponse liée à chaque item doit être vraie. Dans certaines populations, toutefois, les FRI ne fournissent pas toujours une description exacte. Par exemple, certains items, une fois traduits, deviennent plus complexes – donc plus difficiles – à cause de différences linguistiques, inévitables en traduction. D'une population à l'autre, un item peut aussi avoir une relation différente avec la compétence en raison d'un biais culturel et d'une construction ou d'une administration fautive des items.
On compare les relations entre les estimations de la compétence et la probabilité de réponse à l'item pour tous les pays. On a calculé ces relations en utilisant séparément les estimations de compétence produites à l'aide de tous les items et la proportion de bonnes réponses dans chaque pays (comme dans la figure B.2). Si une relation est différente dans un pays donné, il est possible d'attribuer à l'item des paramètres propres au pays en question. Cette méthode permet d'utiliser les données des réponses aux items pour estimer la compétence sans biaiser les estimations par une FRI erronée. Si des items présentent des relations divergentes dans plus de trois pays participants, on les retire de l'évaluation et on ne les utilise pas pour calculer la compétence.
Établissement d'un lien entre les échelles de littératie de l'ELCA et de l'EIAA
Bon nombre d'items de test utilisés dans l'ELCA avaient déjà servi, dans l'Enquête internationale sur l'alphabétisation des adultes (EIAA), à mesurer les concepts de compréhension de textes suivis et de compréhension de textes schématiques. Dans l'ensemble, l'ELCA comprenait 55 items de compréhension de textes suivis et 54 items de compréhension de textes schématiques, dont les items du livret de base. Ces derniers comprenaient 19 items de compréhension de textes suivis et 20 items de compréhension de textes schématiques de l'EIAA. La numératie et la résolution de problèmes étant de nouveaux domaines, il n'y a pas d'items communs à ces domaines dans l'EIAA et l'ELCA. On a réparti les items de littératie communs en blocs d'items de manière à ce que chaque bloc contienne un nombre à peu près égal d'items des deux domaines de littératie de l'EIAA (voir le tableau B.1). On a ensuite réparti les blocs en 28 livrets de test (voir la figure B.5). La répartition uniforme et équilibrée des items communs dans tous les blocs a permis d'établir, au niveau des items, un lien statistique entre l'échelle de l'EIAA et celle de l'ELCA.
Ce lien a été établi au niveau des items en combinant les données des réponses de l'EIAA à celles de l'ELCA et en calant simultanément tous les items de test. En contraignant les items communs pour conserver les mêmes propriétés statistiques que dans l'EIAA au moment de l'estimation, on a également contraint les items restants pour les estimer selon la même échelle provisoire que l'EIAA.
Après avoir prélevé des valeurs plausibles pour chaque répondant selon la méthode décrite plus haut dans la présente annexe, on a transféré les résultats à l'échelle de déclaration de 0 à 500 utilisée pour l'EIAA avec les constantes de transformation figurant dans le tableau B.2. La formule utilisée pour produire les résultats définitifs est θ=Aθ*+B, où θ* est l'échelle provisoire établie à l'aide du lien au niveau des items entre l'EIAA et l'ELCA.
La mesure dans laquelle on peut établir des comparaisons valides entre les résultats en littératie de l'EIAA et de l'ELCA dépend du degré de similitude entre les deux instruments en termes de couverture, de contenu, d'exactitude et de méthodes de détermination des résultats. On trouvera dans Mislevy (1992) et Linn (1993) des descriptions succinctes de types de liens différents sur le plan qualitatif. En bref, la similitude de contenu, de composition et d'administration entre les deux évaluations, ainsi que la stabilité des modèles statistiques utilisés pour estimer les résultats, produisent un lien très étroit. Ce lien permet de faire des inférences valides concernant les variations de niveau de littératie entre les populations et sous-populations de répondants à l'EIAA et à l'ELCA, comme si les deux enquêtes avaient utilisé le même instrument d'évaluation.
Pour les domaines de la numératie et de la résolution de problèmes, on a utilisé des items qui ne sont pas liés à une évaluation antérieure. Toutefois, la méthode d'établissement de ces échelles numériques est la même que dans le cas des échelles de littératie. Le tableau B.3 montre les constantes utilisées pour établir les échelles de résolution de problèmes et de numératie.
Notes en fin de texte
- Pour tous les domaines abordés dans l'échantillon respectif de chaque répondant.
- Les données sont donc manquantes pour une raison propre à au moins un sous-groupe.
- Il faut alors augmenter le nombre d'interviews.
- Ce chiffre ne comprend pas les six questions préliminaires du livret de base, posées à tous les répondants afin d'éliminer ceux qui seraient incapables de réussir les parties les plus simples de l'ensemble du test.
- Tous les répondants sont aussi pondérés par leur poids d'échantillonnage.
Bibliographie
Bock, R.D. et Aitkin M. (1981), « Marginal Maximum Likelihood Estimation of Item Parameters: An Application of an EM Algorithm », Psychometrika, Vol. 46, pp. 443-449.
Dempster, A.P., Laird N.M. et Rubin D.B. (1977), « Maximum Likelihood from Incomplete Data Via the EM Algorithm », Journal of the Royal Statistical Society B, Vol. 39, pp. 1-38.
Linn, R.L. (1993), « Linking Results of Distinct Assessments », Applied Measurement in Education, Vol. 6, pp. 83-102.
Lord, F.M. (1980), Application of Item Response Theory to Practical Testing Problems, Lawrence Erlbaum Associates, Hillsdale, NJ.
Mislevy, R.J. (1984), « Estimating Latent Distributions », Psychometrika, Vol. 49, pp. 359-381.
Mislevy, R.J. (1992), Linking Educational Assessments: Concepts, Issues, Methods, and Prospects, Policy Information Center, Educational Testing Service, Princeton, NJ.
Collaborateurs
Fernando Cartwright, Statistique Canada
Philippe Hertig, Office fédéral de la statistique, Neuchâtel
- Date de modification :