4. Calcul des propensions à répondre en utilisant des modèles à traits latents
Alina Matei et M. Giovanna Ranalli
Précédent | Suivant
La variable
peut être calculée en
utilisant un modèle à traits latents. En général, les modèles à variables
latentes sont des modèles de régression multivariés qui relient des réponses continues
ou catégoriques à des covariables inobservées. Un modèle à traits latents est
essentiellement un modèle d’analyse factorielle pour données binaires (voir Bartholomew, Steele, Moustaki et Galbraith 2002;
Skrondal et Rabe-Hesketh 2007).
Nous commençons par créer la matrice
contenant les éléments
La figure 4.1 donne un
schéma des indicateurs
pour les répondants et les
non-répondants. Ensuite, nous supposons que les facteurs qui sous-tendent la
réponse totale sont les mêmes que ceux qui sous-tendent la réponse partielle sur
des variables d’intérêt choisies. Autrement dit, la non-réponse partielle est
supposée non ignorable.
Figure 4.1 Schéma représentant
les variables
pour les ensembles
et

Description de la figure 4.1
Soit
la probabilité de réponse de
l’unité
pour l’item
pour tout
et
Comme dans le cas de la
non-réponse totale,
est modélisée sous forme
d’une fonction de la variable d’intérêt en utilisant la régression logistique comme
suit :
pour
et
où
et
sont des
paramètres. Puisque
est connue
uniquement pour les unités pour lesquelles
le modèle (4.1) ne
peut pas être estimé. Comme dans le cas de la non-réponse totale, nous
proposons d’estimer
comme une fonction
d’une variable auxiliaire reliée à la variable d’intérêt, c’est-à-dire
Le modèle (4.1) se
réécrit :
pour
et
Le modèle (4.2) n’est
pas un modèle de régression logistique ordinaire, parce que les
sont des valeurs
inobservables prises par une variable latente. Les modèles à traits latents
peuvent être utilisés dans ce cas pour estimer
et les
paramètres du modèle. Notons que, dans le domaine des tests de connaissances et
de la psychométrie, la modélisation à traits latents est appelée théorie des
réponses aux items.
Le modèle de Rasch (Rasch 1960) est un premier modèle à traits latents simple,
souvent mentionné dans la littérature psychométrique et utilisé pour analyser
les données provenant d’évaluations pour mesurer des variables telles que les
compétences et les attitudes. Il prend la forme suivante :
Les paramètres
sont estimés pour chaque item
et reflètent le caractère extrême
(la facilité) de l’item
la probabilité d’une réponse
positive en tous les points de l’espace latent est d’autant plus grande que les
valeurs sont grandes. Le paramètre
est appelé paramètre de « discrimination »
et peut être fixé à une valeur arbitraire sans incidence sur la vraisemblance,
à condition de permettre que l’échelle des propensions des individus soit libre.
Dans de nombreuses situations, l’hypothèse voulant que les discriminations des
items soient constantes sur l’ensemble des items est trop contraignante. Le
modèle logistique à deux paramètres (2PL) généralise le modèle de Rasch en permettant que les pentes varient. En
particulier, le modèle 2PL suppose la forme donnée par l’équation (4.2). Les paramètres
sont maintenant estimés pour
chaque item
et donnent une mesure de la
quantité d’information qu’un item fournit au sujet de la variable latente
Pour arriver à l’identifiabilité
du modèle (4.2), nous pouvons fixer la valeur d’un ou de plusieurs paramètres
et
dans le processus d’estimation. Moran (1986) a montré que, dans le modèle 2PL, tous
les paramètres sont identifiables sous des conditions très générales, à
condition que le nombre d’items soit supérieur à deux, et que toutes les pentes
soient supposées être strictement positives. On trouve dans la littérature une
généralisation supplémentaire du modèle (4.2)
le modèle 3PL
qui contient un autre paramètre, le paramètre de pseudo-chance, pour modéliser la probabilité
qu’un sujet pour lequel une variable latente tend vers
réponde à un item. Une telle extension
ne paraît pas nécessaire dans le présent contexte et ne sera plus examinée.
4.1
Hypothèses dans les modèles à traits latents
Les modèles à traits latents s’appuient
habituellement sur les hypothèses suivantes. La première est celle qu’il est
convenu d’appeler hypothèse d’indépendance conditionnelle, qui postule
que les réponses aux items sont indépendantes sachant la variable latente (c’est-à-dire
que la variable latente rend compte de toutes les associations entre les variables
observées
Conséquemment, sachant
la probabilité conditionnelle
de
est
Selon Bartholomew
et coll. (2002, page 181) [Traduction]
« l’hypothèse d’indépendance conditionnelle ne peut être testée qu’indirectement
en vérifiant si le modèle est adéquat pour les données. Un modèle à variables
latentes est considéré comme étant bien ajusté si les variables latentes expliquent
la plupart de l’association entre les réponses observées ».
Une deuxième hypothèse des modèles
(4.2) et (4.3) est celle de monotonicité : à mesure que la valeur
de la variable latente
augmente, la probabilité de réponse
à un item augmente ou reste la même sur les intervalles de
Autrement dit, pour deux
valeurs de
disons
et
et en supposant arbitrairement
que
la monotonicité implique que
pour
La chance d’une réponse à
chaque item est d’autant plus grande que les valeurs de
sont grandes.
Enfin, la troisième hypothèse, et
peut-être la plus forte, des modèles (4.2) et (4.3) est celle d’unidimensionnalité,
impliquant qu’une variable latente unique explique complètement la volonté de l’unité
de répondre au questionnaire.
Toutes ces hypothèses fondamentales impliquent que la dépendance entre les items
peut être expliquée par la
variable latente
qui représente la volonté de
répondre et que la probabilité qu’une unité
réponde à une variable donnée
augmente avec
4.2
Estimation du modèle
Nous allons maintenant nous concentrer
sur le modèle logistique à deux paramètres (2PL) donné en (4.2). Soit
et
Le modèle (4.2) peut être
ajusté en utilisant la méthode du maximum de vraisemblance ou une méthode
bayésienne. Nous nous penchons ici sur la première. Sous l’approche du maximum de
vraisemblance sont développées trois grandes méthodes, celles du maximum de
vraisemblance jointe, de vraisemblance conditionnelle et de vraisemblance marginale.
Ici, nous nous concentrons sur le maximum de vraisemblance marginale qui peut
être appliqué pour ajuster le modèle 2PL. Cette méthode est également utilisée
dans les études par simulation de la section 6. Elle consiste à maximiser la
vraisemblance du modèle après avoir éliminé par intégration les
en faisant l’hypothèse d’une
loi commune sur ces paramètres. En particulier, on suppose que
est une variable aléatoire qui
suit une loi de densité de probabilité
habituellement
On suppose aussi que les
vecteurs de réponses
sont indépendants les uns des
autres et que l’hypothèse d’indépendance conditionnelle est vérifiée.
Pour un ensemble de
répondants ayant les vecteurs
de réponses
la vraisemblance marginale peut
être exprimée sous la forme
où
et
désigne
maintenant la densité de la loi
La méthode
consiste à maximiser la log-vraisemblance correspondante, donnée par
par
rapport à
en utilisant, par
exemple, l’algorithme EM. Les estimations de
et
sont donc
fournies. Ensuite,
est estimé en
utilisant la méthode de Bayes empirique en maximisant la densité a posteriori
par rapport
à
et en maintenant
les paramètres d’item et les observations fixes. Les estimations de
sont obtenues en
utilisant l’expression (4.2), où
et
sont remplacés par
leurs estimations.
4.3 Mesures
de l’adéquation du modèle
Différentes mesures d’adéquation sont
proposées dans la littérature pour tester si le modèle donné en (4.2) est
ajusté adéquatement aux données (voir, par exemple, Bartholomew et coll. 2002). On utilise les valeurs de marge de
tableaux des réponses à double ou à triple entrée. Les écarts entre les
fréquences espérées
et observées
dans ces tableaux sont mesurés
en utilisant la statistique
Les grandes valeurs de
pour les marges d’ordre deux
ou d’ordre trois détermineront des ensembles d’items pour lesquels le modèle n’est
pas bien ajusté. Notons que les résidus
ne sont pas indépendants et qu’ils
ne peuvent pas être totalisés pour donner une statistique de test globale qui
suit une loi du khi-carré (voir Bartholomew et coll.
2002, page 186). Des indices d’adéquation des items (item fit indexes) (Bond et Fox
2007) peuvent être utilisés à cette fin également. En se basant sur les variables
latentes et les paramètres d’item estimés, on peut calculer la réponse espérée d’une
unité à un item. La similarité entre les réponses observée et espérée à un item peut
être évaluée au moyen de deux statistiques d’adéquation basées sur la moyenne
des carrés : la statistique d’adéquation sensible aux valeurs aberrantes (item outfit) et la statistique
d’adéquation pondérée par l’information (item
infit). L’estimation produite pour l’item outfit est relativement plus
affectée par les réponses inattendues à des items qui s’écartent du niveau
mesuré d’une personne, c’est-à-dire qu’elle
est surtout sensible aux réponses inattendues données par des unités à des
questions auxquelles il devrait leur être relativement très facile ou très
difficile de répondre. L’item infit, pour laquelle chaque observation est pondérée
par l’information est, à l’opposé,
relativement plus affectée par les réponses inattendues à des items proches du
niveau mesuré de la personne, c’est-à-dire que la statistique est plus sensible à des
structures inattendues de réponses données par des unités à des items qui sont
approximativement ciblés sur elles en fonction de la valeur de leur variable
latente. La valeur espérée pour les deux statistiques est un. Les valeurs de l’infit et de l’outfit supérieures/inférieures à un indiquent une plus grande/faible variation entre les structures de réponses observées et prédites, et un intervalle de 0,5 à 1,5 est généralement acceptable (Bond et Fox 2007).
En outre, des corrélations point-mesure
(Olsson, Drasgow et Dorans 1982) peuvent
être utilisées pour estimer la corrélation entre la variable latente et la
réponse à un item unique. Les items pour lesquels ces mesures prennent une
valeur négative ou nulle doivent être supprimés de l’analyse ou peuvent être la
preuve que le concept latent n’est pas unidimensionnel. L’unidimensionnalité peut
être testée en exécutant une analyse en composantes principales (ACP) des résidus
standardisés pour les items (Wright
1996). De cette façon, la première composante (dimension) a déjà été éliminée, et
il est possible d’examiner des dimensions, composantes ou contrastes
secondaires. L’unidimensionnalité est confirmée par l’observation que la valeur
propre de la première composante de l’ACP dans la matrice de corrélation des
résidus est faible (habituellement inférieure à 2,0). Sinon, les poids sur le
premier contraste indiquent qu’il existe des configurations contrastées dans
les résidus.
Enfin, lorsque les items sont utilisés
pour former une échelle, ils doivent posséder une cohérence interne. Le
coefficient alpha de Cronbach peut être
utilisé pour tester si les items ont la propriété de fiabilité, c’est-à-dire que s’ils mesurent tous la même chose, ils
devraient être corrélés les uns aux autres.
4.4
Estimation de
Deux solutions sont présentées ici pour
estimer
en utilisant l’information provenant
du modèle à traits latents. La première solution utilise la régression
logistique pour estimer
pour tout
et une approche en deux
étapes.
Étape 1 : Premièrement, nous fournissons une
estimation
de
Pour calculer
une valeur
pour
nous supposons
de nouveau que la non-réponse totale est simplement une forme extrême de non-réponse
partielle. Donc, un non-répondant ne répond à aucun item
et par
conséquent
pour tout
Le calcul de
pour
est traité comme
suit : nous ajoutons à l’ensemble
une unité
répondante fantôme
pour laquelle
est égal à 0, pour
tout
Nous désignons
ce nouvel ensemble par
Nous estimons
les paramètres du modèle (4.2) en utilisant toutes les unités
et nous
calculons les valeurs
Le modèle (4.2) permet
le calcul de
pour tout
L’unité
a une valeur
estimée
Nous affectons à
toutes les unités
une estimation
égale à
Donc, la même valeur
de
est fournie pour
tout
En utilisant
cette méthode, chaque unité
est associée à
une estimation
Il s’agit de la
caractéristique clé pour l’estimation des probabilités de réponse
donnée à l’étape
suivante.
Étape 2 : Nous utilisons l’estimation
pour
fournie à la première
étape comme une covariable dans le modèle (3.4) au lieu de la valeur inconnue
de
en particulier
Le
modèle (4.4) donne les estimations
de pour tout
L’un des arbitres a suggéré la solution
suivante pour estimer
Soit
le score brut pour l’unité
c’est-à-dire le nombre d’items auxquels l’unité
a répondu : si
alors
alors
Ensuite, nous pouvons estimer
en modélisant
En vertu de l’hypothèse d’indépendance
conditionnelle, nous avons
Nous avons
parce que
Par conséquent, nous obtenons
La
probabilité de réponse estimée
s’obtient comme
une solution de l’équation polynomiale
Cette solution, quoique très élégante,
a deux inconvénients. Si
est grand, l’équation polynomiale
susmentionnée est difficile, voire impossible, à résoudre. S’il est possible de
la résoudre pour une valeur modérée de
les solutions réelles ne se
trouvent pas nécessairement dans (0, 1). Cette solution n’a pas été
examinée plus en détail ici.
Précédent | Suivant