Recherche par

4. Calcul des propensions à répondre en utilisant des modèles à traits latents

Alina Matei et M. Giovanna Ranalli

La variable $θ_{k}$ peut être calculée en utilisant un modèle à traits latents. En général, les modèles à variables latentes sont des modèles de régression multivariés qui relient des réponses continues ou catégoriques à des covariables inobservées. Un modèle à traits latents est essentiellement un modèle d’analyse factorielle pour données binaires (voir Bartholomew, Steele, Moustaki et Galbraith 2002; Skrondal et Rabe-Hesketh 2007).

Nous commençons par créer la matrice contenant les éléments ${x_{k ℓ}}_{k \in s; ℓ = 1, \dots, m} .$ La figure 4.1 donne un schéma des indicateurs $x_{k ℓ}$ pour les répondants et les non-répondants. Ensuite, nous supposons que les facteurs qui sous-tendent la réponse totale sont les mêmes que ceux qui sous-tendent la réponse partielle sur des variables d’intérêt choisies. Autrement dit, la non-réponse partielle est supposée non ignorable.

Figure 4.1 Schéma représentant les variables $x_{k ℓ}$ pour les ensembles $r$ et $\bar{r}$

Figure 4.1

Description de la figure 4.1

Soit $q_{k ℓ}$ la probabilité de réponse de l’unité $k$ pour l’item $ℓ,$ pour tout $ℓ = 1, \dots, m$ et $k \in r .$ Comme dans le cas de la non-réponse totale, $q_{k ℓ}$ est modélisée sous forme d’une fonction de la variable d’intérêt en utilisant la régression logistique comme suit :

$q_{k ℓ} = P (x_{k ℓ} = 1 | y_{k ℓ}, θ_{k}, R_{k} = 1) = \frac{1}{1 + \exp (- (β_{ℓ 0} + β_{ℓ 1} θ_{k} + β_{ℓ 2} y_{k ℓ}))}, (4.1)$

pour $ℓ = 1, \dots, m,$ et $k \in r,$ où $β_{ℓ 0}, β_{ℓ 1}$ et $β_{ℓ 2}$ sont des paramètres. Puisque $y_{k ℓ}$ est connue uniquement pour les unités pour lesquelles $x_{k ℓ} = 1, k \in r,$ le modèle (4.1) ne peut pas être estimé. Comme dans le cas de la non-réponse totale, nous proposons d’estimer $q_{k ℓ}$ comme une fonction d’une variable auxiliaire reliée à la variable d’intérêt, c’est-à-dire $θ_{k} .$ Le modèle (4.1) se réécrit :

$q_{k ℓ} = P (x_{k ℓ} = 1 | θ_{k}, R_{k} = 1) = \frac{1}{1 + \exp (- (β_{ℓ 0} + β_{ℓ 1} θ_{k}))}, (4.2)$

pour $ℓ = 1, \dots, m,$ et $k \in r .$ Le modèle (4.2) n’est pas un modèle de régression logistique ordinaire, parce que les $θ_{k}$ sont des valeurs inobservables prises par une variable latente. Les modèles à traits latents peuvent être utilisés dans ce cas pour estimer $q_{k ℓ}, θ_{k}$ et les paramètres du modèle. Notons que, dans le domaine des tests de connaissances et de la psychométrie, la modélisation à traits latents est appelée théorie des réponses aux items.

Le modèle de Rasch (Rasch 1960) est un premier modèle à traits latents simple, souvent mentionné dans la littérature psychométrique et utilisé pour analyser les données provenant d’évaluations pour mesurer des variables telles que les compétences et les attitudes. Il prend la forme suivante :

$q_{k ℓ} = \frac{1}{1 + \exp (- (β_{ℓ 0} + β_{1} θ_{k}))} pour ℓ = 1, \dots, m et k \in r . (4.3)$

Les paramètres $β_{ℓ 0}$ sont estimés pour chaque item $ℓ$ et reflètent le caractère extrême (la facilité) de l’item $ℓ :$ la probabilité d’une réponse positive en tous les points de l’espace latent est d’autant plus grande que les valeurs sont grandes. Le paramètre $β_{1}$ est appelé paramètre de « discrimination » et peut être fixé à une valeur arbitraire sans incidence sur la vraisemblance, à condition de permettre que l’échelle des propensions des individus soit libre. Dans de nombreuses situations, l’hypothèse voulant que les discriminations des items soient constantes sur l’ensemble des items est trop contraignante. Le modèle logistique à deux paramètres (2PL) généralise le modèle de Rasch en permettant que les pentes varient. En particulier, le modèle 2PL suppose la forme donnée par l’équation (4.2). Les paramètres $β_{ℓ 1}$ sont maintenant estimés pour chaque item $ℓ$ et donnent une mesure de la quantité d’information qu’un item fournit au sujet de la variable latente $θ_{k} .$ Pour arriver à l’identifiabilité du modèle (4.2), nous pouvons fixer la valeur d’un ou de plusieurs paramètres $β_{ℓ 0}$ et $β_{ℓ 1}$ dans le processus d’estimation. Moran (1986) a montré que, dans le modèle 2PL, tous les paramètres sont identifiables sous des conditions très générales, à condition que le nombre d’items soit supérieur à deux, et que toutes les pentes soient supposées être strictement positives. On trouve dans la littérature une généralisation supplémentaire du modèle (4.2) $-$ le modèle 3PL $-$ qui contient un autre paramètre, le paramètre de pseudo-chance, pour modéliser la probabilité qu’un sujet pour lequel une variable latente tend vers $- \infty$ réponde à un item. Une telle extension ne paraît pas nécessaire dans le présent contexte et ne sera plus examinée.

4.1 Hypothèses dans les modèles à traits latents

Les modèles à traits latents s’appuient habituellement sur les hypothèses suivantes. La première est celle qu’il est convenu d’appeler hypothèse d’indépendance conditionnelle, qui postule que les réponses aux items sont indépendantes sachant la variable latente (c’est-à-dire que la variable latente rend compte de toutes les associations entre les variables observées $x_{k ℓ}) .$ Conséquemment, sachant $θ_{k},$ la probabilité conditionnelle de $x_{k}$ est

$P (x_{k} | θ_{k}) = \prod_{ℓ = 1}^{m} P (x_{k ℓ} | θ_{k}) .$

Selon Bartholomew et coll. (2002, page 181) [Traduction] « l’hypothèse d’indépendance conditionnelle ne peut être testée qu’indirectement en vérifiant si le modèle est adéquat pour les données. Un modèle à variables latentes est considéré comme étant bien ajusté si les variables latentes expliquent la plupart de l’association entre les réponses observées ».

Une deuxième hypothèse des modèles (4.2) et (4.3) est celle de monotonicité : à mesure que la valeur de la variable latente $θ_{k}$ augmente, la probabilité de réponse à un item augmente ou reste la même sur les intervalles de $θ_{k} .$ Autrement dit, pour deux valeurs de $θ_{k},$ disons $a$ et $b,$ et en supposant arbitrairement que $a < b,$ la monotonicité implique que $P (x_{k ℓ} = 1 | θ_{k} = a) < P (x_{k ℓ} = 1 | θ_{k} = b)$ pour $ℓ = 1, \dots, m .$ La chance d’une réponse à chaque item est d’autant plus grande que les valeurs de $θ_{k}$ sont grandes.

Enfin, la troisième hypothèse, et peut-être la plus forte, des modèles (4.2) et (4.3) est celle d’unidimensionnalité, impliquant qu’une variable latente unique explique complètement la volonté de l’unité $k$ de répondre au questionnaire. Toutes ces hypothèses fondamentales impliquent que la dépendance entre les items $x_{k ℓ}$ peut être expliquée par la variable latente $θ_{k}$ qui représente la volonté de répondre et que la probabilité qu’une unité $k$ réponde à une variable donnée augmente avec $θ_{k} .$

4.2 Estimation du modèle

Nous allons maintenant nous concentrer sur le modèle logistique à deux paramètres (2PL) donné en (4.2). Soit $β_{ℓ} = {(β_{ℓ 0}, β_{ℓ 1})}^{'}$ et $β = {β_{ℓ}, ℓ = 1, \dots, m} .$ Le modèle (4.2) peut être ajusté en utilisant la méthode du maximum de vraisemblance ou une méthode bayésienne. Nous nous penchons ici sur la première. Sous l’approche du maximum de vraisemblance sont développées trois grandes méthodes, celles du maximum de vraisemblance jointe, de vraisemblance conditionnelle et de vraisemblance marginale. Ici, nous nous concentrons sur le maximum de vraisemblance marginale qui peut être appliqué pour ajuster le modèle 2PL. Cette méthode est également utilisée dans les études par simulation de la section 6. Elle consiste à maximiser la vraisemblance du modèle après avoir éliminé par intégration les $θ_{k}$ en faisant l’hypothèse d’une loi commune sur ces paramètres. En particulier, on suppose que $θ_{k}$ est une variable aléatoire qui suit une loi de densité de probabilité $h (\cdot);$ habituellement $θ_{k} \sim N (0,1) .$ On suppose aussi que les vecteurs de réponses $x_{k}$ sont indépendants les uns des autres et que l’hypothèse d’indépendance conditionnelle est vérifiée.

Pour un ensemble de $n_{r}$ répondants ayant les vecteurs de réponses $x_{k}, k = 1, \dots, n_{r},$ la vraisemblance marginale peut être exprimée sous la forme

$L (β; x_{1}, \dots, x_{n_{r}}) = \prod_{k = 1}^{n_{r}} f (x_{k} | β),$

où $f (x_{k} | β) = \int_{- \infty}^{\infty} g (x_{k} | θ_{k}, β) h (θ_{k}) d θ_{k},$

$g (x_{k} | θ_{k}, β) = \prod_{ℓ = 1}^{m} q_{k ℓ}^{x_{k ℓ}} {(1 - q_{k ℓ})}^{1 - x_{k ℓ}} = \prod_{ℓ = 1}^{m} \frac{\exp (x_{k ℓ} (β_{ℓ 0} + β_{ℓ 1} θ_{k}))}{1 + \exp (β_{ℓ 0} + β_{ℓ 1} θ_{k})},$

et $h$ désigne maintenant la densité de la loi $N (0, 1) .$ La méthode consiste à maximiser la log-vraisemblance correspondante, donnée par

$\log L (β; x_{1}, \dots, x_{n_{r}}) = \sum_{k = 1}^{n_{r}} \log (f (x_{k} | β)),$

par rapport à $β$ en utilisant, par exemple, l’algorithme EM. Les estimations de $β_{ℓ 0}$ et $β_{ℓ 1}, ℓ = 1, \dots, m$ sont donc fournies. Ensuite, $θ_{k}$ est estimé en utilisant la méthode de Bayes empirique en maximisant la densité a posteriori

$h (θ_{k} | x_{k}) = \frac{g (x_{k} | θ_{k}, β) h (θ_{k})}{g (x_{k})} \propto g (x_{k} | θ_{k}, β) h (θ_{k}),$

par rapport à $θ_{k}$ et en maintenant les paramètres d’item et les observations fixes. Les estimations de $q_{k ℓ}$ sont obtenues en utilisant l’expression (4.2), où $β_{ℓ 0}, β_{ℓ 1}$ et $θ_{k}$ sont remplacés par leurs estimations.

4.3 Mesures de l’adéquation du modèle

Différentes mesures d’adéquation sont proposées dans la littérature pour tester si le modèle donné en (4.2) est ajusté adéquatement aux données (voir, par exemple, Bartholomew et coll. 2002). On utilise les valeurs de marge de tableaux des réponses à double ou à triple entrée. Les écarts entre les fréquences espérées $(E)$ et observées $(O)$ dans ces tableaux sont mesurés en utilisant la statistique $R = {(O - E)}^{2} / E .$ Les grandes valeurs de $R$ pour les marges d’ordre deux ou d’ordre trois détermineront des ensembles d’items pour lesquels le modèle n’est pas bien ajusté. Notons que les résidus ${(O - E)}^{2} / E$ ne sont pas indépendants et qu’ils ne peuvent pas être totalisés pour donner une statistique de test globale qui suit une loi du khi-carré (voir Bartholomew et coll. 2002, page 186). Des indices d’adéquation des items (item fit indexes) (Bond et Fox 2007) peuvent être utilisés à cette fin également. En se basant sur les variables latentes et les paramètres d’item estimés, on peut calculer la réponse espérée d’une unité à un item. La similarité entre les réponses observée et espérée à un item peut être évaluée au moyen de deux statistiques d’adéquation basées sur la moyenne des carrés : la statistique d’adéquation sensible aux valeurs aberrantes (item outfit) et la statistique d’adéquation pondérée par l’information (item infit). L’estimation produite pour l’item outfit est relativement plus affectée par les réponses inattendues à des items qui s’écartent du niveau mesuré d’une personne, c’est-à-dire qu’elle est surtout sensible aux réponses inattendues données par des unités à des questions auxquelles il devrait leur être relativement très facile ou très difficile de répondre. L’item infit, pour laquelle chaque observation est pondérée par l’information est, à l’opposé, relativement plus affectée par les réponses inattendues à des items proches du niveau mesuré de la personne, c’est-à-dire que la statistique est plus sensible à des structures inattendues de réponses données par des unités à des items qui sont approximativement ciblés sur elles en fonction de la valeur de leur variable latente. La valeur espérée pour les deux statistiques est un. Les valeurs de l’infit et de l’outfit supérieures/inférieures à un indiquent une plus grande/faible variation entre les structures de réponses observées et prédites, et un intervalle de 0,5 à 1,5 est généralement acceptable (Bond et Fox 2007).

En outre, des corrélations point-mesure (Olsson, Drasgow et Dorans 1982) peuvent être utilisées pour estimer la corrélation entre la variable latente et la réponse à un item unique. Les items pour lesquels ces mesures prennent une valeur négative ou nulle doivent être supprimés de l’analyse ou peuvent être la preuve que le concept latent n’est pas unidimensionnel. L’unidimensionnalité peut être testée en exécutant une analyse en composantes principales (ACP) des résidus standardisés pour les items (Wright 1996). De cette façon, la première composante (dimension) a déjà été éliminée, et il est possible d’examiner des dimensions, composantes ou contrastes secondaires. L’unidimensionnalité est confirmée par l’observation que la valeur propre de la première composante de l’ACP dans la matrice de corrélation des résidus est faible (habituellement inférieure à 2,0). Sinon, les poids sur le premier contraste indiquent qu’il existe des configurations contrastées dans les résidus.

Enfin, lorsque les items sont utilisés pour former une échelle, ils doivent posséder une cohérence interne. Le coefficient alpha de Cronbach peut être utilisé pour tester si les items ont la propriété de fiabilité, c’est-à-dire que s’ils mesurent tous la même chose, ils devraient être corrélés les uns aux autres.

4.4 Estimation de $p_{k}$

Deux solutions sont présentées ici pour estimer $p_{k}$ en utilisant l’information provenant du modèle à traits latents. La première solution utilise la régression logistique pour estimer $p_{k}$ pour tout $k \in s,$ et une approche en deux étapes.

Étape 1 : Premièrement, nous fournissons une estimation ${\hat{θ}}_{k}$ de $θ_{k} .$ Pour calculer une valeur ${\hat{θ}}_{k}$ pour $k \in \bar{r},$ nous supposons de nouveau que la non-réponse totale est simplement une forme extrême de non-réponse partielle. Donc, un non-répondant ne répond à aucun item $ℓ$ et par conséquent $x_{k ℓ} = 0,$ pour tout $ℓ = 1, \dots, m .$ Le calcul de ${\hat{θ}}_{k}$ pour $k \in \bar{r}$ est traité comme suit : nous ajoutons à l’ensemble $r$ une unité répondante fantôme $\tilde{k}$ pour laquelle $x_{\tilde{k} ℓ}$ est égal à 0, pour tout $ℓ = 1, \dots, m .$ Nous désignons ce nouvel ensemble par $\tilde{r} = r \cup {\tilde{k}} .$ Nous estimons les paramètres du modèle (4.2) en utilisant toutes les unités $k \in \tilde{r},$ et nous calculons les valeurs ${\hat{θ}}_{k}, k \in \tilde{r} .$ Le modèle (4.2) permet le calcul de ${\hat{θ}}_{k}$ pour tout $k \in \tilde{r} .$ L’unité $\tilde{k}$ a une valeur estimée ${\hat{θ}}_{\tilde{k}} .$ Nous affectons à toutes les unités $k \in \bar{r}$ une estimation ${\hat{θ}}_{k}$ égale à ${\hat{θ}}_{\tilde{k}} .$ Donc, la même valeur de ${\hat{θ}}_{k}$ est fournie pour tout $k \in \bar{r} .$ En utilisant cette méthode, chaque unité $k \in s$ est associée à une estimation ${\hat{θ}}_{k} .$ Il s’agit de la caractéristique clé pour l’estimation des probabilités de réponse $p_{k}$ donnée à l’étape suivante.

Étape 2 : Nous utilisons l’estimation ${\hat{θ}}_{k},$ pour $k \in s,$ fournie à la première étape comme une covariable dans le modèle (3.4) au lieu de la valeur inconnue de $θ_{k};$ en particulier

$p_{k} = P (R_{k} = 1 | {\hat{θ}}_{k}) = \frac{1}{1 + \exp (- (α_{0} + α_{1} {\hat{θ}}_{k}))}, pour tout k \in s . (4.4)$

Le modèle (4.4) donne les estimations ${\hat{p}}_{k}$ de $p_{k},$ pour tout $k \in s .$

L’un des arbitres a suggéré la solution suivante pour estimer $p_{k} .$ Soit $S_{k} = \sum_{ℓ = 1}^{m} x_{k ℓ},$ le score brut pour l’unité $k,$ c’est-à-dire le nombre d’items auxquels l’unité $k$ a répondu : si $k \in \bar{r},$ alors $S_{k} = 0; si k \in r,$ alors $S_{k} > 0.$ Ensuite, nous pouvons estimer $p_{k}$ en modélisant $P (S_{k} > 0 | θ_{k}) .$ En vertu de l’hypothèse d’indépendance conditionnelle, nous avons

$\begin{array}{l} p_{k} & = & P (S_{k} > 0 | θ_{k}) = 1 - P (S_{k} = 0 | θ_{k}) = 1 - P (\cap_{ℓ = 1}^{m} (x_{k ℓ} = 0 | θ_{k})) \\ = & 1 - \prod_{ℓ = 1}^{m} (1 - P (x_{k ℓ} = 1 | θ_{k})) . \end{array}$

Nous avons $P (x_{k ℓ} = 1 | θ_{k}) = P (R_{k} = 1 | θ_{k}) P (x_{k ℓ} = 1 | θ_{k}, R_{k} = 1) + P (R_{k} = 0 | θ_{k}) P (x_{k ℓ} = 1 | θ_{k},$ $R_{k} = 0) = p_{k} q_{k ℓ},$ parce que $P (x_{k ℓ} = 1 | θ_{k}, R_{k} = 0) = 0.$ Par conséquent, nous obtenons

$p_{k} = 1 - \prod_{ℓ = 1}^{m} (1 - p_{k} q_{k ℓ}), k \in r .$

La probabilité de réponse estimée ${\hat{p}}_{k}, k \in r$ s’obtient comme une solution de l’équation polynomiale

${\hat{p}}_{k} = 1 - \prod_{ℓ = 1}^{m} (1 - {\hat{p}}_{k} {\hat{q}}_{k ℓ}) .$

Cette solution, quoique très élégante, a deux inconvénients. Si $m$ est grand, l’équation polynomiale susmentionnée est difficile, voire impossible, à résoudre. S’il est possible de la résoudre pour une valeur modérée de $m,$ les solutions réelles ne se trouvent pas nécessairement dans (0, 1). Cette solution n’a pas été examinée plus en détail ici.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête