4 Méthode bayésienne linéaire pour données catégoriques
Kelly Cristina M. Gonçalves, Fernando A. S. Moura et Helio S. Migon
Précédent | Suivant
Il arrive souvent que l'on s'intéresse
à des cas où la caractéristique observée est celle de savoir si l'unité de
population possède ou non un certain attribut d'intérêt. Nous pouvons définir
une variable dichotomique si la unité possède cet attribut,
ce qui est désigné comme une réussite, et autrement. Pour le cas
binaire lorsque la taille de l'échantillon n'est pas suffisamment grande pour
appliquer le théorème central limite, l'approche fondée sur le plan de sondage
pourrait faire appel à la randomisation introduite par le plan de sondage pour
justifier la distribution des quantités aléatoires binaires. Par exemple,
Cochran (1977), sections 3.4 et 3.5, montre comment appliquer les lois
hypergéométrique et binomiale pour obtenir les intervalles de confiance pour
les proportions de population quand on se sert de plans d'échantillonnages
aléatoires simples avec et sans remise, respectivement. Par ailleurs, des
approches dépendantes d'un modèle ont également été avancées et appliquées pour
prédire les totaux ou les moyennes dans les catégories d'intérêt. Malec,
Sedransk, Moriarity et LeClere (1997) ont considéré un modèle hiérarchique
logistique à deux niveaux, où les grappes forment le deuxième niveau. Ils ont
également comparé les estimations bayésiennes entièrement hiérarchiques aux
estimations bayésiennes empiriques et aux méthodes classiques. Moura et Migon
(2002) ont présenté une approche basée sur un modèle hiérarchique logistique
pour la prédiction de proportions sur petits domaines, en tenant compte des
effets spatiaux ainsi que des effets d'hétérogénéité non structurée possibles.
Nandram et Choi (2008) ont proposé un modèle multinomial-Dirichlet dépendant du
temps pour prédire les résultats d'une élection sous non-réponse ignorable et
non ignorable. Ils ont également utilisé une approche bayésienne pour répartir
les électeurs indécis entre les candidats.
De nouveau, ici, nous n'avons pas
besoin d'utiliser des hypothèses au sujet du modèle complet ni une approche de
randomisation, mais nous devons émettre certaines hypothèses au sujet des
premier et deuxième moments des quantités aléatoires concernées. L'EBL pour les
données binaires a été introduit brièvement par O'Hagan (1985), mais ici, nous
le développons d'une manière plus générale pour le cas où nous nous intéressons
à l'analyse de plus d'un attribut dans une population. L'objectif est de
décrire l'estimation de la proportion de réussites avec des données
catégoriques. Soit la variable qui indique que l'unité se trouve dans la catégorie donnée par
Le but principal est d'estimer un
vecteur où est la proportion d'unités dans la catégorie sachant un vecteur de dimension défini comme étant Comme nous avons affaire à des situations dans
lesquelles il n'est possible d'associer qu'un seul attribut à chaque unité,
nous avons Donc, nous ne devons estimer que paramètres, puisqu'il s'ensuit que et que l'estimation de la variance est
également obtenue de manière analogue par
En l'absence de toute autre information
structurelle, nous supposons que les unités dans une catégorie donnée sont
échangeables d'ordre deux, mais nous ne supposons aucune échangeabilité entre
les unités de différentes catégories. Nos croyances a priori sont
exprimées pour
comme il suit :
où pour tout
Pour nous obtenons de manière analogue la
covariance entre ces catégories sous la forme
Souvent, nous ne possédons pas toutes
les données mais seulement une statistique exhaustive,
comme la proportion dans l'échantillon pour chaque catégorie, Soit le vecteur de dimension dont la position est donnée par
la moyenne d'échantillon pour la catégorie En utilisant le modèle général donné par (2.4),
nous obtenons :
En appliquant le modèle général donné
dans (2.4), où la variable de réponse est donnée par le vecteur est de dimension et nous obtenons à partir de (2.10) :
où et comme il est énoncé en (2.6).
Soit L'EBL de et sa variance associée donnés par (4.1)
peuvent s'écrire en fonction des quantités a priori et en notant que et Par conséquent, la matrice avec et et avec et De manière analogue, nous obtenons
4.1 Obtention des priors
L'obtention des priors est le processus
consistant à formuler les connaissances et les croyances d'une personne au
sujet d'une ou de plusieurs quantités incertaines sous forme d'une loi de
probabilité pour ces quantités. Selon Garthwaite, Kadane et O'Hagan (2005), il
est commode de concevoir la tâche d'obtention des priors comme faisant
intervenir un facilitateur qui aide l'expert à formuler ses connaissances spécialisées
sous forme probabiliste. Dans le contexte de l'obtention d'une loi
a priori pour une analyse bayésienne, ce sont les connaissances
a priori de l'expert qui sont tirées au clair, mais en général, l'objectif
est d'exprimer les connaissances courantes de l'expert sous forme probabiliste.
Si l'expert est un statisticien ou s'il connaît très bien les concepts
statistiques, l'intervention d'un facilitateur pourrait ne pas être
formellement nécessaire, mais cela est rare en pratique. O'Hagan (1998) a
illustré au moyen d'un exemple pratique comment obtenir les premier et deuxième
moments. En particulier, il a adopté l'approche bayésienne linéaire parce
qu'elle permet aux ingénieurs d'appliquer facilement une procédure d'obtention
des priors.
À la présente section, nous présentons
certaines contraintes concernant les quantités a priori et une solution de
rechange pour faciliter le processus d'obtention des priors en vue d'obtenir
l'EBL pour des données catégoriques. Comme et sont des probabilités et que et sont les matrices de covariance dans le modèle
(2.4), les contraintes qui suivent doivent être satisfaites :
1. et
2.
et sont des matrices symétriques
définies positives.
Afin de vérifier si la condition (2.2) est satisfaite,
on peut exécuter les étapes suivantes :
i. vérifier
si et sont symétriques en vérifiant que
ii. vérifier
si et sont des matrices définies positives
en trouvant les valeurs propres de et Si les valeurs propres
sont positives, alors les matrices sont définies positives.
Il convient de mentionner que les
valeurs propres sont les racines du polynôme caractéristique et que si ce
polynôme est de degré il est possible d'obtenir analytiquement ses
racines en appliquant Bhaskara, Cardan ou Ferrari; voir Jacobson (2009),
chapitre 4, pour les formules. Cependant, si il est habituellement nécessaire d'appliquer
une méthode itérative pour les obtenir. Néanmoins, pour les matrices de
dimensions supérieures à il n'est pas simple d'obtenir analytiquement
ces contraintes en se basant sur les valeurs propres. La proposition qui suit
présente les conditions que et doivent satisfaire afin d'obtenir un prior
convenable pour un modèle multinomial comprenant trois catégories en utilisant
l'approche d'estimation bayésienne linéaire.
Proposition 1 Supposons que nous obtenons tel que Alors, sachant et nous obtenons et au moyen de (4.2). Les quantités a priori
et pour doivent satisfaire les contraintes qui suivent
pour que les matrices et soient définies positives :
La vérification de la proposition 1
nécessite certaines opérations algébriques. Nous vérifions que les matrices et sont définies positives en utilisant (i) et
(ii) susmentionnés. Nous faisons appel au fait que les valeurs propres d'une
matrice de dimensions sont positives si et seulement si son
déterminant est positif et nous obtenons alors qui satisfait cette contrainte pour les deux
matrices. Pour les cas comprenant plus de trois catégories, nous devons
vérifier numériquement si les matrices et sont définies positives en remplaçant et par leur valeur numérique.
Par ailleurs, si un expert a de la
difficulté à spécifier certaines de ces probabilités conditionnelles il pourrait être plus simple d'attribuer un
prior au coefficient de corrélation. Définissons comme étant le prior du coefficient de
corrélation entre deux unités différentes dans les catégories et c'est-à-dire :
pour
Par conséquent, sachant nous obtenons
Il convient de mentionner que, si l'on
dispose de données provenant d'une enquête antérieure, il est possible qu'un
expert utilise cette information. Par exemple, peut être obtenu en estimant la proportion
d'unités dans la catégorie à partir de l'enquête antérieure. De façon
analogue, peut être obtenu en utilisant les données
d'une enquête antérieure. Comme l'indique la contrainte (2.1), ne peut pas prendre les valeurs 0 et 1, sinon
les corrélations ne seraient pas définies.
4.2 Analyse de la sensibilité aux priors
Il est utile de vérifier si
l'estimateur et sa variance associée dépendent des priors attribués. Nous
traitons le cas simple ne comprenant que deux catégories. Soulignons que, dans
le cas où il y a plus de deux catégories, le nombre de quantités a priori
qu'il faut obtenir augmente rapidement, mais que l'on peut étendre les conclusions
obtenues. Par ailleurs, en l'absence d'information a priori, nous pouvons
utiliser des priors non informatifs et, comme il est décrit à la
section 2.2, on retrouve alors les estimateurs de l'approche fondée sur le
plan de sondage.
L'EBL pour la proportion en cas de
données binaires peut être obtenu en tant que cas particulier de l'estimateur (4.1),
où
et Notons que et dépendent de voir page . Nous analysons
comment les estimations sont affectées par
1. Si
alors et Donc, l'estimateur pour les valeurs
non observées dépend en grande partie de la valeur du prior.
2. Si
alors et Donc, l'estimateur pour les valeurs
non observées ne dépend pas de la valeur du prior.
En outre, il est facile de voir que Pour illustrer ces résultats, nous avons créé
un jeu de données artificielles en fixant la proportion réelle à et la moyenne d'échantillon à Ces valeurs ont été tirées de Moura et Migon
(2002). Puis, nous avons déterminé comment les valeurs de et affectent l'estimateur La figure 4.1 donne la représentation
graphique en deux dimensions de l'erreur absolue de en fonction de pour certains cas particuliers. La courbe
grise représente l'erreur absolue entre la proportion d'échantillon et la proportion réelle
Il faut souligner que, à mesure que ou augmente, l'erreur absolue diminue pour toute
valeur du prior. De surcroît, quand l'erreur absolue augmente quand diffère considérablement de la proportion
réelle mais elle diminue à mesure que la taille de
l'échantillon augmente. Enfin, quand nous observons que l'erreur absolue de tend vers l'erreur absolue de la proportion
d'échantillon Donc, si nous avons une bonne information
a priori, en ce qui concerne l'estimateur proposé donne de bons résultats
pour toutes les valeurs de Cependant, si aucune information a priori
n'est disponible, des priors non informatifs caractérisés par peuvent être utilisés et nous obtenons des
résultats similaires à ceux de l'approche fondée sur le plan de sondage.
Figure 4.1 Représentation graphique en deux dimensions de
l'erreur absolue de
en fonction de pour certains cas particuliers.
Description pour figure 4.1
Note: Erreur absolue pour
et
fixes et
variable. La courbe grise
représente l'erreur absolue de la proportion d'échantillon
Précédent | Suivant