Étude de divers estimateurs de la prévalence de la maladie mentale grave fondés sur un échantillon à deux phases
Section 2. Quelques estimateurs
2.1 Sur
l’ensemble des adultes
Soit
l’échantillon pertinent de répondants à la NSDUH (adultes de 18 ans
et plus) de 2008 jusqu’à 2012, et
le poids d’analyse de la NSDUH (première phase) pour un individu
Soit
le sous-échantillon de
dont les membres répondent à une évaluation clinique de leur
situation de MMG. Soit
quand
obtient un diagnostic de maladie mentale grave, et
quand
obtient un diagnostic d’absence de maladie mentale grave. Soit
le poids de deuxième phase d’échantillonnage d’un individu
dans
Par souci de commodité, nous fixons
à 0 pour les individus présents dans
mais non dans
Dans la pratique, les deux ensembles
de poids ont été ajustés pour tenir compte de la non-réponse et de la sous-couverture,
et pour augmenter leur efficacité, mais nous ignorerons ce fait ici pour
simplifier. Nous supposerons plutôt que
est la probabilité de sélection pour un répondant à la NSDUH,
la probabilité de sélection pour un répondant
du sous-échantillon de la MHSS, et donc
la probabilité de sélection conditionnelle d’un
répondant du sous-échantillon sachant qu’il était un répondant à la NSDUH. Un estimateur
presque sans biais de la prévalence de la MMG chez les adultes entre 2008 et 2012
basé sur l’échantillon à deux phases est
« presque » sans biais parce que le dénominateur peut
contenir une erreur d’échantillonnage.
Supposons
que l’on exécute une régression logistique pondérée par
sur les répondants du sous-échantillon d’adultes de la MHSS dans
avec
comme variable dépendante et en utilisant un vecteur raisonnable de covariables
explicatives,
disponibles pour chaque répondant dans l’échantillon d’adultes de la
NSDUH. La façon exacte dont les covariables sont choisies dépasse le cadre de
la présente étude (pour cela, le lecteur est invité à consulter le rapport du Center
for Behavioral Health Statistics and Quality, 2015; chapitre 4). Posons
que le prédicteur pour
issu de cette régression logistique pondérée est
L’utilisation
de poids pour ajuster le modèle de régression logistique protège contre la
possibilité d’une corrélation entre les résidus du modèle et les probabilités de
sélection. Cela est également en harmonie avec la façon dont la prévalence de
la MMG a été estimée; cette estimation résultait de la régression pondérée de
sur la constante 1 sans aucune covariable.
En
triant le sous-échantillon en fonction des valeurs de
on peut trouver la valeur du seuil diagnostique
telle que l’égalité
soit
vérifiée exactement ou aussi exactement que possible. Autrement dit, le nombre
estimé d’adultes dans la population ayant une valeur de
égale ou supérieure au seuil diagnostique est approximativement
égal au nombre estimé d’adultes ayant une MMG. Soit une variable indicatrice aléatoire
qui vaut 1 quand
et 0 autrement. Un seuil diagnostique
déterminé en utilisant l’équation (2.1) égalise aussi autant que possible les
nombres pondérés de faux positifs
et de faux négatifs
dans
Deux
estimateurs de la prévalence de la MMG chez les adultes sont l’estimateur par
seuil diagnostique et l’estimateur par probabilité basés sur le modèle :
et
qui
sont calculés en utilisant l’échantillon complet de la NSDUH plutôt que le
sous-échantillon plus petit de la MHSS comme cela est le cas de
Nous
supposons maintenant que l’une des covariables dans le modèle logistique est 1
ou l’équivalent
pour une certaine valeur de
Sous cette hypothèse, l’estimateur par probabilité de la prévalence
de la MMG est exactement égal à un estimateur par probabilité corrigé du
biais donné ci-après :
L’égalité
entre
et
résulte du fait que le numérateur du terme
de correction du biais à la deuxième ligne de l’équation (2.4),
égale zéro. L’ajustement d’une régression
logistique force
et nous avons supposé que
contient 1 ou l’équivalent.
Puisque
l’espérance du terme entre parenthèses à la première ligne de
l’équation (2.4) est presque nulle sous des conditions faibles,
comme
est presque sans biais sous la théorie des sondages. Cela est
vrai, que le modèle utilisé pour déterminer les soit correct ou
non à condition que
dans
converge vers quelque chose à mesure
que les tailles du sous-échantillon de la MHSS et de l’échantillon de la NSDUH deviennent
arbitrairement grandes.
L’estimateur
est analogue à l’estimateur GREG bien connu. Il suit Lehtonen et Veijanen (1998), et calcule les
au moyen d’un modèle logistique au lieu du modèle linéaire de
l’estimateur GREG.
Un estimateur
par seuil diagnostique corrigé du biais est donné par
En
suivant le même raisonnement que plus haut, cet estimateur est également
presque sans biais sous des conditions faibles. Il est proche de l’estimateur
par seuil diagnostique basé sur le modèle puisque le terme de correction du
biais,
est presque nul. Le terme de
correction du biais serait exactement nul s’il existait un seuil diagnostique
qui satisfait exactement l’équation (2.1).
2.2 Estimation
par domaine
Examinons
maintenant une sous-population de l’ensemble d’adultes, par exemple les hommes ou
tous les adultes qui ont été traités pour une maladie mentale (ou tous les
adultes qui vivent dans un État particulier). Ce genre de population est appelé
« domaine » d’intérêt. Pour estimer la prévalence de la MMG dans un
domaine, nous pouvons simplement insérer un indicateur d’appartenance au domaine,
qui vaut 1 quand
est dans le domaine, et 0 autrement, dans toutes nos
estimations :
C’est
ici que les termes de correction du biais jouent un rôle important. Si le
modèle logistique, qui a été ajusté sur le sous-échantillon de l’ensemble des adultes, tient dans le domaine, alors
sera une estimation de zéro, et l’estimateur par probabilité basé
sur le modèle,
dans l’équation (2.7), sera presque sans biais. Si le modèle ne
tient pas dans le domaine (par exemple, si les hommes sont plus susceptibles
d’avoir une MMG que ne le prédit le modèle), alors l’estimateur par probabilité
basé sur le modèle peut être considérablement biaisé.
L’ajout
de la correction du biais
à
produit un estimateur qui est presque sans biais sous la théorie des
sondages. Toutefois, quand le modèle tient dans le domaine, l’application de la
correction résultera presque certainement en une diminution de la précision. Un
argument similaire peut être fait concernant le caractère approprié de l’ajout
du terme
figurant dans l’équation (2.10) à l’estimateur par seuil
diagnostique
donné par l’équation (2.8).
Les équations (2.4)
et (2.5) peuvent être considérées comme des cas particuliers de (2.9) et
(2.10), respectivement, avec
ISSN : 1712-5685
Politique de rédaction
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.
© Sa Majesté la Reine du chef du Canada, représentée par le ministre de l’Industrie 2018
L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.
N° 12-001-X au catalogue
Périodicité : semi-annuel
Ottawa