Étude de divers estimateurs de la prévalence de la maladie mentale grave fondés sur un échantillon à deux phases
Section 2. Quelques estimateurs

2.1 Sur l’ensemble des adultes

Soit $S$ l’échantillon pertinent de répondants à la NSDUH (adultes de 18 ans et plus) de 2008 jusqu’à 2012, et $w_{k}$ le poids d’analyse de la NSDUH (première phase) pour un individu $k \in S .$ Soit $S^{'}$ le sous-échantillon de $S$ dont les membres répondent à une évaluation clinique de leur situation de MMG. Soit $y_{k} = 1$ quand $k$ obtient un diagnostic de maladie mentale grave, et $y_{k} = 0$ quand $k$ obtient un diagnostic d’absence de maladie mentale grave. Soit $ω_{k}$ le poids de deuxième phase d’échantillonnage d’un individu $k$ dans $S^{'} .$ Par souci de commodité, nous fixons $ω_{k}$ à 0 pour les individus présents dans $S$ mais non dans $S^{'} .$

Dans la pratique, les deux ensembles de poids ont été ajustés pour tenir compte de la non-réponse et de la sous-couverture, et pour augmenter leur efficacité, mais nous ignorerons ce fait ici pour simplifier. Nous supposerons plutôt que $1 / w_{k}$ est la probabilité de sélection pour un répondant à la NSDUH, $1 / ω_{k} ,$ la probabilité de sélection pour un répondant du sous-échantillon de la MHSS, et donc $w_{k} / ω_{k} ,$ la probabilité de sélection conditionnelle d’un répondant du sous-échantillon sachant qu’il était un répondant à la NSDUH. Un estimateur presque sans biais de la prévalence de la MMG chez les adultes entre 2008 et 2012 basé sur l’échantillon à deux phases est ${\bar{y}}_{U} = \sum_{S^{^{'}}} ω_{k} y_{k} / \sum_{S^{'}} ω_{k} ,$ « presque » sans biais parce que le dénominateur peut contenir une erreur d’échantillonnage.

Supposons que l’on exécute une régression logistique pondérée par $ω_{k}$ sur les répondants du sous-échantillon d’adultes de la MHSS dans $S^{'},$ avec $y_{k}$ comme variable dépendante et en utilisant un vecteur raisonnable de covariables explicatives, $x_{k} ,$ disponibles pour chaque répondant dans l’échantillon d’adultes de la NSDUH. La façon exacte dont les covariables sont choisies dépasse le cadre de la présente étude (pour cela, le lecteur est invité à consulter le rapport du Center for Behavioral Health Statistics and Quality, 2015; chapitre 4). Posons que le prédicteur pour $y_{k}$ issu de cette régression logistique pondérée est $p_{k} = p (x_{k}^{'} b) = {[1 + \exp (- x_{k}^{'} b)]}^{- 1} .$

L’utilisation de poids pour ajuster le modèle de régression logistique protège contre la possibilité d’une corrélation entre les résidus du modèle et les probabilités de sélection. Cela est également en harmonie avec la façon dont la prévalence de la MMG a été estimée; cette estimation résultait de la régression pondérée de $y_{k}$ sur la constante 1 sans aucune covariable.

En triant le sous-échantillon en fonction des valeurs de $p_{k},$ on peut trouver la valeur du seuil diagnostique $p_{C}$ telle que l’égalité

$\sum_{\begin{matrix} k \in S^{^{'}} \\ p_{k} \geq p_{C} \end{matrix}} ω_{k} = \sum_{k \in S^{^{'}}} ω_{k} y_{k} (2.1)$

soit vérifiée exactement ou aussi exactement que possible. Autrement dit, le nombre estimé d’adultes dans la population ayant une valeur de $p_{k}$ égale ou supérieure au seuil diagnostique est approximativement égal au nombre estimé d’adultes ayant une MMG. Soit une variable indicatrice aléatoire $c_{k}$ qui vaut 1 quand $p_{k} \geq p_{C}$ et 0 autrement. Un seuil diagnostique déterminé en utilisant l’équation (2.1) égalise aussi autant que possible les nombres pondérés de faux positifs $(\sum_{S^{^{'}} : c_{k} = 1} ω_{k} (1 - y_{k}))$ et de faux négatifs $(\sum_{S^{^{'}} : c_{k} = 0} ω_{k} y_{k})$ dans $S^{'} .$

Deux estimateurs de la prévalence de la MMG chez les adultes sont l’estimateur par seuil diagnostique et l’estimateur par probabilité basés sur le modèle :

${\bar{y}}_{C} = \frac{\sum_{S} w_{k} c_{k}}{\sum_{S} w_{k}}, (2.2)$

${\bar{y}}_{P} = \frac{\sum_{S} w_{k} p_{k}}{\sum_{S} w_{k}}, (2.3)$

qui sont calculés en utilisant l’échantillon complet de la NSDUH plutôt que le sous-échantillon plus petit de la MHSS comme cela est le cas de ${\bar{y}}_{U} .$

Nous supposons maintenant que l’une des covariables dans le modèle logistique est 1 ou l’équivalent $(x_{k}^{'} γ = 1$ pour une certaine valeur de $γ) .$ Sous cette hypothèse, l’estimateur par probabilité de la prévalence de la MMG est exactement égal à un estimateur par probabilité corrigé du biais donné ci-après :

$\begin{array}{l} {\bar{y}}_{P - BC} & = \frac{\sum_{S^{^{'}}} ω_{k} y_{k}}{\sum_{S^{^{'}}} ω_{k}} + (\frac{\sum_{S} w_{k} p_{k}}{\sum_{S} w_{k}} - \frac{\sum_{S^{^{'}}} ω_{k} p_{k}}{\sum_{S^{^{'}}} ω_{k}}) \\ = \frac{\sum_{S} w_{k} p_{k}}{\sum_{S} w_{k}} + \frac{\sum_{S^{^{'}}} ω_{k} (y_{k} - p_{k})}{\sum_{S^{^{'}}} ω_{k}} . (2.4) \end{array}$

L’égalité entre ${\bar{y}}_{P}$ et ${\bar{y}}_{P - BC}$ résulte du fait que le numérateur du terme de correction du biais à la deuxième ligne de l’équation (2.4), $\sum_{S^{^{'}}} ω_{k} (y_{k} - p_{k}) / \sum_{S^{^{'}}} ω_{k} ,$ égale zéro. L’ajustement d’une régression logistique force $\sum_{S^{^{'}}} ω_{k} (y_{k} - p_{k}) x_{k} = 0,$ et nous avons supposé que $x_{k}$ contient 1 ou l’équivalent.

Puisque l’espérance du terme entre parenthèses à la première ligne de l’équation (2.4) est presque nulle sous des conditions faibles, ${\bar{y}}_{P} = {\bar{y}}_{P - BC},$ comme ${\bar{y}}_{U},$ est presque sans biais sous la théorie des sondages. Cela est vrai, que le modèle utilisé pour déterminer les $p_{k}$ soit correct ou non à condition que $b$ dans $p_{k} = p (x_{k}^{'} b) = {[1 + \exp (- x_{k}^{'} b)]}^{- 1}$ converge vers quelque chose à mesure que les tailles du sous-échantillon de la MHSS et de l’échantillon de la NSDUH deviennent arbitrairement grandes.

L’estimateur ${\bar{y}}_{P - BC}$ est analogue à l’estimateur GREG bien connu. Il suit Lehtonen et Veijanen (1998), et calcule les $p_{k}$ au moyen d’un modèle logistique au lieu du modèle linéaire de l’estimateur GREG.

Un estimateur par seuil diagnostique corrigé du biais est donné par

$\begin{array}{l} {\bar{y}}_{C - BC} & = \frac{\sum_{S^{^{'}}} ω_{k} y_{k}}{\sum_{S^{^{'}}} ω_{k}} + (\frac{\sum_{S} w_{k} c_{k}}{\sum_{S} w_{k}} - \frac{\sum_{S^{^{'}}} ω_{k} c_{k}}{\sum_{S^{^{'}}} ω_{k}}) \\ = \frac{\sum_{S} w_{k} c_{k}}{\sum_{S} w_{k}} + \frac{\sum_{S^{^{'}}} ω_{k} (y_{k} - c_{k})}{\sum_{S^{^{'}}} ω_{k}} . (2.5) \end{array}$

En suivant le même raisonnement que plus haut, cet estimateur est également presque sans biais sous des conditions faibles. Il est proche de l’estimateur par seuil diagnostique basé sur le modèle puisque le terme de correction du biais, $\sum_{S^{^{'}}} ω_{k} (y_{k} - c_{k}) / \sum_{S^{^{'}}} ω_{k} ,$ est presque nul. Le terme de correction du biais serait exactement nul s’il existait un seuil diagnostique $p_{C}$ qui satisfait exactement l’équation (2.1).

2.2 Estimation par domaine

Examinons maintenant une sous-population de l’ensemble d’adultes, par exemple les hommes ou tous les adultes qui ont été traités pour une maladie mentale (ou tous les adultes qui vivent dans un État particulier). Ce genre de population est appelé « domaine » d’intérêt. Pour estimer la prévalence de la MMG dans un domaine, nous pouvons simplement insérer un indicateur d’appartenance au domaine, $d_{k} ,$ qui vaut 1 quand $k$ est dans le domaine, et 0 autrement, dans toutes nos estimations :

${\bar{y}}_{U (d)} = \frac{\sum_{S^{^{'}}} ω_{k} y_{k} d_{k}}{\sum_{S^{^{'}}} ω_{k} d_{k}} (2.6)$

${\bar{y}}_{P (d)} = \frac{\sum_{S} w_{k} p_{k} d_{k}}{\sum_{S} w_{k} d_{k}} (2.7)$

${\bar{y}}_{C (d)} = \frac{\sum_{S} w_{k} c_{k} d_{k}}{\sum_{S} w_{k} d_{k}} (2.8)$

$\begin{array}{l} {\bar{y}}_{P - BC (d)} & = {\bar{y}}_{U (d)} + (\frac{\sum_{S} w_{k} p_{k} d_{k}}{\sum_{S} w_{k} d_{k}} - \frac{\sum_{S^{^{'}}} ω_{k} p_{k} d_{k}}{\sum_{S^{^{'}}} ω_{k} d_{k}}) \\ = \frac{\sum_{S} w_{k} p_{k} d_{k}}{\sum_{S} w_{k} d_{k}} + \frac{\sum_{S^{^{'}}} ω_{k} (y_{k} - p_{k}) d_{k}}{\sum_{S^{^{'}}} ω_{k} d_{k}} (2.9) \end{array}$

$\begin{array}{l} {\bar{y}}_{C - BC (d)} & = {\bar{y}}_{U (d)} + (\frac{\sum_{S} w_{k} c_{k} d_{k}}{\sum_{S} w_{k} d_{k}} - \frac{\sum_{S^{^{'}}} ω_{k} c_{k} d_{k}}{\sum_{S^{^{'}}} ω_{k} d_{k}}) \\ = \frac{\sum_{S} w_{k} c_{k} d_{k}}{\sum_{S} w_{k} d_{k}} + \frac{\sum_{S^{^{'}}} ω_{k} (y_{k} - c_{k}) d_{k}}{\sum_{S^{^{'}}} ω_{k} d_{k}} . (2.10) \end{array}$

C’est ici que les termes de correction du biais jouent un rôle important. Si le modèle logistique, qui a été ajusté sur le sous-échantillon de l’ensemble des adultes, tient dans le domaine, alors $\sum_{S^{^{'}}} ω_{k} d_{k} (y_{k} - p_{k}) / \sum_{S^{^{'}}} ω_{k} d_{k}$ sera une estimation de zéro, et l’estimateur par probabilité basé sur le modèle, ${\bar{y}}_{P (d)}$ dans l’équation (2.7), sera presque sans biais. Si le modèle ne tient pas dans le domaine (par exemple, si les hommes sont plus susceptibles d’avoir une MMG que ne le prédit le modèle), alors l’estimateur par probabilité basé sur le modèle peut être considérablement biaisé.

L’ajout de la correction du biais $\sum_{S^{^{'}}} ω_{k} d_{k} (y_{k} - p_{k}) / \sum_{S^{^{'}}} ω_{k} d_{k}$ à ${\bar{y}}_{P (d)}$ produit un estimateur qui est presque sans biais sous la théorie des sondages. Toutefois, quand le modèle tient dans le domaine, l’application de la correction résultera presque certainement en une diminution de la précision. Un argument similaire peut être fait concernant le caractère approprié de l’ajout du terme $\sum_{S^{^{'}}} ω_{k} d_{k} (y_{k} - c_{k}) / \sum_{S^{^{'}}} ω_{k} d_{k}$ figurant dans l’équation (2.10) à l’estimateur par seuil diagnostique ${\bar{y}}_{C (d)} ,$ donné par l’équation (2.8).

Les équations (2.4) et (2.5) peuvent être considérées comme des cas particuliers de (2.9) et (2.10), respectivement, avec $d_{k} \equiv 1.$

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : semi-annuel

Ottawa

Date de modification :: 2018-06-21

Sélection de la langue

Recherche et menus

Recherche

Étude de divers estimateurs de la prévalence de la maladie mentale grave fondés sur un échantillon à deux phases
Section 2. Quelques estimateurs

2.1 Sur l’ensemble des adultes

2.2 Estimation par domaine

Étude de divers estimateurs de la prévalence de la maladie mentale grave fondés sur un échantillon à deux phases Section 2. Quelques estimateurs

2.1 Sur l’ensemble des adultes

2.2 Estimation par domaine

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Étude de divers estimateurs de la prévalence de la maladie mentale grave fondés sur un échantillon à deux phases
Section 2. Quelques estimateurs