Efficacité relative des méthodes fondées sur l’estimation par régression d’enquête assistée par un modèle : une étude par simulations
Section 6. Conclusions
Nous avons évalué les performances de
plusieurs estimateurs par la régression d’enquête assistés par un modèle, dans
le contexte d’un échantillonnage probabiliste et non probabiliste, au moyen
d’une étude par simulations. Tout d’abord, nous traitons des conclusions
générales de notre étude par simulations reposant sur des échantillons
probabilistes au moyen d’un plan à échantillonnage aléatoire simple (EAS)
stratifié. Dans le contexte de nos données d’enquête-entreprise avec toutes les
variables auxiliaires catégoriques, l’estimateur par arbre de régression et
l’estimateur fondé sur la méthode LASSO (bidirectionnel) avec effets
d’interaction à deux facteurs sont les seuls estimateurs assistés par un modèle
qui procurent des gains d’efficacité, par rapport à l’estimateur de HT, en
présence d’une petite taille d’échantillon et d’un nombre élevé de catégories
de variables auxiliaires utilisées. De même, l’estimateur de variance de
l’estimateur par arbre de régression est le moins biaisé dans ce scénario.
Lorsque la taille de l’échantillon augmente, la différence d’efficacité entre
les estimateurs par la régression d’enquête assistés par un modèle devient
négligeable et tous sont légèrement plus efficaces que l’estimateur de HT. En
général, les gains d’efficacité potentiels des estimateurs assistés par un
modèle par rapport à l’estimateur de HT dépendent de la puissance prédictive du
modèle. Dans notre population de simulation, la force de la relation entre la
variable de l’étude et les variables auxiliaires catégoriques disponibles est
quelque peu faible, comme en témoigne le coefficient de détermination ajusté
autour de 0,20. Nous avons
donc généré des variables d’étude conduisant à des valeurs plus grandes de autour de 0,50 en rendant la
variance d’erreur du modèle plus petite. Comme prévu, les estimateurs assistés
par un modèle ont procuré des gains d’efficacité importants par rapport à
l’estimateur de HT dans tous les cas, comme on le voit dans le tableau 4.2
qui montre que l’estimateur par arbre de régression et l’estimateur fondé sur
la méthode LASSO avec effets d’interaction sont plus efficaces que l’estimateur
ERG couramment utilisé en présence d’interactions à deux facteurs. De plus, les
poids de régression pour l’estimateur par arbre et les poids de calage pour les
estimateurs par calage de type LASSO sont beaucoup moins variables, notamment
pour les échantillons de petite taille, que les poids pour l’estimateur ERG. Nous
avons également examiné la performance des estimateurs par calage de type LASSO
et par arbre de régression dans un scénario où il n’y a pas d’effets principaux
et où seules des interactions à deux facteurs sont présentes et dans un autre
scénario où il y a une multicolinéarité entre les variables auxiliaires. Dans
ce dernier scénario, l’estimateur ERG n’est pas applicable, et nous montrons
que l’estimateur par arbre de régression et les estimateurs fondés sur la
méthode LASSO fournissent un moyen automatique de supprimer les variables
auxiliaires colinéaires sans diminuer les gains d’efficacité potentiels. Dans
l’ensemble, nous recommandons l’utilisation des estimateurs fondés sur la
méthode LASSO (bidirectionnels) ou de l’estimateur par arbre de régression pour
ce qui est de l’efficacité lorsque des interactions à deux facteurs sont
susceptibles d’être présentes parmi les variables auxiliaires catégoriques.
Même dans le cas de modèles ne comportant que des effets principaux, les deux
méthodes obtiennent de bons résultats par rapport à l’estimateur ERG en ce qui
a trait à l’EQM, car l’estimateur fondé sur la méthode LASSO (bidirectionnel)
réduit automatiquement à zéro les coefficients de régression associés aux
interactions, tandis que l’estimateur par arbre de régression ne nécessite pas
la spécification de la fonction moyenne. Dans d’autres contextes où il existe
des preuves de relations complexes non linéaires et non additives entre la
variable d’enquête d’intérêt et les variables auxiliaires, l’utilisation
d’autres méthodes d’apprentissage automatique basées sur des arbres, comme XGBoost
et les forêts aléatoires, devrait être étudiée.
Dans la section 4.3, nous avons étudié la performance des estimateurs de variance en matière de biais relatif et montré que tous les estimateurs de variance présentent une sous-estimation importante pour les tailles d’échantillon et les 28 catégories Le biais relatif de l’estimateur de variance de l’arbre de régression n’a pas diminué lorsque la taille de l’échantillon a augmenté, contrairement aux autres cas, et cela pourrait être attribuable à un surajustement. Dans le contexte de la méthode des forêts aléatoires, Dagdoug, Goga et Haziza (2021) ont examiné une procédure basée sur la validation croisée qui a conduit à de petits biais relatifs et à de bons taux de couverture. Il serait intéressant d’étudier une procédure similaire pour l’estimation de la variance de l’estimateur par arbre de régression.
Un inconvénient majeur des méthodes basées sur la méthode LASSO et par arbre de régression est que les procédures d’estimation ne produisent pas un ensemble de poids génériques qui peuvent être appliqués à toutes les variables de l’étude, Une autre approche possible consiste à dériver des poids de régression basés sur une variable primaire d’intérêt et à appliquer cet ensemble de poids aux variables d’étude connexes. Dans le contexte de l’enquête considérée dans la présente étude, l’utilisation d’un seul ensemble de poids pour un groupe de variables connexes a entraîné une faible perte d’efficacité, par rapport à l’utilisation de poids propres aux variables. De même, le biais des estimateurs est resté négligeable. Cette approche permet de conserver les propriétés souhaitables des poids de régression, une faible variabilité et, dans le cas de l’estimateur par arbre de régression, des poids strictement positifs. Cependant, les propriétés asymptotiques des estimateurs fondés sur la méthode LASSO et par arbre de régression n’ont pas été calculées pour un seul ensemble de poids, appliqué à de multiples variables d’étude.
Nous avons également envisagé l’utilisation d’estimateurs par la régression d’enquête assistés par un modèle pour les données provenant d’un échantillonnage probabiliste mal défini, traité comme un échantillon non probabiliste. Lorsque la probabilité de sélection dépend d’une variable auxiliaire observée, le biais des estimateurs assistés par un modèle diminue lorsque la taille de l’échantillon augmente. L’inclusion de la variable auxiliaire appropriée dans le modèle de travail de l’estimateur ERG élimine efficacement le biais d’échantillonnage. Il est difficile d’y parvenir dans la pratique, car le processus de sélection est inconnu. Effectuer une sélection de variables peut augmenter le biais des estimateurs par la régression d’enquête assistés par un modèle, car les variables auxiliaires liées à la probabilité de sélection peuvent ne pas être incluses dans le modèle de régression. En effet, dans nos simulations, le fait d’inclure correctement les revenus comme variable auxiliaire potentielle n’a pas nécessairement diminué le biais des estimateurs LASSO.
Lorsque la probabilité de sélection dépend de la variable d’intérêt de l’enquête, tous les estimateurs sont fortement biaisés. L’ampleur du biais est très similaire d’un estimateur à l’autre et ne diminue pas de façon importante lorsque la taille de l’échantillon augmente. Dans notre population de simulation, les variables auxiliaires ne sont pas hautement prédictives pour les variables d’enquête d’intérêt. L’examen de l’incidence de la force de la relation entre les variables auxiliaires et la variable d’intérêt en présence d’une sélection informative mérite une étude plus approfondie.
Le biais d’échantillonnage peut ne pas être réduit en utilisant uniquement un échantillon non probabiliste, comme l’a démontré notre étude par simulations. Les méthodes basées sur l’intégration d’un échantillon non probabiliste permettant d’observer les variables de l’étude et les variables auxiliaires associées avec un échantillon probabiliste permettant d’observer uniquement les mêmes variables auxiliaires ont le potentiel de réduire le biais d’échantillonnage en modélisant les probabilités de participation (Chen, Li et Wu, 2020). Les méthodes de sélection à deux bases de sondage sont également possibles lorsque la variable d’étude est observée dans les deux échantillons et que les unités de l’échantillon probabiliste appartenant à l’échantillon non probabiliste peuvent être déterminées sans erreur de couplage et sans qu’il soit nécessaire de modéliser les probabilités de participation (Kim et Tam, 2020; Rao, 2021 et Beaumont, 2020). Toutefois, la méthode à deux bases de sondage n’est efficace que lorsque la fraction de sondage de l’échantillon non probabiliste est importante. Nous étudions les méthodes ci-dessus dans le contexte des enquêtes-entreprises, par exemple en intégrant des données d’enquête à des données administratives incomplètes traitées comme un échantillon non probabiliste.
Remerciements
Nous remercions Wesley Yung pour avoir entamé ce travail et pour ses commentaires et ses suggestions constructifs. Nous remercions également les réviseurs, le rédacteur en chef et le rédacteur adjoint pour leurs commentaires constructifs et leurs suggestions.
Bibliographie
Beaumont, J.-F. (2020). Les enquêtes probabilistes sont-elles vouées à disparaître pour la production de statistiques officielles ? Techniques d’enquête, 46, 1, 1-30. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/fr/pub/12-001-x/2020001/article/00001-fra.pdf.
Breidt, F.J., et Opsomer, J.D. (2017). Model-assisted survey estimation with modern prediction techniques. Statistical Science, 32(2), 190-205.
Buskirk, T.D., Kirchner, A., Eck, A. et Signorino, C.S. (2018). An introduction to machine learning methods for survey researchers. Survey Practice, 11(1), 1-10.
Cassel, C.M., Särndal, C.-E. et Wretman, J.H. (1976). Some results on generalized difference estimation and generalized regression estimation for finite population. Biometrika, 63(3), 615-620.
Chen, Y., Li, P. et Wu, C. (2020). Doubly robust inference with nonprobability survey samples. Journal of the American Statistical Association, 115(523), 2011-2021.
Chen, J.K.T., Valliant, R.L. et Elliott, M.R. (2018). Calage assisté par un modèle pour des données de sondage non probabiliste en utilisant le LASSO adaptatif. Techniques d’enquête, 44, 1, 125-155. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/fr/pub/12-001-x/2018001/article/54963-fra.pdf.
Chen, J.K.T., Valliant, R.L. et Elliott, M.R. (2019). Calibrating non-probability surveys to estimated control totals using LASSO, with an application to political polling. Journal of the Royal Statistical Society: Series C (Applied Statistics), 68(3), 657-681.
Dagdoug, M., Goga, C. et Haziza, D. (2021). Model-assisted estimation through random forests infinite population sampling. Journal of the American Statistical Association (à paraître).
Friedman, J., Hastie, T., Simon, N., Qian, J. et Tibshirani, R. (2017). glmnet: Lasso and Elastic-Net Regularized Generalized Linear Models. R package version 2.0-13.
Kern, C., Klausch, T. et Kreuter, F. (2019). Tree-based machine learning methods for survey research. Survey Research Methods, 13(1), 73-93.
Kern, C., Li, Y. et Wang, L. (2020). Boosted kernel weighting-using statistical learning to improve inference from nonprobability samples. Journal of Survey Statistics and Methodology. https://doi.org/10.1093/jssam/smaa028.
Kim, J.K., et Tam, S.M. (2020). Data integration combing big data and survey sample data for finite population inference. Revue Internationale de Statistique, 89(2), 382-401.
McConville, K.S. (2011). Department of Statistics Improved Estimation for Complex Surveys Using Modern Regression Techniques, thèse de doctorat non-publiée, Colorado State University.
McConville, K.S., et Toth, D. (2019). Automated selection of post-strata using a model-assisted regression tree estimator. Scandinavian Journal of Statistics, 46(2), 389-413.
McConville, K.S., Breidt, F.J., Lee, T.C.M. et Moisen, G.G. (2017). Model-assisted survey regression estimation with the LASSO. Journal of Survey Statistics and Methodology, 5(2), 131-158.
McConville, K.S., Tang, B., Zhu, G., Li, S., Cheung, S. et Toth, D. (2018). mase: Model-Assisted Survey Estimators. R package version 0.1.1.
Rafei, A., Flannagan, C.A. et Elliott, M.R. (2020). Big data for finite population inference: Applying quasi-random approaches to naturalistic driving data using Bayesian additive regression trees. Journal of Survey Statistics and Methodology, 8(1), 148-180.
Rao, J.N.K. (2021). On making valid inferences by integrating data from surveys and other sources. Sankhyā B, 83(1), 242-272 (publié en ligne en avril 2020).
Ripley, B., Venables, B., Bates, D.M., Hornik, K., Gebhardt, A. et Firth, D. (2017). MASS: Modern Applied Statistics with S. R package version 7. 3-47.
Särndal, C.E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey Sampling. Springer-Verlag Publishing.
Tibshirani, R. (1996). Regression shrinkage and selection via the LASSO. Journal of the Royal Statistical Society, Series B, 58(1), 267-288.
Zou, H. (2006). The adaptive LASSO and its oracle properties. Journal of the American Statistical Association, 101(476), 1418-1429.
Signaler un problème sur cette page
Quelque chose ne fonctionne pas? L'information n'est plus à jour? Vous ne trouvez pas ce que vous cherchez?
S'il vous plaît contactez-nous et nous informer comment nous pouvons vous aider.
- Date de modification :