Efficacité relative des méthodes fondées sur l’estimation par régression d’enquête assistée par un modèle : une étude par simulations
Section 6. Conclusions

Nous avons évalué les performances de plusieurs estimateurs par la régression d’enquête assistés par un modèle, dans le contexte d’un échantillonnage probabiliste et non probabiliste, au moyen d’une étude par simulations. Tout d’abord, nous traitons des conclusions générales de notre étude par simulations reposant sur des échantillons probabilistes au moyen d’un plan à échantillonnage aléatoire simple (EAS) stratifié. Dans le contexte de nos données d’enquête-entreprise avec toutes les variables auxiliaires catégoriques, l’estimateur par arbre de régression et l’estimateur fondé sur la méthode LASSO (bidirectionnel) avec effets d’interaction à deux facteurs sont les seuls estimateurs assistés par un modèle qui procurent des gains d’efficacité, par rapport à l’estimateur de HT, en présence d’une petite taille d’échantillon et d’un nombre élevé de catégories de variables auxiliaires utilisées. De même, l’estimateur de variance de l’estimateur par arbre de régression est le moins biaisé dans ce scénario. Lorsque la taille de l’échantillon augmente, la différence d’efficacité entre les estimateurs par la régression d’enquête assistés par un modèle devient négligeable et tous sont légèrement plus efficaces que l’estimateur de HT. En général, les gains d’efficacité potentiels des estimateurs assistés par un modèle par rapport à l’estimateur de HT dépendent de la puissance prédictive du modèle. Dans notre population de simulation, la force de la relation entre la variable de l’étude et les variables auxiliaires catégoriques disponibles est quelque peu faible, comme en témoigne le coefficient de détermination ajusté R 2 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOuamaaCa aaleqabaGaaGOmaaaaaaa@37A7@  autour de 0,20. Nous avons donc généré des variables d’étude conduisant à des valeurs plus grandes de R 2 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOuamaaCa aaleqabaGaaGOmaaaaaaa@37A7@  autour de 0,50 en rendant la variance d’erreur du modèle plus petite. Comme prévu, les estimateurs assistés par un modèle ont procuré des gains d’efficacité importants par rapport à l’estimateur de HT dans tous les cas, comme on le voit dans le tableau 4.2 qui montre que l’estimateur par arbre de régression et l’estimateur fondé sur la méthode LASSO avec effets d’interaction sont plus efficaces que l’estimateur ERG couramment utilisé en présence d’interactions à deux facteurs. De plus, les poids de régression pour l’estimateur par arbre et les poids de calage pour les estimateurs par calage de type LASSO sont beaucoup moins variables, notamment pour les échantillons de petite taille, que les poids pour l’estimateur ERG. Nous avons également examiné la performance des estimateurs par calage de type LASSO et par arbre de régression dans un scénario où il n’y a pas d’effets principaux et où seules des interactions à deux facteurs sont présentes et dans un autre scénario où il y a une multicolinéarité entre les variables auxiliaires. Dans ce dernier scénario, l’estimateur ERG n’est pas applicable, et nous montrons que l’estimateur par arbre de régression et les estimateurs fondés sur la méthode LASSO fournissent un moyen automatique de supprimer les variables auxiliaires colinéaires sans diminuer les gains d’efficacité potentiels. Dans l’ensemble, nous recommandons l’utilisation des estimateurs fondés sur la méthode LASSO (bidirectionnels) ou de l’estimateur par arbre de régression pour ce qui est de l’efficacité lorsque des interactions à deux facteurs sont susceptibles d’être présentes parmi les variables auxiliaires catégoriques. Même dans le cas de modèles ne comportant que des effets principaux, les deux méthodes obtiennent de bons résultats par rapport à l’estimateur ERG en ce qui a trait à l’EQM, car l’estimateur fondé sur la méthode LASSO (bidirectionnel) réduit automatiquement à zéro les coefficients de régression associés aux interactions, tandis que l’estimateur par arbre de régression ne nécessite pas la spécification de la fonction moyenne. Dans d’autres contextes où il existe des preuves de relations complexes non linéaires et non additives entre la variable d’enquête d’intérêt et les variables auxiliaires, l’utilisation d’autres méthodes d’apprentissage automatique basées sur des arbres, comme XGBoost et les forêts aléatoires, devrait être étudiée.

Dans la section 4.3, nous avons étudié la performance des estimateurs de variance en matière de biais relatif et montré que tous les estimateurs de variance présentent une sous-estimation importante pour les tailles d’échantillon n=200 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOBaiaays W7cqGH9aqpcaaMc8UaaGjbVlaaikdacaaIWaGaaGimaaaa@3EB5@  et les 28 catégories x. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiEaiaac6 caaaa@3796@  Le biais relatif de l’estimateur de variance de l’arbre de régression n’a pas diminué lorsque la taille de l’échantillon a augmenté, contrairement aux autres cas, et cela pourrait être attribuable à un surajustement. Dans le contexte de la méthode des forêts aléatoires, Dagdoug, Goga et Haziza (2021) ont examiné une procédure basée sur la validation croisée qui a conduit à de petits biais relatifs et à de bons taux de couverture. Il serait intéressant d’étudier une procédure similaire pour l’estimation de la variance de l’estimateur par arbre de régression.

Un inconvénient majeur des méthodes basées sur la méthode LASSO et par arbre de régression est que les procédures d’estimation ne produisent pas un ensemble de poids génériques qui peuvent être appliqués à toutes les variables de l’étude, y. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9 vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=x fr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaaeaaaaaaaaa8 qacaWG5bGaaiOlaaaa@37B7@  Une autre approche possible consiste à dériver des poids de régression basés sur une variable primaire d’intérêt et à appliquer cet ensemble de poids aux variables d’étude connexes. Dans le contexte de l’enquête considérée dans la présente étude, l’utilisation d’un seul ensemble de poids pour un groupe de variables connexes a entraîné une faible perte d’efficacité, par rapport à l’utilisation de poids propres aux variables. De même, le biais des estimateurs est resté négligeable. Cette approche permet de conserver les propriétés souhaitables des poids de régression, une faible variabilité et, dans le cas de l’estimateur par arbre de régression, des poids strictement positifs. Cependant, les propriétés asymptotiques des estimateurs fondés sur la méthode LASSO et par arbre de régression n’ont pas été calculées pour un seul ensemble de poids, appliqué à de multiples variables d’étude.

Nous avons également envisagé l’utilisation d’estimateurs par la régression d’enquête assistés par un modèle pour les données provenant d’un échantillonnage probabiliste mal défini, traité comme un échantillon non probabiliste. Lorsque la probabilité de sélection dépend d’une variable auxiliaire observée, le biais des estimateurs assistés par un modèle diminue lorsque la taille de l’échantillon augmente. L’inclusion de la variable auxiliaire appropriée dans le modèle de travail de l’estimateur ERG élimine efficacement le biais d’échantillonnage. Il est difficile d’y parvenir dans la pratique, car le processus de sélection est inconnu. Effectuer une sélection de variables peut augmenter le biais des estimateurs par la régression d’enquête assistés par un modèle, car les variables auxiliaires liées à la probabilité de sélection peuvent ne pas être incluses dans le modèle de régression. En effet, dans nos simulations, le fait d’inclure correctement les revenus comme variable auxiliaire potentielle n’a pas nécessairement diminué le biais des estimateurs LASSO.

Lorsque la probabilité de sélection dépend de la variable d’intérêt de l’enquête, tous les estimateurs sont fortement biaisés. L’ampleur du biais est très similaire d’un estimateur à l’autre et ne diminue pas de façon importante lorsque la taille de l’échantillon augmente. Dans notre population de simulation, les variables auxiliaires ne sont pas hautement prédictives pour les variables d’enquête d’intérêt. L’examen de l’incidence de la force de la relation entre les variables auxiliaires et la variable d’intérêt en présence d’une sélection informative mérite une étude plus approfondie.

Le biais d’échantillonnage peut ne pas être réduit en utilisant uniquement un échantillon non probabiliste, comme l’a démontré notre étude par simulations. Les méthodes basées sur l’intégration d’un échantillon non probabiliste permettant d’observer les variables de l’étude et les variables auxiliaires associées avec un échantillon probabiliste permettant d’observer uniquement les mêmes variables auxiliaires ont le potentiel de réduire le biais d’échantillonnage en modélisant les probabilités de participation (Chen, Li et Wu, 2020). Les méthodes de sélection à deux bases de sondage sont également possibles lorsque la variable d’étude est observée dans les deux échantillons et que les unités de l’échantillon probabiliste appartenant à l’échantillon non probabiliste peuvent être déterminées sans erreur de couplage et sans qu’il soit nécessaire de modéliser les probabilités de participation (Kim et Tam, 2020; Rao, 2021 et Beaumont, 2020). Toutefois, la méthode à deux bases de sondage n’est efficace que lorsque la fraction de sondage de l’échantillon non probabiliste est importante. Nous étudions les méthodes ci-dessus dans le contexte des enquêtes-entreprises, par exemple en intégrant des données d’enquête à des données administratives incomplètes traitées comme un échantillon non probabiliste.

Remerciements

Nous remercions Wesley Yung pour avoir entamé ce travail et pour ses commentaires et ses suggestions constructifs. Nous remercions également les réviseurs, le rédacteur en chef et le rédacteur adjoint pour leurs commentaires constructifs et leurs suggestions.

Bibliographie

Beaumont, J.-F. (2020). Les enquêtes probabilistes sont-elles vouées à disparaître pour la production de statistiques officielles ? Techniques denquête, 46, 1, 1-30. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/fr/pub/12-001-x/2020001/article/00001-fra.pdf.

Breidt, F.J., et Opsomer, J.D. (2017). Model-assisted survey estimation with modern prediction techniques. Statistical Science, 32(2), 190-205.

Buskirk, T.D., Kirchner, A., Eck, A. et Signorino, C.S. (2018). An introduction to machine learning methods for survey researchers. Survey Practice, 11(1), 1-10.

Cassel, C.M., Särndal, C.-E. et Wretman, J.H. (1976). Some results on generalized difference estimation and generalized regression estimation for finite population. Biometrika, 63(3), 615-620.

Chen, Y., Li, P. et Wu, C. (2020). Doubly robust inference with nonprobability survey samples. Journal of the American Statistical Association, 115(523), 2011-2021.

Chen, J.K.T., Valliant, R.L. et Elliott, M.R. (2018). Calage assisté par un modèle pour des données de sondage non probabiliste en utilisant le LASSO adaptatif. Techniques denquête, 44, 1, 125-155. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/fr/pub/12-001-x/2018001/article/54963-fra.pdf.

Chen, J.K.T., Valliant, R.L. et Elliott, M.R. (2019). Calibrating non-probability surveys to estimated control totals using LASSO, with an application to political polling. Journal of the Royal Statistical Society: Series C (Applied Statistics), 68(3), 657-681.

Dagdoug, M., Goga, C. et Haziza, D. (2021). Model-assisted estimation through random forests infinite population sampling. Journal of the American Statistical Association (à paraître).

Friedman, J., Hastie, T., Simon, N., Qian, J. et Tibshirani, R. (2017). glmnet: Lasso and Elastic-Net Regularized Generalized Linear Models. R package version 2.0-13.

Kern, C., Klausch, T. et Kreuter, F. (2019). Tree-based machine learning methods for survey research. Survey Research Methods, 13(1), 73-93.

Kern, C., Li, Y. et Wang, L. (2020). Boosted kernel weighting-using statistical learning to improve inference from nonprobability samples. Journal of Survey Statistics and Methodology. https://doi.org/10.1093/jssam/smaa028.

Kim, J.K., et Tam, S.M. (2020). Data integration combing big data and survey sample data for finite population inference. Revue Internationale de Statistique, 89(2), 382-401.

McConville, K.S. (2011). Department of Statistics Improved Estimation for Complex Surveys Using Modern Regression Techniques, thèse de doctorat non-publiée, Colorado State University.

McConville, K.S., et Toth, D. (2019). Automated selection of post-strata using a model-assisted regression tree estimator. Scandinavian Journal of Statistics, 46(2), 389-413.

McConville, K.S., Breidt, F.J., Lee, T.C.M. et Moisen, G.G. (2017). Model-assisted survey regression estimation with the LASSO. Journal of Survey Statistics and Methodology, 5(2), 131-158.

McConville, K.S., Tang, B., Zhu, G., Li, S., Cheung, S. et Toth, D. (2018). mase: Model-Assisted Survey Estimators. R package version 0.1.1.

Rafei, A., Flannagan, C.A. et Elliott, M.R. (2020). Big data for finite population inference: Applying quasi-random approaches to naturalistic driving data using Bayesian additive regression trees. Journal of Survey Statistics and Methodology, 8(1), 148-180.

Rao, J.N.K. (2021). On making valid inferences by integrating data from surveys and other sources. Sankhyā B, 83(1), 242-272 (publié en ligne en avril 2020).

Ripley, B., Venables, B., Bates, D.M., Hornik, K., Gebhardt, A. et Firth, D. (2017). MASS: Modern Applied Statistics with S. R package version 7. 3-47.

Särndal, C.E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey Sampling. Springer-Verlag Publishing.

Tibshirani, R. (1996). Regression shrinkage and selection via the LASSO. Journal of the Royal Statistical Society, Series B, 58(1), 267-288.

Zou, H. (2006). The adaptive LASSO and its oracle properties. Journal of the American Statistical Association, 101(476), 1418-1429.


Signaler un problème sur cette page

Quelque chose ne fonctionne pas? L'information n'est plus à jour? Vous ne trouvez pas ce que vous cherchez?

S'il vous plaît contactez-nous et nous informer comment nous pouvons vous aider.

Avis de confidentialité

Date de modification :