6. Conclusion

Phillip S. Kott et Dan Liao

Précédent

À la section 4, nous avons mentionné deux raisons de préférer la pondération par calage en deux étapes : rendre l’ajustement implicite d’un modèle de réponse logistique plus facile et intégrer le calage presque quasi-optimal. Un avantage secondaire du calage en deux étapes est une estimation plus efficace du modèle de réponse à la première étape, puisque aucune erreur d’échantillonnage ne fausse l’estimation. Cette propriété est utile si l’on veut analyser les causes de la non-réponse totale en tant que fin en soi.

Nous concédons, cependant, que la réduction de l’erreur quadratique moyenne en utilisant les deux étapes était modeste dans nos expériences par simulation à la section 5. En outre, nous ne pouvons nier l’attrait pratique de la simplicité du calage en une seule étape.

Lorsqu’on utilise la pondération par calage pour corriger la non-réponse quand les réponses ne manquent pas au hasard comme il est décrit dans Chang et Kott (2008) et dans Kott et Chang (2010), des gains d’efficacité vraisemblablement importants découlent d’une deuxième étape où n’interviennent que des variables de calage et des fonctions des variables de calage comme variables du modèle.

Quand les facteurs de correction pour population finie peuvent être ignorés, le rééchantillonnage offre une approche beaucoup plus simple d’estimation de la variance que l’équation (3.7), même si l’on peut laisser tomber la deuxième sommation dans le deuxième membre dans cette situation. Une autre option intéressante est la version « contractée » de l’équation (4.2) qui ignore l’effet de la première étape de calage :

v ˜ ( t y ) = k , j S ( 1 π k π j π k j ) [ w k e 2 k ] [ w j e 2 j ] + k R d k ( h k 2 α k 2 h k α k ) e 2 k 2 . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaaceWG2bGbaG aadaqadeqaaiaadshadaWgaaWcbaGaamyEaaqabaaakiaawIcacaGL PaaacqGH9aqpdaaeqbqaamaabmaabaGaaGymaiabgkHiTmaalaaaba GaeqiWda3aaSbaaSqaaiaadUgaaeqaaOGaeqiWda3aaSbaaSqaaiaa dQgaaeqaaaGcbaGaeqiWda3aaSbaaSqaaiaadUgacaWGQbaabeaaaa aakiaawIcacaGLPaaadaWadaqaaiaadEhadaWgaaWcbaGaam4Aaaqa baGccaWGLbWaaSbaaSqaaiaaikdacaWGRbaabeaaaOGaay5waiaaw2 faaaWcbaGaam4AaiaacYcacaWGQbGaeyicI4Saam4uaaqab0Gaeyye IuoakmaadmaabaGaam4DamaaBaaaleaacaWGQbaabeaakiaadwgada WgaaWcbaGaaGOmaiaadQgaaeqaaaGccaGLBbGaayzxaaGaey4kaSYa aabuaeaacaWGKbWaaSbaaSqaaiaadUgaaeqaaOWaaeWaaeaacaWGOb Waa0baaSqaaiaadUgaaeaacaaIYaaaaOGaeqySde2aa0baaSqaaiaa dUgaaeaacaaIYaaaaOGaeyOeI0IaamiAamaaBaaaleaacaWGRbaabe aakiabeg7aHnaaBaaaleaacaWGRbaabeaaaOGaayjkaiaawMcaaiaa dwgadaqhaaWcbaGaaGOmaiaadUgaaeaacaaIYaaaaOGaaiOlaaWcba Gaam4AaiabgIGiolaadkfaaeqaniabggHiLdaaaa@7A13@

Cet estimateur estime manifestement la variance du modèle de prédiction si ce modèle est vérifié. Une version de cet estimateur − avec la deuxième sommation supprimée − a donné de bons résultats dans nos expériences par simulation (résultats non présentés). Une certaine prudence est de rigueur avant de tirer une conclusion trop catégorique de ce résultat, puisque le modèle linéaire n’était jamais très loin d’être vérifié dans nos investigations.

Enfin, un certain nombre d’hypothèses ont été faites pour simplifier l’exposé. Le lecteur que cela intéresse peut étendre les résultats à une d k MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGKbWaaS baaSqaaiaadUgaaeqaaaaa@3A6A@  non bornée ou à des fonctions d’ajustement des poids plus générales et qui ne sont pas nécessairement bornées, ou permettre que les erreurs du modèle de prédiction soient corrélées à l’intérieur des unités primaires d’échantillonnage. Quand N MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGobaaaa@3938@  augmente plus rapidement que n , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGUbGaai ilaaaa@3A08@  l’hypothèse selon laquelle σ k 2 = z k T η MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9LqFf0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacqaHdpWCda qhaaWcbaGaam4AaaqaaiaaikdaaaGccqGH9aqpcaWH6bWaa0baaSqa aiaadUgaaeaacaWGubaaaOGaaC4Tdaaa@4157@  peut parfois être abandonnée. Voir, par exemple, Kott (2009, page 69).

Remerciements

Le présent article a été préparé à l’occasion du Symposium on the Analysis of Survey Data and Small Area Estimation organisé en l’honneur du 75e anniversaire du professeur J.N.K. Rao et parrainé par le Fields Institute for Research in Mathematical Sciences. Les auteurs remercient les organisateurs de la conférence de les avoir invités à présenter cet article et l’Institut de son généreux financement de la conférence sans lequel le présent article n’aurait jamais été rédigé. Ils remercient également plusieurs rédacteurs et examinateurs de leurs commentaires utiles.

Bibliographie

Bang, H., et Robins, J.M. (2005). Doubly robust estimation in missing data and causal inference models. Biometrics, 61, 962-972.

Bankier, M. (2002). Regression estimators for the 2001 Canadian Census. Présenté à l’International Conference in Recent Advances in Survey Sampling.

Chang, T., et Kott, P.S. (2008). Using calibration weighting to adjust for nonresponse under a plausible model. Biometrika, 95, 557-571.

Deming, W.E., et Stephan, F.F. (1940). On a least squares adjustment of a sample frequency table when the expected marginal total are known. Annals of Mathematical Statistics, 11, 427-444.

Deville, J.-C. (2000). Generalized calibration and application to weighting for non-response. Dans COMPSTAT: Proceedings in Computational Statistics, 14th Symposium, Utrecht, The Netherlands, (Éds., J.G. Bethlehem et P.G.M. Van der Heidjen), Heidelberg : Physica Verlag, 65-76.

Deville, J.-C., et Särndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the American Statistical Association, 87, 418, 376-382.

Deville, J.-C., Särndal, C.-E. et Sautory, O. (1993). Generalized raking procedures in survey sampling. Journal of the American Statistical Association, 88, 1013-1020.

Estevao, V.M., et Särndal, C.-E. (2002). The ten cases of auxiliary information for calibration in two-phase sampling. Journal of Official Statistics, 18, 233-255.

Estevao, V.M., et Särndal, C.-E. (2000). A functional form approach to calibration. Journal of Official Statistics, 16, 379-399.

Folsom, R.E. (1991). Exponential and logistic weight adjustments for sampling and nonresponse error reduction. Proceedings of the American Statistical Association, Social Statistics Section, 197-202.

Folsom, R.E., et Singh, A.C. (2000). The generalized exponential model for sampling weight calibration for extreme values, nonresponse, and poststratification. Proceedings of the American Statistical Association, Survey Research Methods Section, disponible en ligne au http://www.amstat.org/sections/srms/Proceedings/, 598-603.

Fuller, W.A., Loughin, M.M. et Baker, H.D. (1994). Production de poids de régression en situation de non-réponse et application à la Nationwide Food Consumption Survey de 1987-1988. Techniques d’enquête, 20, 1, 79-89.

Kim, J.K., et Haziza, D. (2014). Doubly robust inference with missing survey data. Statistica Sinica, 24, 375-394.

Kim, J.K., et Park, H. (2006). Imputation using response probability. Canadian Journal of Statistics, 34, 1-12.

Kim, J.K., et Shao, J. (2013). Statistical Methods for Handling Incomplete Data, Londres : Chapman and Hall/CRC.

Kott, P.S. (2006). Utilisation de la pondération par calage pour la correction de la non-réponse et des erreurs de couverture. Techniques d’enquête, 32, 2, 149-160.

Kott, P.S. (2009). Calibration weighting: Combining probability samples and linear prediction models. Dans Handbook of Statistics 29B: Sample Surveys: Inference and Analysis, (Éds., D. Pfeffermann et C.R. Rao), New York : Elsevier.

Kott, P.S. (2011). A nearly pseudo-optimal method for keeping calibration weights from falling below unity in the absence of nonresponse or frame errors. Pakistan Journal of Statistics, 27, 391-396.

Kott, P.S., et Chang, T.C. (2010). Using calibration weighting to adjust for nonignorable unit nonresponse. Journal of the American Statistical Association, 105, 1265-1275.

Kott, P.S., et Liao, D. (2012). Comparing weighting methods when adjusting for logistic unit Nonresponse. Présenté au Federal Committee on Survey Methodology Research Conference, disponible en ligne au http://www.fcsm.sites.usa.gov/files/2014/05/Kott_2012FCSM_III-B.pdf.

Little, R.J., et Rubin, D.B. (2002). Statistical Analysis with Missing Data (2e Éd.), New York : John Wiley & Sons, Inc.

Lundström, S., et Särndal, C.-E. (1999). Calibration as a standard method for the treatment of nonresponse. Journal of Official Statistics, 15, 305-327.

Oh, H.L., et Scheuren, F.J. (1983). Weighting adjustment for unit nonresponse. Dans Incomplete Data in Sample Surveys, (Éds., W.G. Madow, I. Olkin et D.B. Rubin), New York : Academic Press, 2.

Rao, J.N.K. (1994). Estimation of totals and distributing functions using auxiliary information at the estimation stage. Journal of Official Statistics, 10, 153-165.

Robins J.M., Rotnitzky A. et Zhao L.P. (1994). Estimation of regression coefficients when some regressors are not always observed. Journal of the American Statistical Association, 89, p. 846-866.

Précédent

Date de modification :