Estimation de quantiles sur petits domaines à l’aide de la régression spline et de la vraisemblance empirique

Section 1. Introduction

Les enquêtes-échantillons sont largement utilisées pour obtenir de l’information sur les totaux, les moyennes, les médianes et d’autres quantités de populations finies. De même, des données semblables sur des sous-populations, comme des individus dans des régions et des groupes sociodémographiques particuliers, présentent aussi un intérêt. Souvent, une enquête est conçue pour recueillir de l’information d’intérêt au niveau de la population, mais cela donne des données directes insuffisantes sur les sous-populations. Voilà pourquoi l’estimation des paramètres des sous-populations avec une précision satisfaisante et l’évaluation de leur exactitude sont de sérieux défis pour les statisticiens. Ces derniers doivent se tourner vers des modèles appropriés pour regrouper l’information des petits domaines afin de bien estimer les paramètres pour les petits domaines quand aucun échantillon ou seulement de petits échantillons dans ces domaines sont disponibles à partir de l’enquête-échantillon.

Les recherches consacrées à l’estimation sur petits domaines attirent de plus en plus l’attention des secteurs public et privé. Pour faire un petit rappel historique, mentionnons Fay et Herriot (1979), Battese, Harter et Fuller (1988), Prasad et Rao (1990), et Lahiri et Rao (1995), entre autres. Pour un examen général de l’évolution de l’estimation sur petits domaines, mentionnons Pfeffermann (2002) et Pfeffermann (2013) et les ouvrages de Rao (2003) et Rao et Molina (2015). Voir également Jiang et Lahiri (2006a), Jiang et Lahiri (2006b) et Jiang (2010) pour les publications récentes.

Comparativement aux quantiles, il existe relativement plus d’activités de recherche sur l’estimation des moyennes de petits domaines. Les études sur l’estimation de quantiles sur petits domaines gagnent du terrain. L’approche M-quantile de Chambers et Tzavidis (2006) a remporté un franc succès. Cette approche utilise l’approche M-quantile pour caractériser les distributions conditionnelles de la variable de réponse y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEaaaa@36F5@ pour des covariables x . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiEaiaac6 caaaa@37AA@ Cette information sert ensuite à prédire les valeurs de réponses non observées à partir desquelles les distributions de la population des petits domaines sont estimées. L’estimation de quantiles sur petits domaines est un avantage secondaire naturel et bien accueilli. Voir Tzavidis et Chambers (2005), Pratesi, Ranalli et Salvati (2008), Tzavidis, Salvati et Pratesi (2008), et Salvati, Tzavidis et Pratesi (2012) pour en connaître l’évolution.

Une autre approche d’estimation de quantiles sur petits domaines est proposée par Molina (2010). Supposons que s MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4Caaaa@36EF@ et r MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOCaaaa@36EE@ sont les ensembles d’unités échantillonnées et non échantillonnées dans une enquête et y s MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEamaaBa aaleaacaWGZbaabeaaaaa@3819@ et y r MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEamaaBa aaleaacaWGYbaabeaaaaa@3818@ sont les vecteurs des valeurs de réponses correspondantes. À l’aide d’une hypothèse paramétrique sur la distribution conjointe de y s MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEamaaBa aaleaacaWGZbaabeaaaaa@3819@ et y r MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEamaaBa aaleaacaWGYbaabeaaaaa@3818@ (ou les réponses transformées), ils ont proposé de calculer la distribution conditionnelle de y r MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEamaaBa aaleaacaWGYbaabeaaaaa@3818@ sachant y s MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEamaaBa aaleaacaWGZbaabeaaaaa@3819@ (et d’autre information). Après avoir dûment estimé la distribution conjointe et, par conséquent, la distribution conditionnelle, ils ont suggéré l’échantillonnage à partir de la distribution conditionnelle estimée pour créer une population artificielle, mais complète, une fois que y r MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEamaaBa aaleaacaWGYbaabeaaaaa@3818@ non observé était rempli. La distribution de la population est estimée à partir de la population complète. Cette approche fonctionne bien pour estimer les quantiles et les moyennes de petits domaines. Les autres méthodes dont nous sommes au courant comprennent celles de Tzavidis, Marchetti et Chambers (2010), Chaudhuri et Ghosh (2011) et Chen et Liu (2018). Tzavidis et coll. (2010) ont proposé un cadre général pour une estimation sur petits domaines robuste, en représentant l’estimateur sur petits domaines comme une fonction d’une variable explicative de la fonction de distribution cumulative de ces petits domaines. Chaudhuri et Ghosh (2011) ont proposé une vraisemblance empirique qui repose sur la méthode bayésienne. Chen et Liu (2018) ont proposé une approche pour les populations en admettant un modèle de régression linéaire à erreurs emboîtées combiné à des distributions des erreurs qui satisfont un modèle du rapport de densité semi-paramétrique (MRD). Selon les simulations, la méthode fondée sur le MRD ressort du lot quand les distributions des erreurs sont asymétriques.

Dans le présent document, nous nous intéressons à la situation où la fonction de régression n’est pas linéaire, même si le modèle de régression à erreurs emboîtées demeure dûment semblable à celui d’Opsomer et coll. (2008). De toute évidence, les méthodes obtenues à l’aide de modèles linéaires peuvent donner un biais considérable si l’hypothèse de la linéarité est enfreinte. Pour réduire l’éventuel risque de biais majeur, Opsomer et coll. (2008) ont proposé une meilleure prédiction linéaire sans biais empirique (EBLUP) pour les moyennes de petits domaines selon un modèle de régression non paramétrique à l’aide de splines pénalisés (P-splines); Jiang, Ngueyen et Rao (2010) ont conçu une approche de barrière adaptative en employant une technique de sélection de modèle non paramétrique; Sperlich et José Lombardía (2010) ont eu recours à la méthode d’inférence locale polynomiale dans le contexte de l’estimation sur petits domaines; Rao, Sinha et Dumitrescu (2014) ont proposé une EBLUP robuste à l’aide d’un modèle mixte approximé P-splines; Torabi et Shokoohi (2015) ont proposé une analyse unifiée des réponses discrètes et continues grâce à des modèles de régression P-spline.

Nous suivons leur exemple et élargissons leurs résultats pour permettre des distributions d’erreur non normales dans le modèle de régression non paramétrique à erreurs emboîtées. Plus précisément, nous établissons l’hypothèse du modèle de régression non paramétrique à erreurs emboîtées, mais nous assouplissons l’hypothèse de la distribution des erreurs sur petits domaines d’une normale à un MRD semi-paramétrique souple. Nous utilisons l’approche de régression P-splines d’Opsomer et coll. (2008) pour ajuster la régression non linéaire. Nous appliquons ensuite la vraisemblance empirique pour estimer les paramètres du MRD à l’aide des résidus. Cela donne une estimation naturelle de la distribution des erreurs pour des domaines spécifiques. Nous appliquons ensuite une méthode des noyaux pour obtenir des estimations lissées des distributions des erreurs et des quantiles sur petits domaines. Nous construisons des estimations des quantiles dans deux situations : lorsque nous connaissons uniquement les moyennes de puissances des covariables au niveau de la population et lorsque nous disposons des valeurs des covariables de toutes les unités d’échantillonnage dans la population. Notre approche devrait hériter des mérites du travail à partir d’un modèle de régression non paramétrique et profiter du fait que l’hypothèse d’une distribution des erreurs paramétrique est évitée. Les estimations des quantiles sur petits domaines ainsi obtenues sont donc plus robustes. Les simulations indiquent que, lorsque la fonction de régression est approximativement linéaire, le rendement de l’approche proposée est concurrentiel. L’approche proposée donne un meilleur résultat quand la relation de régression est quadratique ou exponentielle.

Le reste du document est organisé comme suit. Dans la section 2, nous introduisons le modèle et les hypothèses. Dans la section 3, nous présentons l’approche proposée. Dans la section 4, nous proposons une procédure bootstrap pour estimer les erreurs quadratiques moyennes. Dans la section 5, nous avons recours à des méthodes de Monte Carlo pour évaluer le rendement de la méthode proposée et la comparer à certaines méthodes existantes. Un exemple d’application est présenté dans la section 6. La section 7 renferme quelques observations finales.


Date de modification :