Recherche par

5. Discussion

Jan Kowalski et Jacek Wesołowski

Le résultat principal de l’article est une formule de récurrence explicite pour le meilleur estimateur linéaire sans biais (BLUE) de la moyenne pour n’importe quelle édition d’une enquête répétée avec tout schéma de renouvellement en cascade de l’échantillon. La principale nouveauté tient au fait de permettre des intervalles dans le schéma. Les résultats obtenus antérieurement concernaient des schémas sans intervalle ou d’autres estimateurs que les estimateurs BLUE. L’approche que nous avons élaborée s’appuie fortement sur l’algèbre des matrices et des opérateurs linéaires de dimension infinie, ainsi que sur les propriétés des polynômes de Tchebychev. Malheureusement, la formule récursive explicite que nous avons obtenue dans le théorème 3.1 requiert deux hypothèses apparemment techniques : l’HYPOTHÈSE I sur la localisation des racines d’un polynôme $Q_{p}$ et l’HYPOTHÈSE II sur le rang de la matrice $S .$ Il convient de souligner que l’un et l’autre de ces objets, $Q_{p}$ et $S,$ dépendent SEULEMENT de deux paramètres : le schéma de renouvellement de l’échantillon $\underline{ε}$ et le coefficient de corrélation $ρ .$ On sait que ces deux hypothèses sont satisfaites si la couverture du schéma est $p = 1$ ou $p = 2$ pour tout scénario en cascade et $p = 3$ pour le scénario 2-2-2. On ne sait pas si elles sont satisfaites en général. Cependant, des expériences numériques permettent de conjecturer que c’est véritablement le cas. Dans ces expériences, nous avons considéré de nombreux schémas de renouvellement d’échantillon différents. Pour chacun, nous avons considéré plusieurs valeurs de $ρ \in (- 1,1) .$ Après avoir choisi le schéma de renouvellement $\underline{ε}$ et la valeur de $ρ,$ nous avons construit le polynôme $Q_{p}$ et la matrice $S$ respectifs. Numériquement, nous avons cherché les racines de $Q_{p} .$ Ces racines étaient souvent complexes, mais quand elles étaient réelles, elles étaient situées en dehors de l’intervalle $(- 1,1)$ dans toutes les expériences (c’est-à-dire que l’HYPOTHÈSE I était satisfaite). Ensuite, nous avons essayé de résoudre numériquement l’équation $S \underline{c} = (1,0, \dots,0) \in ℝ^{p h + h + 1} .$ De nouveau, dans tous les expériences, nous avons obtenu la solution unique, ce qui signifie que $S$ était de plein rang (c’est-à-dire que l’HYPOTHÈSE II était également satisfaite). Nous pensons que les deux hypothèses sont systématiquement satisfaites, mais il est probablement difficile de donner une preuve mathématique de ces deux faits. Néanmoins, un article donnant la preuve que l’HYPOTHÈSE I est satisfaite pour tout schéma de renouvellement en cascade avec un seul intervalle de n’importe quelle taille et pour n’importe quelle valeur de $ρ \in (- 1,1)$ est en préparation.

La méthode que nous proposons possède d’autres types de limites, qui sont dues aux contraintes du modèle. En particulier, dans le modèle, les corrélations sont exponentielles (comme dans le modèle original de Patterson). Cette propriété joue un rôle important dans l’argument que nous utilisons; par exemple, elle rend la matrice de covariance $C$ nilpotente de degré $N,$ c’est-à-dire que $N$ est la plus petite valeur de $j$ telle que $C^{j} = 0.$ En outre, on a observé (voir l’exemple 4.5 dans Kowalski 2009) que d’autres modèles de covariance peuvent donner lieu à d’importantes difficultés dans l’analyse de la formule de la variance des estimateurs. Il se peut que certains écarts raisonnables par rapport à l’hypothèse de corrélation exponentielle, par exemple, $ℂ ov (X_{i, j}, X_{k, l}) = θ + (1 - θ) ρ^{| j - l |} δ_{i, k}$ pour $θ \in [0,1]$ (voir Lent, Miller, Cantwell et Duff (1999), en particulier leur tableau 1, sa discussion ainsi que des références supplémentaires) aboutissent à des formules de variance solubles. Un modèle de covariance de ce genre est probablement le premier qu’il faudra examiner dans tous futurs travaux visant à étendre le modèle.

Dans le modèle, nous avons également supposé que les espérances pour une édition donnée de l’enquête sont toutes les mêmes et dépendent seulement du numéro de l’édition : $E X_{i, j} = μ_{j} .$ Cependant, d’autres modèles pourraient présenter un intérêt, par exemple, $E X_{i, j} = μ_{j} + a_{i}$ (voir Bailar 1975). Ici les ajustements $a_{i}$ peuvent être interprétés comme un biais de temps passé dans l’échantillon causé par le nombre d’éditions de l’enquête à laquelle l’unité $i$ a participé. Naturellement, si $a_{i}$ est connu, il n’y a pas de problème : il suffit d’ajuster $X_{i, j}$ en soustrayant $a_{i}$ et d’utiliser l’approche que nous avons élaborée. S’il n’est pas connu, la solution opérationnelle (mais non mathématique) consisterait à ajuster les $X_{i, j}$ au moyen d’estimateurs appropriés des $a_{i}$ (obtenus en dehors du modèle que nous analysons). La solution mathématique exacte est inconnue et mériterait d’être poursuivie.

Un autre aspect, qui présente un intérêt dans le modèle examiné ici, est la question de la récurrence pour l’estimateur BLUE d’une variation de la moyenne $μ_{t} - μ_{t - 1} .$ Nous pensons que cette question peut être approchée au moyen des méthodes élaborées dans le présent article. Néanmoins, nous nous attendons à ce que cela nécessite beaucoup d’adaptations prudentes des techniques algébriques utilisées plus haut.

Mentionnons aussi que l’horizon temporel du modèle considéré dans le présent article est infini, alors que le nombre d’éditions des enquêtes réelles est toujours fini. Comme nous l’avons déjà mentionné dans l’introduction, les résultats que nous avons obtenus semblent être une approximation raisonnable du cas d’un horizon fini, quand les coefficients de récurrence (1.2) dépendent de $t .$ En particulier, des expériences numériques, effectuées pour une grande gamme de valeurs de $ρ \in (- 1,1)$ et divers schémas de renouvellement en cascade $ε,$ montrent que, par exemple, la valeur des coefficients $a_{i}^{(t)}$ (pour l’horizon fini) était déjà à peu près la même que celle de $a_{i}$ (pour l’horizon infini) pour $t \approx 10.$ Nous avons observé le même comportement pour les variances des estimateurs. Néanmoins, la convergence n’a été mathématiquement établie que pour le cas $p = 1.$ À l’heure actuelle, il semble aussi impossible d’obtenir les bornes analytiques pour la vitesse de convergence.

Il serait intéressant de savoir comment les estimateurs obtenus ici fonctionnent dans les enquêtes réelles. Pour répondre à cette question, il faut avoir accès à des données réelles et susciter l’intérêt des praticiens pour les solutions théoriques que nous avons proposées. Il est fort probable que les formules exactes données dans le théorème 3.1 nécessitent certains ajustements en raison des limites du modèle dont nous avons discuté.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

5. Discussion