5. Discussion
Jan Kowalski et Jacek Wesołowski
Précédent | Suivant
Le résultat principal de l’article est
une formule de récurrence explicite pour le meilleur estimateur linéaire sans
biais (BLUE) de la moyenne pour n’importe quelle édition d’une enquête répétée
avec tout schéma de renouvellement en cascade de l’échantillon. La principale nouveauté
tient au fait de permettre des intervalles dans le schéma. Les résultats
obtenus antérieurement concernaient des schémas sans intervalle ou d’autres
estimateurs que les estimateurs BLUE. L’approche que nous avons élaborée
s’appuie fortement sur l’algèbre des matrices et des opérateurs linéaires de
dimension infinie, ainsi que sur les propriétés des polynômes de Tchebychev. Malheureusement,
la formule récursive explicite que nous avons obtenue dans le théorème 3.1
requiert deux hypothèses apparemment techniques : l’HYPOTHÈSE I sur
la localisation des racines d’un polynôme
et l’HYPOTHÈSE II sur le
rang de la matrice
Il convient de souligner que l’un et l’autre
de ces objets,
et
dépendent SEULEMENT de deux paramètres : le
schéma de renouvellement de l’échantillon
et le coefficient de
corrélation
On sait que ces deux hypothèses
sont satisfaites si la couverture du schéma est
ou
pour tout scénario en cascade
et
pour le scénario 2-2-2. On ne
sait pas si elles sont satisfaites en général. Cependant, des expériences
numériques permettent de conjecturer que c’est véritablement le cas. Dans ces
expériences, nous avons considéré de nombreux schémas de renouvellement d’échantillon
différents. Pour chacun, nous avons considéré plusieurs valeurs de
Après avoir choisi le schéma de
renouvellement
et la valeur de
nous avons construit le
polynôme
et la matrice
respectifs. Numériquement,
nous avons cherché les racines de
Ces racines étaient souvent
complexes, mais quand elles étaient réelles, elles étaient situées en dehors de
l’intervalle
dans toutes les expériences (c’est-à-dire
que l’HYPOTHÈSE I était satisfaite). Ensuite, nous avons essayé de
résoudre numériquement l’équation
De nouveau, dans tous les
expériences, nous avons obtenu la solution unique, ce qui signifie que
était de plein rang (c’est-à-dire
que l’HYPOTHÈSE II était également satisfaite). Nous pensons que les deux
hypothèses sont systématiquement satisfaites, mais il est probablement
difficile de donner une preuve mathématique de ces deux faits. Néanmoins, un
article donnant la preuve que l’HYPOTHÈSE I est satisfaite pour tout
schéma de renouvellement en cascade avec un seul intervalle de n’importe quelle
taille et pour n’importe quelle valeur de
est en préparation.
La méthode que nous proposons possède
d’autres types de limites, qui sont dues aux contraintes du modèle. En
particulier, dans le modèle, les corrélations sont exponentielles (comme dans
le modèle original de Patterson). Cette
propriété joue un rôle important dans l’argument que nous utilisons; par exemple,
elle rend la matrice de covariance
nilpotente de degré
c’est-à-dire que
est la plus petite valeur de
telle que
En outre, on a observé (voir l’exemple 4.5
dans Kowalski 2009) que d’autres modèles
de covariance peuvent donner lieu à d’importantes difficultés dans l’analyse de
la formule de la variance des estimateurs. Il se peut que certains écarts
raisonnables par rapport à l’hypothèse de corrélation exponentielle, par exemple,
pour
(voir Lent, Miller, Cantwell et Duff (1999), en particulier leur tableau 1,
sa discussion ainsi que des références supplémentaires) aboutissent à des
formules de variance solubles. Un modèle de covariance de ce genre est
probablement le premier qu’il faudra examiner dans tous futurs travaux visant à
étendre le modèle.
Dans le modèle, nous avons également
supposé que les espérances pour une édition donnée de l’enquête sont toutes les
mêmes et dépendent seulement du numéro de l’édition :
Cependant, d’autres modèles
pourraient présenter un intérêt, par exemple,
(voir Bailar 1975). Ici les ajustements
peuvent être interprétés comme
un biais de temps passé dans l’échantillon causé par le nombre d’éditions de
l’enquête à laquelle l’unité
a participé. Naturellement, si
est connu, il n’y a pas de
problème : il suffit d’ajuster
en soustrayant
et d’utiliser l’approche que
nous avons élaborée. S’il n’est pas connu, la solution opérationnelle (mais non
mathématique) consisterait à ajuster les
au moyen d’estimateurs
appropriés des
(obtenus en dehors du modèle que nous analysons).
La solution mathématique exacte est inconnue et mériterait d’être poursuivie.
Un autre aspect, qui présente un
intérêt dans le modèle examiné ici, est la question de la récurrence pour l’estimateur
BLUE d’une variation de la moyenne
Nous pensons que cette
question peut être approchée au moyen des méthodes élaborées dans le présent
article. Néanmoins, nous nous attendons à ce que cela nécessite beaucoup d’adaptations
prudentes des techniques algébriques utilisées plus haut.
Mentionnons aussi que l’horizon
temporel du modèle considéré dans le présent article est infini, alors que le
nombre d’éditions des enquêtes réelles est toujours fini. Comme nous l’avons
déjà mentionné dans l’introduction, les résultats que nous avons obtenus
semblent être une approximation raisonnable du cas d’un horizon fini, quand les
coefficients de récurrence (1.2) dépendent de
En particulier, des
expériences numériques, effectuées pour une grande gamme de valeurs de
et divers schémas de
renouvellement en cascade
montrent que, par exemple,
la valeur des coefficients
(pour l’horizon fini) était déjà à peu près la
même que celle de
(pour l’horizon infini) pour
Nous avons observé le même
comportement pour les variances des estimateurs. Néanmoins, la convergence n’a
été mathématiquement établie que pour le cas
À l’heure actuelle, il semble
aussi impossible d’obtenir les bornes analytiques pour la vitesse de convergence.
Il serait intéressant de savoir comment
les estimateurs obtenus ici fonctionnent dans les enquêtes réelles. Pour
répondre à cette question, il faut avoir accès à des données réelles et susciter
l’intérêt des praticiens pour les solutions théoriques que nous avons proposées.
Il est fort probable que les formules exactes données dans le théorème 3.1
nécessitent certains ajustements en raison des limites du modèle dont nous avons discuté.
Précédent | Suivant