2 Données fonctionnelles en population finie
Hervé Cardot, Alain Dessertaine, Camelia Goga, Étienne Josserand et Pauline Lardin
Précédent | Suivant
Considérons une population finie de taille N et
supposons que, pour chaque élément de la population , nous pouvons observer la courbe déterministe . L'objectif est d'estimer la courbe moyenne de la population
qui est définie pour tout instant par
Soit un échantillon de
taille fixée , choisi aléatoirement dans selon un plan de
sondage Soient et les probabilités d'inclusion d'ordre un et deux
respectivement. On suppose que pour tout élément de la population
La courbe moyenne est estimée à
l'aide de l'estimateur de Horvitz-Thompson (Cardot et coll. 2010) comme suit
où est l'indicatrice
d'appartenance de l'unité à l'échantillon Pour chaque instant l'estimateur est sans biais pour
c'est à dire où l'espérance est
considérée par rapport au plan de sondage.
Généralement les trajectoires ne sont pas
observées continûment pour mais uniquement sur
un ensemble de instants de mesure
Une stratégie
classique en analyse des données fonctionnelles consiste à effectuer une
interpolation ou un lissage des trajectoires discrétisées afin d'obtenir des
objets qui sont réellement des fonctions (Ramsay et Silverman 2005). Cela permet
également de traiter des courbes dont les instants de mesure ne sont pas
identiques. Dans le cadre des sondages, l'interpolation linéaire, lorsqu'il n'y
a pas d'erreur de mesure aux points discrétisés, a été étudiée par Cardot
et Josserand (2011) tandis que des procédures de
lissage sont proposées dans Cardot et coll. (2013). Si le nombre de points de
discrétisation est suffisant et les trajectoires sont assez régulières (mais
pas nécessairement dérivables), l'erreur d'approximation due au lissage ou à
l'interpolation est négligeable face à l'erreur d'échantillonnage. On suppose
dans la suite que les trajectoires sont observées en tout point de l'intervalle
La fonction de covariance de type Horvitz-Thompson est donnée par
pour tout et Si on suppose que
les probabilités d'inclusion d'ordre deux satisfont un estimateur sans
biais de est donné par
l'estimateur sans biais de la variance de type Horvitz-Thompson,
pour tout
2.1 Prise en
compte d'information auxiliaire pour l'estimation de la trajectoire moyenne
Il est bien connu que l'utilisation d'une information
auxiliaire qui explique bien la variable d'intérêt peut beaucoup améliorer la
précision de l'estimateur de Horvitz-Thompson. Dans le cas des données EDF, la
température extérieure ou le type de contrat pourraient sans doute être des
variables auxiliaires intéressantes. Une stratification selon la position
géographique permettrait également d'obtenir des estimations pour les
différentes régions. Dans cette étude, nous disposons comme variable auxiliaire
de la consommation électrique totale de la semaine précédente. Nous supposons
que cette variable (réelle) est observée pour tous les éléments de la
population.
Nous présentons dans cette section l'estimateur de
Horvitz-Thompson pour la courbe moyenne ainsi qu'une estimation de la fonction
de covariance de cet estimateur pour le sondage stratifié avec échantillonnage
aléatoire simple sans remise (ÉASSR) dans chaque strate, noté dans la suite
STRAT, et pour l'échantillonnage proportionnel à la taille sans remise que l'on
note . Nous considérons également un estimateur de la courbe
moyenne assisté par un modèle linéaire fonctionnel.
2.1.1 Le sondage
stratifié avec ÉASSR dans chaque strate (STRAT)
La population est supposée être
stratifiée en un nombre fixé de strates de tailles À l'intérieur de
chaque strate on tire un
échantillon de taille selon un plan ÉASSR.
Notons pour la courbe moyenne
dans chaque strate et son estimation.
L'estimateur de la courbe moyenne est alors défini
par
L'estimateur de Horvitz-Thompson de la
fonction de covariance est alors
où
est l'estimateur de la fonction de covariance dans la strate . Pour , on obtient l'estimateur de la fonction de variance comme
suit
où
est l'estimateur de la
variance dans la strate . Cardot et Josserand (2011) proposent une extension, au
cadre fonctionnel, de l'allocation optimale de Neyman. Les tailles des échantillons vérifiant
permettent de rendre minimale la variance intégrée, , de l'estimateur stratifié. Cette allocation est
similaire à l'allocation obtenue dans le cadre multivarié par Cochran (1977). En remplaçant la variable par une autre
variable connue sur toute la
population et très corrélée avec la variable d'intérêt, on obtient une
allocation dite optimale.
Remarque 2.1 Pour nous obtenons le plan aléatoire simple sans
remise (ÉASSR) et la courbe moyenne est estimée par
L'estimateur de la fonction de covariance défini en (2.2) est
alors
2.1.2 L'échantillonnage proportionnel à la taille sans
remise ()
Les plans d'échantillonnage proportionnels à la taille
avec ou sans remise sont souvent utilisés en pratique car leur efficacité est
supérieure à celle de plans à probabilités égales lorsque la variable d'intérêt
est plus ou moins proportionnelle à une variable auxiliaire qui a des valeurs
strictement positives.
Dans le cas des échantillons
de taille fixe tirés sans remise,
il est possible de donner l'équivalent de la formule de Yates et Grundy (1953) et Sen (1953). La fonction de covariance de vérifie,
Supposons que les valeurs de la variable sont connues pour
toutes les unités de la
population. Il est alors possible de définir les probabilités d'inclusion :
Des méthodes ont été proposées
dans la littérature pour le cas (Särndal et coll. 1992).
Les probabilités d'inclusion d'ordre deux sont en général
très difficiles à calculer pour les plans et par conséquent, la formule (2.2) ne peut pas être
utilisée. Il existe cependant une approximation asymptotique simple de la
variance qui a été proposée par Hájek (1964) et qui ne fait intervenir que
les probabilités d'inclusion d'ordre un. Cette approximation se révèle très
performante lorsque la taille de l'échantillon est grande et l'entropie du plan
de sondage proche de l'entropie maximale. Pour sélectionner l'échantillon avec des
probabilités d'inclusion l'algorithme
du cube (Deville et
Tillé 2004) équilibré sur la variable peut être utilisé. Deville et Tillé (2005) montrent que pour ce plan de sondage particulier la
formule de Hàjek est très performante pour estimer la variance d'un total ou
d'une moyenne. Cette formule d'approximation de la variance peut aussi être
utilisée pour la covariance, qui est alors estimée par
où
Nous avons également utilisé le sondage systématique à
probabilités inégales proposé par Madow (1949) en raison de sa simplicité
d'utilisation. Il est malheureusement difficile d'estimer la variance pour ce
type de plan et nous ne l'utiliserons donc pas pour construire les bandes de
confiance.
2.2 L'estimateur assisté par un modèle ("model-assisted")
Considérons variables
auxiliaires réelles et soit la valeur de la
variable pour le individu. Notons
par le vecteur
contenant les valeurs de variables
auxiliaires mesurées sur le individu. On considère que la relation entre la variable
d'intérêt et les variables auxiliaires est modélisée par le modèle de
superpopulation suivant
avec
Ce modèle est une
généralisation immédiate à plusieurs variables auxiliaires du modèle linéaire
fonctionnel proposé par Faraway (1997).
L'estimation de basée sur le modèle et le plan de
sondage est donnée par
Remarquons que les poids
de sondage ne dépendent pas du temps Soit l'estimateur basé
sur le plan de sondage de la prédiction sous le modèle de . Par analogie directe avec le cas univarié (Särndal et coll. 1992), nous obtenons finalement
l'estimateur suivant pour la moyenne, pour
Si le modèle contient la
variable constante alors l'estimateur
devient
Pour et fixés, la
covariance asymptotique de et peut être calculée
selon la technique classique des résidus (Särndal et coll. 1992),
où est la prédiction
de sous le modèle de
superpopulation et est l'estimation de
au niveau de la
population et
. Cardot,
Goga et Lardin (2013) montrent que ce résultat
reste valable uniformément en
Nous proposons comme
estimateur de la fonction de covariance l'estimateur de
Horvitz-Thompson de la covariance asymptotique donnée par (2.14) où est remplacé par
son estimateur basé sur le plan de
sondage,
Remarque 2.2 Il est tout à fait
possible de considérer un modèle de superpopulation plus général que le modèle linéaire proposé
ici. Des techniques d'estimation basées sur un lissage par des B-splines (Goga
et Ruiz-Gazen 2012)
peuvent alors être envisagées. Dans notre étude, la relation entre la
consommation à l'instant et la consommation moyenne de la semaine précédente
est quasi linéaire (voir figure 4.1) ce qui justifie de ne pas employer ces
approches nonparamétriques.
Précédent | Suivant