Publications

Techniques d’enquête

Recherche par

2 Données fonctionnelles en population finie

Hervé Cardot, Alain Dessertaine, Camelia Goga, Étienne Josserand et Pauline Lardin

Considérons une population finie $U = {1,..., N}$ de taille N et supposons que, pour chaque élément $k$ de la population $U$ , nous pouvons observer la courbe déterministe $Y_{k} = {(Y_{k} (t))}_{t \in [0, T]}$ . L'objectif est d'estimer la courbe moyenne de la population qui est définie pour tout instant $t \in [0, T],$ par

$μ (t) = \frac{1}{N} \sum_{k \in U} Y_{k} (t) .$

Soit $s$ un échantillon de taille fixée $n$ , choisi aléatoirement dans $U,$ selon un plan de sondage $p (.) .$ Soient $π_{k} = \Pr (k \in s)$ et $π_{k l} = \Pr (k & l \in s)$ les probabilités d'inclusion d'ordre un et deux respectivement. On suppose que $π_{k} > 0$ pour tout élément $k$ de la population $U .$

La courbe moyenne $μ$ est estimée à l'aide de l'estimateur de Horvitz-Thompson (Cardot et coll. 2010) comme suit

$\hat{μ} (t) = \frac{1}{N} \sum_{k \in s} \frac{Y_{k} (t)}{π_{k}} = \frac{1}{N} \sum_{k \in U} \frac{Y_{k} (t)}{π_{k}} 1_{k \in s}, t \in [0, T], (2.1)$

où $1_{k \in s}$ est l'indicatrice d'appartenance de l'unité $k$ à l'échantillon $s .$ Pour chaque instant $t \in [0, T],$ l'estimateur $\hat{μ} (t)$ est sans biais pour $μ (t),$ c'est à dire $E (\hat{μ} (t)) = μ (t)$ où l'espérance est considérée par rapport au plan de sondage.

Généralement les trajectoires $Y_{k} (t)$ ne sont pas observées continûment pour $t \in [0, T]$ mais uniquement sur un ensemble de $D$ instants de mesure $0 = t_{1} < t_{2} < \dots < t_{D} = T .$ Une stratégie classique en analyse des données fonctionnelles consiste à effectuer une interpolation ou un lissage des trajectoires discrétisées afin d'obtenir des objets qui sont réellement des fonctions (Ramsay et Silverman 2005). Cela permet également de traiter des courbes dont les instants de mesure ne sont pas identiques. Dans le cadre des sondages, l'interpolation linéaire, lorsqu'il n'y a pas d'erreur de mesure aux points discrétisés, a été étudiée par Cardot et Josserand (2011) tandis que des procédures de lissage sont proposées dans Cardot et coll. (2013). Si le nombre de points de discrétisation est suffisant et les trajectoires sont assez régulières (mais pas nécessairement dérivables), l'erreur d'approximation due au lissage ou à l'interpolation est négligeable face à l'erreur d'échantillonnage. On suppose dans la suite que les trajectoires sont observées en tout point de l'intervalle $[0, T] .$

La fonction de covariance de type Horvitz-Thompson $γ (r, t) = cov (\hat{μ} (r), \hat{μ} (t))$ est donnée par $γ (r, t) = \frac{1}{N^{2}} \sum_{k \in U} \sum_{l \in U} Δ_{k l} \frac{Y_{k} (r)}{π_{k}} \frac{Y_{l} (t)}{π_{l}}$

pour tout $(r, t) \in [0, T] \times [0, T]$ et $Δ_{k l} = π_{k l} - π_{k} π_{l} .$ Si on suppose que les probabilités d'inclusion d'ordre deux satisfont $π_{k l} > 0,$ un estimateur sans biais de $γ (r, t)$ est donné par l'estimateur sans biais de la variance de type Horvitz-Thompson,

$\hat{γ} (r, t) = \frac{1}{N^{2}} \sum_{k \in s} \sum_{l \in s} \frac{Δ_{k l}}{π_{k l}} \frac{Y_{k} (r)}{π_{k}} \frac{Y_{l} (t)}{π_{l}} (2.2)$

pour tout $(r, t) \in [0, T] \times [0, T] .$

2.1 Prise en compte d'information auxiliaire pour l'estimation de la trajectoire moyenne

Il est bien connu que l'utilisation d'une information auxiliaire qui explique bien la variable d'intérêt peut beaucoup améliorer la précision de l'estimateur de Horvitz-Thompson. Dans le cas des données EDF, la température extérieure ou le type de contrat pourraient sans doute être des variables auxiliaires intéressantes. Une stratification selon la position géographique permettrait également d'obtenir des estimations pour les différentes régions. Dans cette étude, nous disposons comme variable auxiliaire de la consommation électrique totale de la semaine précédente. Nous supposons que cette variable (réelle) est observée pour tous les éléments de la population.

Nous présentons dans cette section l'estimateur de Horvitz-Thompson pour la courbe moyenne ainsi qu'une estimation de la fonction de covariance de cet estimateur pour le sondage stratifié avec échantillonnage aléatoire simple sans remise (ÉASSR) dans chaque strate, noté dans la suite STRAT, et pour l'échantillonnage proportionnel à la taille sans remise que l'on note $π p s$ . Nous considérons également un estimateur de la courbe moyenne assisté par un modèle linéaire fonctionnel.

2.1.1 Le sondage stratifié avec ÉASSR dans chaque strate (STRAT)

La population $U$ est supposée être stratifiée en un nombre fixé $H$ de strates $U_{1}, \dots, U_{H}$ de tailles $N_{1}, \dots, N_{H} .$ À l'intérieur de chaque strate $U_{h},$ on tire un échantillon $s_{h}$ de taille $n_{h}$ selon un plan ÉASSR.

Notons $μ_{h} (t) = \sum_{k \in U_{h}} Y_{k} (t) / N_{h},$ pour $t \in [0, T],$ la courbe moyenne dans chaque strate et ${\hat{μ}}_{h} (t) = \sum_{k \in s_{h}} Y_{k} (t) / n_{h},$ son estimation. L'estimateur de la courbe moyenne $μ$ est alors défini par

${\hat{μ}}_{strat} (t) = \frac{1}{N} \sum_{h = 1}^{H} N_{h} {\hat{μ}}_{h} (t) = \sum_{h = 1}^{H} \frac{N_{h}}{N} (\frac{1}{n_{h}} \sum_{k \in s_{h}} Y_{k} (t)), t \in [0, T] . (2.3)$

L'estimateur de Horvitz-Thompson de la fonction de covariance $γ$ est alors

${\hat{γ}}_{s t r a t} (r, t) = \frac{1}{N^{2}} \sum_{h = 1}^{H} N_{h}^{2} (\frac{1}{n_{h}} - \frac{1}{N_{h}}) S_{Y (r) Y (t), s_{h}} r, t \in [0, T], (2.4)$

où

$S_{Y (r) Y (t), s_{h}} = \frac{1}{n_{h} - 1} \sum_{k \in s_{h}} (Y_{k} (r) - {\hat{μ}}_{h} (r)) (Y_{k} (t) - {\hat{μ}}_{h} (t))$

est l'estimateur de la fonction de covariance $S_{Y (r) Y (t), U_{h}}$ dans la strate $h$ . Pour $r = t \in [0, T]$ , on obtient l'estimateur de la fonction de variance comme suit

${\hat{γ}}_{s t r a t} (r) = \frac{1}{N^{2}} \sum_{h = 1}^{H} N_{h}^{2} (\frac{1}{n_{h}} - \frac{1}{N_{h}}) S_{Y (r), s_{h}}^{2},$

où

$S_{Y (r), s_{h}}^{2} = \frac{1}{n_{h} - 1} \sum_{k \in s_{h}} {(Y_{k} (r) - {\hat{μ}}_{h} (r))}^{2}$

est l'estimateur de la variance $S_{Y (r), U_{h}}^{2}$ dans la strate $h$ . Cardot et Josserand (2011) proposent une extension, au cadre fonctionnel, de l'allocation optimale de Neyman. Les tailles $n_{h}$ des échantillons $s_{h}$ vérifiant

$n_{h} = n \frac{N_{h} \sqrt{\int_{0}^{T} S_{Y (r), U_{h}}^{2} d r}}{\sum_{h = 1}^{H} N_{h} \sqrt{\int_{0}^{T} S_{Y (r), U_{h}}^{2} d r}}, h = 1, \dots, H, (2.5)$

permettent de rendre minimale la variance intégrée, $\int_{0}^{T} {\hat{γ}}_{strat} (t) d t$ , de l'estimateur stratifié. Cette allocation est similaire à l'allocation obtenue dans le cadre multivarié par Cochran (1977). En remplaçant la variable $Y$ par une autre variable $X$ connue sur toute la population et très corrélée avec la variable d'intérêt, on obtient une allocation dite $x $ optimale.

Remarque 2.1 Pour $H = 1,$ nous obtenons le plan aléatoire simple sans remise (ÉASSR) et la courbe moyenne $μ (t)$ est estimée par

${\hat{μ}}_{é a s s r} (t) = \frac{1}{n} \sum_{k \in s} Y_{k} (t), t \in [0, T] . (2.6)$

L'estimateur de la fonction de covariance défini en (2.2) est alors

${\hat{γ}}_{é a s s r} (r, t) = (\frac{1}{n} - \frac{1}{N}) S_{Y (r) Y (t), s} . (2.7)$

2.1.2 L'échantillonnage proportionnel à la taille sans remise ( $π p s$ )

Les plans d'échantillonnage proportionnels à la taille avec ou sans remise sont souvent utilisés en pratique car leur efficacité est supérieure à celle de plans à probabilités égales lorsque la variable d'intérêt est plus ou moins proportionnelle à une variable auxiliaire $X$ qui a des valeurs strictement positives.

Dans le cas des échantillons de taille fixe $n$ tirés sans remise, il est possible de donner l'équivalent de la formule de Yates et Grundy (1953) et Sen (1953). La fonction de covariance de $\hat{μ}$ vérifie,

$γ (r, t) = - \frac{1}{2} \frac{1}{N^{2}} \sum_{k \in U} \sum_{l \in U, l \neq k} (π_{k l} - π_{k} π_{l}) (\frac{Y_{k} (r)}{π_{k}} - \frac{Y_{l} (r)}{π_{l}}) (\frac{Y_{k} (t)}{π_{k}} - \frac{Y_{l} (t)}{π_{l}}), r, t \in [0, T] . (2.8)$

Supposons que les valeurs $x_{k}$ de la variable $X$ sont connues pour toutes les unités $k$ de la population. Il est alors possible de définir les probabilités d'inclusion :

$π_{k} = n \frac{x_{k}}{\sum_{k \in U} x_{k}} .$

Des méthodes ont été proposées dans la littérature pour le cas $π_{k} > 1$ (Särndal et coll. 1992).

Les probabilités d'inclusion d'ordre deux sont en général très difficiles à calculer pour les plans $π p s$ et par conséquent, la formule (2.2) ne peut pas être utilisée. Il existe cependant une approximation asymptotique simple de la variance qui a été proposée par Hájek (1964) et qui ne fait intervenir que les probabilités d'inclusion d'ordre un. Cette approximation se révèle très performante lorsque la taille de l'échantillon est grande et l'entropie du plan de sondage proche de l'entropie maximale. Pour sélectionner l'échantillon $s$ avec des probabilités d'inclusion $π_{k},$ l'algorithme du cube (Deville et Tillé 2004) équilibré sur la variable $π = {(π_{k})}_{k \in U}$ peut être utilisé. Deville et Tillé (2005) montrent que pour ce plan de sondage particulier la formule de Hàjek est très performante pour estimer la variance d'un total ou d'une moyenne. Cette formule d'approximation de la variance peut aussi être utilisée pour la covariance, qui est alors estimée par

${\hat{γ}}_{π ps} (r, t) = \frac{1}{N^{2}} \sum_{k \in s} (1 - π_{k}) (\frac{Y_{k} (r)}{π_{k}} - \hat{R} (r)) (\frac{Y_{k} (t)}{π_{k}} - \hat{R} (t)), r, t \in [0, T], (2.9)$

où

$\hat{R} (t) = \frac{\sum_{k \in s} \frac{Y_{k} (t)}{π_{k}} (1 - π_{k})}{\sum_{k \in s} (1 - π_{k})} .$

Nous avons également utilisé le sondage systématique à probabilités inégales proposé par Madow (1949) en raison de sa simplicité d'utilisation. Il est malheureusement difficile d'estimer la variance pour ce type de plan et nous ne l'utiliserons donc pas pour construire les bandes de confiance.

2.2 L'estimateur assisté par un modèle ("model-assisted")

Considérons $p$ variables auxiliaires réelles $X_{1}, \dots, X_{p}$ et soit $x_{k j}$ la valeur de la variable $X_{j}$ pour le $k^{ème}$ individu. Notons par $x_{k} = (x_{k 1}, \dots, x_{k p})'$ le vecteur contenant les valeurs de $p$ variables auxiliaires mesurées sur le $k^{ème}$ individu. On considère que la relation entre la variable d'intérêt et les variables auxiliaires est modélisée par le modèle de superpopulation suivant

$ξ : Y_{k} (t) = {x^{'}}_{k} β (t) + ε_{k t}, t \in [0, T] (2.10)$

avec

$E_{ξ} (ε_{k t}) = 0, E_{ξ} (ε_{k t} ε_{l t^{'}}) = 0 pour k \neq l et E_{ξ} (ε_{k t} ε_{k t^{'}}) = σ_{t t^{'}}^{2} pour k = l .$

Ce modèle est une généralisation immédiate à plusieurs variables auxiliaires du modèle linéaire fonctionnel proposé par Faraway (1997).

L'estimation de $β$ basée sur le modèle $ξ$ et le plan de sondage $p (\cdot)$ est donnée par

$\hat{β} (t) = {(\sum_{k \in s} \frac{x_{k} {x^{'}}_{k}}{π_{k}})}^{- 1} \sum_{k \in s} \frac{x_{k} Y_{k} (t)}{π_{k}}, t \in [0, T] . (2.11)$

Remarquons que les poids de sondage ne dépendent pas du temps $t \in [0, T] .$ Soit ${\hat{Y}}_{k} (t) = x_{k}^{'} \hat{β} (t)$ l'estimateur basé sur le plan de sondage de la prédiction sous le modèle $ξ$ de $Y_{k} (t)$ . Par analogie directe avec le cas univarié (Särndal et coll. 1992), nous obtenons finalement l'estimateur suivant pour la moyenne, pour $t \in [0, T],$

$\begin{matrix} {\hat{μ}}_{M A} (t) = \frac{1}{N} \sum_{k \in s} {\hat{Y}}_{k} (t) - \frac{1}{N} \sum_{k \in s} \frac{({\hat{Y}}_{k} (t) - Y_{k} (t))}{π_{k}} (2.12) \\ = \frac{1}{N} \sum_{k \in U} \frac{Y_{k} (t) - {x^{'}}_{k} \hat{β} (t)}{π_{k}} + \frac{1}{N} (\sum_{k \in U} {x^{'}}_{k}) \hat{β} (t) . \end{matrix}$

Si le modèle $ξ$ contient la variable constante $1,$ alors l'estimateur devient

${\hat{μ}}_{M A} (t) = \frac{1}{N} \sum_{k \in U} {\hat{Y}}_{k} (t), t \in [0, T] . (2.13)$

Pour $r$ et $t$ fixés, la covariance asymptotique de ${\hat{μ}}_{M A} (r)$ et ${\hat{μ}}_{M A} (t)$ peut être calculée selon la technique classique des résidus (Särndal et coll. 1992),

$γ_{M A} (r, t) ≃ \frac{1}{N^{2}} \sum_{k \in U} \sum_{l \in U} (π_{k l} - π_{k} π_{l}) \frac{(Y_{k} (r) - {\tilde{Y}}_{k} (r))}{π_{k}} \frac{(Y_{l} (t) - {\tilde{Y}}_{l} (t))}{π_{l}}, (2.14)$

où ${\tilde{Y}}_{k} (r) = {x^{'}}_{k} \tilde{β} (t)$ est la prédiction de $Y_{k} (t)$ sous le modèle de superpopulation et $\tilde{β} (t) = {(\sum_{U} x_{k} {x^{'}}_{k})}^{- 1} (\sum_{U} x_{k} Y_{k} (t))$ est l'estimation de $β$ au niveau de la population et $r, t \in [0, T]$ . Cardot, Goga et Lardin (2013) montrent que ce résultat reste valable uniformément en $r, t \in [0, T] .$

Nous proposons comme estimateur de la fonction de covariance $γ_{M A} (r, t)$ l'estimateur de Horvitz-Thompson de la covariance asymptotique donnée par (2.14) où $\tilde{β} (t)$ est remplacé par son estimateur $\hat{β} (t)$ basé sur le plan de sondage,

${\hat{γ}}_{M A} (r, t) = \frac{1}{N^{2}} \sum_{k, l \in s} \frac{π_{k l} - π_{k} π_{l}}{π_{k l}} \frac{(Y_{k} (r) - {\hat{Y}}_{k} (r))}{π_{k}} \frac{(Y_{l} (t) - {\hat{Y}}_{l} (t))}{π_{l}}, r, t \in [0, T] . (2.15)$

Remarque 2.2 Il est tout à fait possible de considérer un modèle de superpopulation $ξ$ plus général que le modèle linéaire proposé ici. Des techniques d'estimation basées sur un lissage par des B-splines (Goga et Ruiz-Gazen 2012) peuvent alors être envisagées. Dans notre étude, la relation entre la consommation à l'instant et la consommation moyenne de la semaine précédente est quasi linéaire (voir figure 4.1) ce qui justifie de ne pas employer ces approches nonparamétriques.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche