Publications

Techniques d’enquête

Recherche par

2 Le sondage indirect et la MGPP

Pierre Lavallée et Sébastien Labelle-Blanchet

Pour commencer, nous donnons un aperçu du sondage indirect et de la MGPP. Le sondage indirect a été élaboré pour tout type de plan de sondage, mais nous nous concentrerons ici sur l'échantillonnage aléatoire simple sans remise (EASSR) stratifié, puisque ce plan de sondage est celui utilisé le plus souvent dans les enquêtes auprès des entreprises.

Soit la population $U^{A}$ de $M^{A}$ établissements stratifiés en $H$ strates, où la strate $h$ contient $M_{h}^{A}$ établissements. Dans chaque strate $h,$ nous tirons un échantillon $s_{h}^{A}$ de $m_{h}^{A}$ établissements par EASSR. Soit $s^{A} = \cup_{h = 1}^{H} s_{h}^{A}$ et $m^{A} = \sum_{h = 1}^{H} m_{h}^{A} .$ La population cible $U^{B}$ contient $N^{B}$ entreprises, où l'entreprise $i$ contient les $M_{i}^{B}$ établissements de $U^{A} .$ Cette population peut aussi être considérée comme une population de $M^{B}$ établissements, où chaque établissement $k$ appartient à une entreprise $i,$ avec $M^{B} = \sum_{i = 1}^{N^{B}} M_{i}^{B} .$

Nous souhaitons produire une estimation pour la population cible $U^{B}$ en utilisant la base de sondage $U^{A},$ ainsi que les liens qui existent entre les deux populations. Les liens entre la population $U^{A}$ et la population $U^{B}$ sont identifiés par la variable indicatrice $l_{j, i},$ où $l_{j, i} = 1$ s'il existe un lien entre l'établissement $j \in U^{A}$ et l'entreprise $i \in U^{B},$ et 0 autrement. Ici, $l_{j, i} = 1$ si l'établissement $j$ de $U^{A}$ appartient à l'entreprise $i$ de $U^{B},$ et 0 autrement. Comme chaque établissement ne peut appartenir qu'à une seule entreprise, les liens entre $U^{A}$ et $U^{B}$ sont de type plusieurs à un ou un à un. Par conséquent, nous avons $L_{j}^{A} = \sum_{i = 1}^{N^{B}} l_{j, i} = 1,$ $L_{i}^{B} = \sum_{j = 1}^{M^{A}} l_{j, i} = M_{i}^{B},$ pour tous les établissements $j \in U^{A}$ et pour toutes les entreprises $i \in U^{B} .$

Étapes du sondage indirect :

Pour chaque établissement $j$ sélectionné dans $s^{A},$ nous identifions l'entreprise correspondante $i$ de $U^{B} .$
Pour chaque entreprise $i$ identifiée, nous supposons que nous pouvons dresser la liste $U_{i}^{B}$ des $M_{i}^{B}$ établissements de cette entreprise.
Pour chaque entreprise $i$ identifiée, nous sondons chacun des $M_{i}^{B}$ établissements de l'entreprise.
À la fin, nous obtenons un échantillon $s^{B}$ de $n^{B}$ entreprises, et cet échantillon contient $m^{B} = \sum_{i = 1}^{n^{B}} M_{i}^{B}$ établissements.

Pour tous les établissements $k$ liés aux entreprises $i \in s^{B},$ nous mesurons une variable d'intérêt $y_{i k} .$ Nous voulons estimer le total $Y = \sum_{i = 1}^{N^{B}} \sum_{k = 1}^{M_{i}^{B}} y_{i k} = \sum_{i = 1}^{N^{B}} Y_{i}$ pour la population cible $U^{B} .$ Notons que le processus de collecte du sondage indirect aboutit à un nombre d'établissements sondés beaucoup plus grand que le nombre d'établissements compris dans l'échantillon initial $s^{A} .$ Nous sélectionnons au départ $m^{A}$ établissements dans l'échantillon $s^{A},$ et nous finissons par échantillonner $m^{B} = \sum_{i = 1}^{n^{B}} M_{i}^{B}$ établissements, où $m^{B} \geq m^{A} .$

En pratique, il se peut que certaines entreprises ne fournissent des données qu'au niveau de l'entreprise. Cela signifie que nous obtenons les valeurs $Y_{i} = \sum_{k = 1}^{M_{i}^{B}} y_{i k}$ pour $i \in s^{B},$ mais non les valeurs $y_{i k}$ mesurées au niveau de l'établissement. Comme nous le verrons, cela ne pose pas de problème pour les estimations globales, mais pourrait causer des difficultés pour certaines estimations détaillées. Le cas échéant, on procède à une désagrégation (également appelée allocation) des valeurs de l'entreprise au niveau de l'établissement en se basant principalement sur l'expérience des spécialistes du domaine (voir, par exemple, Delorme 2000).

Sous sondage indirect, une non-réponse peut exister dans l'échantillon $s^{A}$ tiré de $U^{A},$ ou à l'intérieur des unités (entreprises ou établissements) désignées pour être sondées dans $U^{B} .$ Puisque les unités de la population $U^{B}$ sont en fait sondées par groupe (rappelons que les entreprises sont des groupes d'établissements), deux types de non-réponse sont issus de $U^{B} :$ la non-réponse de groupe et la non-réponse d'unité. La non-réponse de groupe a lieu lorsque la variable d'intérêt $y$ n'est mesurée pour aucun des établissements d'une entreprise sélectionnée pour participer à l'enquête. La non-réponse d'unité a lieu lorsque un ou plusieurs établissements de l'entreprise, mais pas tous, ne répondent pas. Dans le cas du sondage indirect, il existe aussi une autre forme de non-réponse découlant de la difficulté à déterminer certains liens. Ce type de non-réponse est associé à la situation où il est impossible de déterminer si un établissement $k$ d'une entreprise $i$ de $U^{B}$ est relié ou non à un établissement $j$ de $U^{A} .$ On parle alors de problème de détermination de lien. Lavallée (2002, 2007) a proposé des solutions pour corriger ces types de non-réponse par ajustement des pondérations. Afin de limiter la portée du présent article, nous supposons qu'aucune non-réponse ne se produit à aucun niveau.

Conformément à la MGPP, pour estimer le total $Y,$ nous utilisons l'estimateur

$\hat{Y} = \sum_{i = 1}^{n^{B}} w_{i} Y_{i}$ (2.1)

où $n^{B}$ est le nombre d'entreprises sondées. Les poids produits par la MGPP sont donnés par

$w_{i} = \sum_{j = 1}^{M^{A}} \frac{t_{j}^{A}}{π_{j}^{A}} \frac{l_{j, i}}{L_{i}^{B}}$ (2.2)

où $t_{j}^{A} = 1$ si $j \in s^{A},$ et 0 autrement, et $π_{j}^{A}$ est la probabilité de sélection de l'établissement $j .$ Ici, nous avons $π_{j}^{A} = m_{h}^{A} / M_{h}^{A}$ pour $j \in h .$ Il convient de souligner qu'en général, les poids (2.2) ne correspondent pas aux probabilités de sélection $π_{i}^{B}$ des entreprises $i .$ En utilisant (2.2), nous pouvons récrire l'estimateur (2.1) sous la forme

$\hat{Y} = \sum_{j = 1}^{M^{A}} \frac{t_{j}}{π_{j}^{A}} Z_{j}$ (2.3)

où

$Z_{j} = \sum_{i = 1}^{N^{B}} \frac{Y_{i}}{L_{i}^{B}} l_{j, i} .$ (2.4)

En raison de la correspondance de type plusieurs à un entre $U^{A}$ et $U^{B},$ nous avons

$w_{i} = \frac{1}{M_{i}^{B}} \sum_{j = 1}^{M_{i}^{B}} \frac{t_{j}^{A}}{π_{j}^{A}} .$ (2.5)

En outre, la variable $Z_{j}$ de (2.4) peut s'écrire $Z_{j} = Y_{i} / M_{i}^{B} = {\bar{Y}}_{i},$ pour $j \in i,$ ce qui est la moyenne des $M_{i}^{B}$ établissements appartenant à l'entreprise $i .$ Nous obtenons donc

$\hat{Y} = \sum_{h = 1}^{H} \frac{M_{h}^{A}}{m_{h}^{A}} \sum_{j = 1}^{m_{h}^{A}} Z_{h j}$ (2.6)

où $Z_{h j} = Y_{i} / M_{i}^{B} = {\bar{Y}}_{i},$ pour $j \in i .$

On peut prouver que l'estimateur (2.1) $-$ et par conséquent les estimateurs (2.3) et (2.6) $-$ est sans biais pour $Y$ (voir Lavallée 2002, 2007). Notons que l'estimateur $\hat{Y}$ est en fait simplement un estimateur de Horvitz-Thompson où la variable d'intérêt est la variable $Z_{h j} .$ Sous EASSR stratifié, sa variance est donnée par

$Var (\hat{Y}) = \sum_{h = 1}^{H} M_{h}^{A} (\frac{M_{h}^{A} - m_{h}^{A}}{m_{h}^{A}}) S_{Z, h}^{2}$ (2.7)

où $S_{Z, h}^{2} = \sum_{j = 1}^{M_{h}^{A}} {(Z_{h j} - {\bar{Z}}_{h})}^{2} / (M_{h}^{A} - 1)$ et ${\bar{Z}}_{h} = \sum_{j = 1}^{M_{h}^{A}} Z_{h j} / M_{h}^{A} .$ La variance $Var (\hat{Y})$ peut être estimée en se servant de l'estimateur classique pour l'EASSR stratifié, ou au moyen d'autres estimateurs de variance proposés dans la littérature scientifique, tels les estimateurs par le jackknife et le bootstrap. Voir Wolter (2007) ou Särndal, Swensson et Wretman (1992).

La précision des estimations produites en appliquant la MGPP dépend uniquement de la variance, parce que l'estimateur (2.1) $-$ et par conséquent les estimateurs (2.3) et (2.6) $-$ est sans biais. L'examen de l'équation (2.7) montre que la précision dépend, comme dans le cas classique, des tailles d'échantillon et des fractions de sondage utilisées pour sélectionner $s^{A},$ mais aussi de la variabilité des variables dérivées $Z .$ Puisque $Z_{h j} = Y_{i} / M_{i}^{B} = {\bar{Y}}_{i},$ pour $j \in i,$ la valeur de $Z_{h j}$ est la même pour tous les établissements $j$ de l'entreprise $i$ donnée. Autrement dit, le total $Y_{i}$ de l'entreprise est partagé de manière égale entre ses établissements. Si tous les établissements d'une entreprise appartiennent à la même strate, la variabilité des variables $Z$ dans une strate dépendra seulement de la différence entre les valeurs moyennes pour un nombre limité d'entreprises, ce qui pourrait rendre la variabilité relativement faible. Par ailleurs, si les établissements d'une entreprise appartiennent à différentes strates, la variabilité des variables $Z$ dans une strate dépendra de la différence entre un nombre d'entreprises pouvant être aussi élevé que le nombre d'établissements, ce qui pourrait entraîner une assez forte variabilité. En raison de l'asymétrie de la population d'établissements et de la stratification appliquée à $U^{A},$ ce dernier cas est celui qui est le plus probable.

Il est intéressant de constater que la version actuelle du sondage indirect (conjugué à la MGPP) correspond mathématiquement du sondage en grappes adaptatif présenté par Thompson (1990, 1991, 1992, 2002) et par Thompson et Seber (1996). Sous sondage en grappes adaptatif, on sélectionnerait d'abord un échantillon d'établissements, puis on élaborerait une stratégie de collecte en vue de sonder tous les établissements des entreprises identifiés au moyen de l'échantillon initial d'établissements sélectionnés. Habituellement, la stratégie de collecte consisterait à étendre l'échantillon d'établissements en rendant visite l'un après l'autre aux établissements d'une même entreprise jusqu'à ce qu'ils soient tous couverts. Sous sondage indirect, la stratégie de collecte n'est pas spécifiée, mais on suppose qu'à la fin du processus de collecte, tous les établissements appartenant aux entreprises sélectionnées ont été sondés. On peut prouver que l'estimateur sous sondage en grappes adaptatif est le même que l'estimateur (2.1) obtenu en appliquant la MGPP (voir Lavallée 2002, 2007). Notons que les deux plans de sondage ne sont mathématiquement équivalents que dans certains cas particuliers. Il en est ainsi dans le présent article lorsque l'on utilise l'estimateur (2.1). Quand on utilise les liens pondérés (voir la section suivante), la MGPP produit un estimateur différent de celui associé au sondage en grappes adaptatif. En outre, quand les liens entre les populations $U^{A}$ et $U^{B}$ sont de type plusieurs à plusieurs, le sondage indirect et le sondage en grappes adaptatif ne sont plus équivalents.

2.1 Utilisation de liens pondérés

La variable indicatrice $l_{j, i}$ indique simplement s'il existe un lien entre l'établissement $j$ et l'entreprise $i$ provenant des populations $U^{A}$ et $U^{B},$ respectivement. Il est toutefois possible de remplacer la variable indicatrice $l_{j, i}$ par une variable quantitative $θ_{j, i}$ représentant l'importance que nous voulons donner au lien $l_{j, i} .$ Autrement dit, la généralisation de la variable indicatrice $l$ définie sur {0,1} au moyen d'une variable quantitative $θ$ définie sur $[0, + \infty [,$ l'ensemble de nombres réels non négatifs, ne pose aucun problème. Ici, une valeur de $θ_{j, i} = 0$ équivaut à un lien $l_{j, i} = 0.$ La théorie articulée sur la MGPP reste valide. Par exemple, l'estimateur résultant demeure sans biais. Comme nous le verrons plus loin, choisir les valeurs appropriées pour les liens pondérés $θ_{j, i}$ sera le fondement des méthodes visant à réduire la variance des estimations obtenues en appliquant la MGPP.

Soit ${\tilde{θ}}_{j, i} = θ_{j, i} / θ_{i}^{B},$ où $θ_{i}^{B} = \sum_{j = 1}^{M^{A}} θ_{j, i} .$ Partant de (2.2), nous définissons

$w_{i}^{θ} = \sum_{j = 1}^{M_{i}^{B}} \frac{t_{j}^{A}}{π_{j}^{A}} {\tilde{θ}}_{j, i} .$ (2.8)

En utilisant (2.8), nous pouvons récrire l'estimateur (2.6) sous la forme

${\hat{Y}}_{θ} = \sum_{h = 1}^{H} \frac{M_{h}^{A}}{m_{h}^{A}} \sum_{j = 1}^{m_{h}^{A}} Z_{h j}^{θ}$ (2.9)

où

$Z_{h j}^{θ} = \sum_{i = 1}^{N^{B}} {\tilde{θ}}_{j, i} Y_{i}$ (2.10)

pour $j \in h .$ En raison de la correspondance de type plusieurs à un entre $U^{A}$ et $U^{B},$ la variable $Z_{h j}^{θ}$ dans (2.10) est une part pondérée du total $Y_{i}$ pour les $M_{i}^{B}$ établissements appartenant à l'entreprise $i .$ La variance de (2.9) s'obtient en remplaçant $Z_{j}$ par $Z_{j}^{θ}$ dans (2.7) :

$Var ({\hat{Y}}_{θ}) = \sum_{h = 1}^{H} M_{h}^{A} (\frac{M_{h}^{A} - m_{h}^{A}}{m_{h}^{A}}) S_{θ Z h}^{2}$ (2.11)

où $S_{θ Z h}^{2} = \sum_{j = 1}^{M_{h}^{A}} {(Z_{h j}^{θ} - {\bar{Z}}_{h}^{θ})}^{2} / (M_{h}^{A} - 1)$ et ${\bar{Z}}_{h}^{θ} = \sum_{j = 1}^{M_{h}^{A}} Z_{h j}^{θ} / M_{h}^{A} .$

2.2 Utilisation de liens pondérés optimaux

La MGPP offre une solution simple pour obtenir un poids d'estimation $w_{i}$ pour chaque entreprise $i$ sondée. Cependant, l'estimateur $\hat{Y}$ donné par (2.1) ou (2.3) résultant de l'application par défaut de la MGPP n'est pas toujours celui possédant la variance la plus faible. Il est possible de l'améliorer en déterminant les poids optimaux pour les liens $θ_{j, i} .$ Ce problème a été résolu par Deville et Lavallée (2006).

Nous avons fait remarquer plus haut que la variance (2.7) dépend de la variabilité des variables dérivées $Z .$ Sans liens pondérés, c'est-à-dire avec $Z_{h j} = Y_{i} / M_{i}^{B} = {\bar{Y}}_{i},$ pour $j \in i,$ la valeur de $Z_{h j}$ est la même pour tous les établissements $j$ d'une entreprise $i$ donnée. Comme il est probable que les établissements d'une entreprise appartiennent à différentes strates, la variabilité des variables $Z$ dans une strate dépendra de la différence entre un nombre d'entreprises pouvant être aussi élevé que le nombre d'établissements. De plus, une entreprise $i$ donnée fournira la même valeur de $Z$ à tous ses établissements $j,$ puisque $Z_{h j} = {\bar{Y}}_{i} .$ Par conséquent, qu'un établissement fasse ou non partie d'une strate contenant de « grandes » ou de « petites » unités (selon une mesure de taille donnée), il recevra la valeur moyenne de son entreprise propriétaire. Cela fera augmenter la variabilité dans les strates et, donc, la variance (2.7). L'utilisation de liens pondérés repose sur l'idée de partager la valeur du total de l'entreprise $Y_{i}$ inégalement entre les établissements de cette entreprise. Rechercher les liens pondérés optimaux équivaut à essayer de partager la valeur du total de l'entreprise $Y_{i}$ de façon que la variance (2.11) soit minimale.

Deville et Lavallée (2006) ont obtenu un estimateur dont la variance est inférieure ou égale à celle de l'estimateur original $\hat{Y} .$ Comme nous l'avons mentionné plus haut, l'estimateur ${\hat{Y}}_{θ}$ donné par (2.9) produira encore des estimations sans biais. Or, la variance (2.11) de cet estimateur dépend des liens pondérés $θ_{j, i} .$ Le problème consiste alors à trouver au moins un jeu de valeurs $θ_{j, i}$ tel que la variance de l'estimateur ${\hat{Y}}_{θ}$ soit minimale. Autrement dit, pour les $θ_{j, i}$ plus grands que 0, nous voulons déterminer les valeurs qui nous permettent d'obtenir l'estimateur le plus précis ${\hat{Y}}_{θ} .$ La solution s'obtient en minimisant la variance (2.11) par rapport aux liens pondérés $θ_{j, i},$ problème relativement classique et facile à résoudre. Cependant, la solution n'est pas simple à écrire, et elle dépend souvent de la variable d'intérêt $y .$

Si les liens pondérés optimaux $θ_{j, i}^{opt}$ dépendent de la variable d'intérêt $y,$ alors les poids $w_{i}^{θ}$ dépendront aussi de $y .$ Cela signifie qu'un jeu différent de poids devra être calculé pour chaque variable d'intérêt. Pour contourner ce problème, Deville et Lavallée (2006) ont défini une optimalité faible, qui correspond à la minimisation de la variance (2.11) pour un choix très précis d'une variable d'intérêt : $Y_{i} = 1$ pour une entreprise $i$ de $U^{B}$ et $Y_{i^{'}} = 0$ pour toutes les autres entreprises $i^{'}$ de $U^{B} (i^{'} \neq i) .$ Les liens pondérés faiblement optimaux résultants ne font pas intervenir, à proprement parler, la variable $y$ et ils s'avèrent être relativement faciles à calculer, c'est-à-dire qu'ils peuvent être obtenus sous forme d'une solution explicite, sans que des calculs numériques soient nécessaires. En outre, si certaines conditions énoncées par Deville et Lavallée (2006) sont satisfaites, l'optimalité faible correspond à une optimalité forte indépendante de $y .$ Autrement dit, les liens pondérés $θ_{j, i}^{w - opt}$ obtenus par optimalité faible correspondent aux liens pondérés optimaux $θ_{j, i}^{opt}$ obtenus en minimisant (2.11), et ils ne dépendent pas de la variable d'intérêt $y .$ Malheureusement, ces conditions sont rarement satisfaites en pratique, même pour des plans de sondage simples tels que l'EASSR.

Sous EASSR sans stratification, on peut montrer que les liens pondérés faiblement optimaux sont donnés par ${\tilde{θ}}_{j, i}^{w - opt} = θ_{j, i}^{w - opt} / \sum_{j = 1}^{M^{A}} θ_{j, i}^{w - opt} = 1 / M_{i}^{B}$ pour l'établissement $j \in U^{A}$ appartenant à l'entreprise $i \in U^{B},$ et 0 autrement. Cette solution concorde avec celle conjecturée par Kalton et Brick (1995). Ils ont obtenu ce résultat en se basant sur la situation simplifiée où $M^{A} =$ 2 et où $s^{A}$ est sélectionné par échantillonnage équiprobabiliste. Dans leurs conclusions, ils suggéraient d'utiliser les valeurs optimales $θ_{j, i}^{opt} = 1$ lorsque $θ_{j, i} > 0,$ et $θ_{j, i}^{opt} = 0$ lorsque $θ_{j, i} = 0.$ Lavallée (2002) et Lavallée et Caron (2001) ont obtenu des résultats allant dans le même sens en utilisant des simulations. Comme nous l'avons mentionné plus haut, malheureusement, les poids faiblement optimaux ${\tilde{θ}}_{j, i}^{w - opt} = 1 / M_{i}^{B}$ ne correspondent pas aux poids fortement optimaux indépendants de $y .$

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche