2 Le sondage indirect et la MGPP
Pierre Lavallée et Sébastien Labelle-Blanchet
Précédent | Suivant
Pour commencer, nous donnons un aperçu du sondage
indirect et de la MGPP. Le sondage indirect a été élaboré pour tout type de
plan de sondage, mais nous nous concentrerons ici sur l'échantillonnage
aléatoire simple sans remise (EASSR) stratifié, puisque ce plan de sondage est
celui utilisé le plus souvent dans les enquêtes auprès des entreprises.
Soit la population de établissements stratifiés en strates, où la strate contient établissements. Dans chaque strate nous tirons un échantillon de établissements par EASSR. Soit et La population cible contient entreprises, où l'entreprise contient les établissements de Cette population peut aussi être considérée
comme une population de établissements, où chaque établissement appartient à une entreprise avec
Nous souhaitons produire une estimation pour la
population cible en utilisant la base de sondage ainsi que les liens qui existent entre les
deux populations. Les liens entre la population et la population sont identifiés par la variable indicatrice où s'il existe un lien entre l'établissement et l'entreprise et 0 autrement. Ici, si l'établissement de appartient à l'entreprise de et 0 autrement. Comme chaque établissement ne
peut appartenir qu'à une seule entreprise, les liens entre et sont de type plusieurs à un ou un à un. Par
conséquent, nous avons pour tous les établissements et pour toutes les entreprises
Étapes du sondage indirect :
-
Pour chaque établissement sélectionné dans nous identifions l'entreprise correspondante de
-
Pour chaque entreprise identifiée, nous supposons que nous pouvons
dresser la liste des établissements de cette entreprise.
-
Pour chaque entreprise identifiée, nous sondons chacun des établissements de l'entreprise.
-
À la fin, nous obtenons un échantillon de entreprises, et cet échantillon contient établissements.
Pour tous les établissements liés aux entreprises nous mesurons une variable d'intérêt Nous voulons estimer le total pour la population cible Notons que le processus de collecte du sondage
indirect aboutit à un nombre d'établissements sondés beaucoup plus grand que le
nombre d'établissements compris dans l'échantillon initial Nous sélectionnons au départ établissements dans l'échantillon et nous finissons par échantillonner établissements, où
En pratique, il se peut que certaines entreprises ne
fournissent des données qu'au niveau de l'entreprise. Cela signifie que nous
obtenons les valeurs pour mais non les valeurs mesurées au niveau de l'établissement. Comme
nous le verrons, cela ne pose pas de problème pour les estimations globales,
mais pourrait causer des difficultés pour certaines estimations détaillées. Le
cas échéant, on procède à une désagrégation (également appelée allocation) des
valeurs de l'entreprise au niveau de l'établissement en se basant
principalement sur l'expérience des spécialistes du domaine (voir, par exemple,
Delorme 2000).
Sous sondage indirect, une non-réponse peut exister dans
l'échantillon tiré de ou à l'intérieur des unités (entreprises ou
établissements) désignées pour être sondées dans Puisque les unités de la population sont en fait sondées par groupe (rappelons que
les entreprises sont des groupes d'établissements), deux types de non-réponse
sont issus de la non-réponse de groupe et la non-réponse
d'unité. La non-réponse de groupe a lieu lorsque la variable d'intérêt n'est mesurée pour aucun des établissements
d'une entreprise sélectionnée pour participer à l'enquête. La non-réponse
d'unité a lieu lorsque un ou plusieurs établissements de l'entreprise, mais pas
tous, ne répondent pas. Dans le cas du sondage indirect, il existe aussi une
autre forme de non-réponse découlant de la difficulté à déterminer certains
liens. Ce type de non-réponse est associé à la situation où il est impossible
de déterminer si un établissement d'une entreprise de est relié ou non à un établissement de On parle alors de problème de détermination de
lien. Lavallée (2002, 2007) a proposé des solutions pour corriger ces types de
non-réponse par ajustement des pondérations. Afin de limiter la portée du
présent article, nous supposons qu'aucune non-réponse ne se produit à aucun
niveau.
Conformément à la MGPP, pour estimer le total nous utilisons l'estimateur
(2.1)
où est le nombre d'entreprises sondées. Les poids
produits par la MGPP sont donnés par
(2.2)
où si et 0 autrement, et est la probabilité de sélection de
l'établissement Ici, nous avons pour Il convient de souligner qu'en général, les
poids (2.2) ne correspondent pas aux probabilités de sélection des entreprises En utilisant (2.2), nous pouvons récrire
l'estimateur (2.1) sous la forme
(2.3)
où
(2.4)
En raison de la correspondance de type plusieurs à un
entre et nous avons
(2.5)
En outre, la variable de (2.4) peut s'écrire pour ce qui est la moyenne des établissements appartenant à l'entreprise Nous obtenons donc
(2.6)
où pour
On peut prouver que l'estimateur (2.1) et par conséquent les estimateurs (2.3) et (2.6)
est sans biais pour (voir Lavallée 2002, 2007). Notons que
l'estimateur est en fait simplement un estimateur de
Horvitz-Thompson où la variable d'intérêt est la variable Sous EASSR stratifié, sa variance est donnée
par
(2.7)
où et La variance peut être estimée en se servant de
l'estimateur classique pour l'EASSR stratifié, ou au moyen d'autres estimateurs
de variance proposés dans la littérature scientifique, tels les estimateurs par
le jackknife et le bootstrap. Voir Wolter (2007) ou Särndal, Swensson et
Wretman (1992).
La précision des estimations produites en appliquant la
MGPP dépend uniquement de la variance, parce que l'estimateur (2.1) et par conséquent les estimateurs (2.3) et (2.6)
est sans biais. L'examen de l'équation (2.7)
montre que la précision dépend, comme dans le cas classique, des tailles
d'échantillon et des fractions de sondage utilisées pour sélectionner mais aussi de la variabilité des variables
dérivées Puisque pour la valeur de est la même pour tous les établissements de l'entreprise donnée. Autrement dit, le total de l'entreprise est partagé de manière égale
entre ses établissements. Si tous les établissements d'une entreprise
appartiennent à la même strate, la variabilité des variables dans une strate dépendra seulement de la
différence entre les valeurs moyennes pour un nombre limité d'entreprises, ce
qui pourrait rendre la variabilité relativement faible. Par ailleurs, si les
établissements d'une entreprise appartiennent à différentes strates, la
variabilité des variables dans une strate dépendra de la différence
entre un nombre d'entreprises pouvant être aussi élevé que le nombre
d'établissements, ce qui pourrait entraîner une assez forte variabilité. En
raison de l'asymétrie de la population d'établissements et de la stratification
appliquée à ce dernier cas est celui qui est le plus
probable.
Il est intéressant de constater que la version actuelle
du sondage indirect (conjugué à la MGPP) correspond mathématiquement du sondage en grappes adaptatif présenté par Thompson (1990, 1991, 1992, 2002) et
par Thompson et Seber (1996). Sous sondage en grappes adaptatif, on
sélectionnerait d'abord un échantillon d'établissements, puis on élaborerait
une stratégie de collecte en vue de sonder tous les établissements des
entreprises identifiés au moyen de l'échantillon initial d'établissements
sélectionnés. Habituellement, la stratégie de collecte consisterait à étendre
l'échantillon d'établissements en rendant visite l'un après l'autre aux
établissements d'une même entreprise jusqu'à ce qu'ils soient tous couverts.
Sous sondage indirect, la stratégie de collecte n'est pas spécifiée, mais on
suppose qu'à la fin du processus de collecte, tous les établissements
appartenant aux entreprises sélectionnées ont été sondés. On peut prouver que
l'estimateur sous sondage en grappes adaptatif est le même que l'estimateur (2.1)
obtenu en appliquant la MGPP (voir Lavallée 2002, 2007). Notons que les deux
plans de sondage ne sont mathématiquement équivalents que dans certains cas
particuliers. Il en est ainsi dans le présent article lorsque l'on utilise
l'estimateur (2.1). Quand on utilise les liens pondérés (voir la section
suivante), la MGPP produit un estimateur différent de celui associé au sondage
en grappes adaptatif. En outre, quand les liens entre les populations et sont de type plusieurs à plusieurs, le sondage
indirect et le sondage en grappes adaptatif ne sont plus équivalents.
2.1 Utilisation de
liens pondérés
La variable indicatrice indique simplement s'il existe un lien entre
l'établissement et l'entreprise provenant des populations et respectivement. Il est toutefois possible de
remplacer la variable indicatrice par une variable quantitative représentant l'importance que nous voulons
donner au lien Autrement dit, la généralisation de la
variable indicatrice définie sur {0,1} au moyen d'une variable
quantitative définie sur l'ensemble de nombres réels non négatifs, ne
pose aucun problème. Ici, une valeur de équivaut à un lien La théorie articulée sur la MGPP reste valide.
Par exemple, l'estimateur résultant demeure sans biais. Comme nous le verrons
plus loin, choisir les valeurs appropriées pour les liens pondérés sera le fondement des méthodes visant à
réduire la variance des estimations obtenues en appliquant la MGPP.
Soit où Partant de (2.2), nous définissons
(2.8)
En utilisant (2.8), nous pouvons récrire
l'estimateur (2.6) sous la forme
(2.9)
où
(2.10)
pour En raison de la correspondance de type
plusieurs à un entre et la variable dans (2.10) est une part pondérée du total pour les établissements appartenant à l'entreprise La variance de (2.9) s'obtient en remplaçant par dans (2.7) :
(2.11)
où et
2.2 Utilisation
de liens pondérés optimaux
La MGPP offre une solution simple pour obtenir un poids
d'estimation pour chaque entreprise sondée. Cependant, l'estimateur donné par (2.1) ou (2.3) résultant de
l'application par défaut de la MGPP n'est pas toujours celui possédant la
variance la plus faible. Il est possible de l'améliorer en déterminant les
poids optimaux pour les liens Ce problème a été résolu par Deville et
Lavallée (2006).
Nous avons fait remarquer plus haut que la variance (2.7)
dépend de la variabilité des variables dérivées Sans liens pondérés, c'est-à-dire avec pour la valeur de est la même pour tous les établissements d'une entreprise donnée. Comme il est probable que les
établissements d'une entreprise appartiennent à différentes strates, la
variabilité des variables dans une strate dépendra de la différence
entre un nombre d'entreprises pouvant être aussi élevé que le nombre
d'établissements. De plus, une entreprise donnée fournira la même valeur de à tous ses établissements puisque Par conséquent, qu'un établissement fasse ou
non partie d'une strate contenant de « grandes » ou de
« petites » unités (selon une mesure de taille donnée), il recevra la
valeur moyenne de son entreprise propriétaire. Cela fera augmenter la
variabilité dans les strates et, donc, la variance (2.7). L'utilisation de
liens pondérés repose sur l'idée de partager la valeur du total de l'entreprise
inégalement entre les établissements de cette
entreprise. Rechercher les liens pondérés optimaux équivaut à essayer de
partager la valeur du total de l'entreprise de façon que la variance (2.11) soit minimale.
Deville et Lavallée (2006) ont obtenu un estimateur dont
la variance est inférieure ou égale à celle de l'estimateur original Comme nous l'avons mentionné plus haut,
l'estimateur donné par (2.9) produira encore des estimations
sans biais. Or, la variance (2.11) de cet estimateur dépend des liens pondérés Le problème consiste alors à trouver au moins
un jeu de valeurs tel que la variance de l'estimateur soit minimale. Autrement dit, pour les plus grands que 0, nous voulons déterminer les
valeurs qui nous permettent d'obtenir l'estimateur le plus précis La solution s'obtient en minimisant la
variance (2.11) par rapport aux liens pondérés problème relativement classique et facile à
résoudre. Cependant, la solution n'est pas simple à écrire, et elle dépend
souvent de la variable d'intérêt
Si les liens pondérés optimaux dépendent de la variable d'intérêt alors les poids dépendront aussi de Cela signifie qu'un jeu différent de poids
devra être calculé pour chaque variable d'intérêt. Pour contourner ce problème,
Deville et Lavallée (2006) ont défini une optimalité
faible, qui correspond à la minimisation de la variance (2.11) pour un
choix très précis d'une variable d'intérêt : pour une entreprise de et pour toutes les autres entreprises de Les liens pondérés faiblement optimaux
résultants ne font pas intervenir, à proprement parler, la variable et ils s'avèrent être relativement faciles à
calculer, c'est-à-dire qu'ils peuvent être obtenus sous forme d'une solution
explicite, sans que des calculs numériques soient nécessaires. En outre, si
certaines conditions énoncées par Deville et Lavallée (2006) sont satisfaites,
l'optimalité faible correspond à une optimalité
forte indépendante de Autrement dit, les liens pondérés obtenus par optimalité faible correspondent
aux liens pondérés optimaux obtenus en minimisant (2.11), et ils ne
dépendent pas de la variable d'intérêt Malheureusement, ces conditions sont rarement
satisfaites en pratique, même pour des plans de sondage simples tels que
l'EASSR.
Sous EASSR sans
stratification, on peut montrer que les liens pondérés faiblement optimaux sont
donnés par pour l'établissement appartenant à l'entreprise et 0 autrement. Cette solution concorde avec
celle conjecturée par Kalton et Brick (1995). Ils ont obtenu ce résultat en se
basant sur la situation simplifiée où 2 et où est sélectionné par échantillonnage
équiprobabiliste. Dans leurs conclusions, ils suggéraient d'utiliser les
valeurs optimales lorsque et lorsque Lavallée (2002) et Lavallée et Caron (2001)
ont obtenu des résultats allant dans le même sens en utilisant des simulations.
Comme nous l'avons mentionné plus haut, malheureusement, les poids faiblement
optimaux ne correspondent pas aux poids fortement
optimaux indépendants de
Précédent | Suivant