1 Introduction
Jun Shao, Eric Slud, Yang Cheng, Sheng Wang et Carma Hogue
Précédent | Suivant
L’Annual Survey of Public Employment and
Payroll (ASPEP) des États-Unis fournit des estimations courantes
de l’emploi et de la rémunération à temps plein et à temps partiel dans les administrations
publiques d’État et locales par fonction (par exemple, enseignement primaire et
secondaire, enseignement supérieur, services de police, services de protection
contre l’incendie, administration financière, services judiciaires et
juridiques, etc.). Cette enquête a pour champ d’observation les administrations
publiques d’État et locales (89 526 selon le Census of Governments de
2007), qui englobent les comtés, les villes, les cantons, les administrations
appelées « districts spéciaux » et les districts scolaires. L’ASPEP,
qui est la seule source de données sur l’emploi dans le secteur public par fonction
administrative et catégorie d’emploi, fournit des données sur le nombre et la
rémunération des employés à temps plein et à temps partiel, ainsi que le nombre
d’heures travaillées par les employés à temps partiel. Habituellement, la
collecte des données débute en mars et se poursuit pendant environ sept mois, en
prenant la période de paye incluant le 12 mars comme période de référence.
Soit la population finie de unités subdivisée en strates, où contient unités et Le plan de sondage habituel de
l’ASPEP est un plan avec probabilité proportionnelle à la taille (PPT), où les strates
sont construites en se basant sur l’État et le type d’administration publique,
à savoir le comté, le sous-comté (grande ou petite ville), le district spécial
ou le district scolaire. La taille de chaque unité (administration publique) est
mesurée par la masse salariale totale, et l’échantillonnage est effectué
indépendamment dans les diverses strates. En 2009, on a élaboré un plan
d’échantillonnage modifié, qui comprend la division de certaines strates en deux sous-strates, et contenant et unités, respectivement, où contient les unités de petite taille (Cheng et coll.
2009). L’idée était d’économiser des ressources et de réduire le fardeau
de réponse en sélectionnant dans un échantillon plus petit sous
le plan modifié que sous le plan habituel. Soit un échantillon PPT de taille provenant de Notons que peut encore être plus grand que , parce que est habituellement beaucoup
plus grand que
Pour l’unité
soit une variable étudiée clé (p. ex.,
l’emploi à temps plein, la rémunération à temps plein, l’emploi à temps partiel,
la rémunération à temps partiel, les heures travaillées à temps partiel), une variable auxiliaire, disons
la même variable que provenant du recensement le
plus récent, et soit la covariable utilisée comme variable
de taille dans l’échantillonnage PPT. Les valeurs des covariables et sont observées pour tout tandis que
est observée uniquement pour
chaque unité i échantillonnée.
L’estimateur
de Horvitz-Thompson du total inconnu est
où est la probabilité
d’inclusion d’ordre un de l’unité dans une fonction connue
des Pour utiliser la variable
auxiliaire et accroître la
précision de l’estimation de l’approche assistée
par modèle (Särndal, Swensson et Wretman 1992) a été adoptée. L’application de
la régression dans chaque échantillon conduit à l’estimateur
par la régression de de la forme
où et
Autrement, la combinaison des deux sous-strates et donne l’estimateur par
la régression suivant. (Un examinateur fait remarquer correctement que dans (1.3) n’est pas
l’estimateur groupé que l’on utiliserait si les droites de régression dans la
strate étaient combinées mais
que les deux sous-strates ne l’étaient pas; cependant, il est l’estimateur
naturel lorsque non seulement les droites de régression, mais aussi les sous-strates
sont combinées.)
où et
Puisque ainsi que sont des estimateurs
assistés par modèle, ils sont convergents sous échantillonnage répété, que le
modèle de régression soit ou non vérifié. Si les droites de régression par les
moindres carrés dans les deux sous-strates sont les mêmes, peut être plus
efficace que Par ailleurs, si les
droites de régression sont différentes, peut être plus
efficace que
Cheng et coll. (2010) ont
proposé une méthode fondée sur un test de décision qui consiste à appliquer un
test d’hypothèse pour décider s’il faut combiner et À l’intérieur de la strate on teste l’hypothèse
d’égalité des pentes des droites de régression dans et . Soit
Si , où est le ( )e
quantile de la distribution t avec degrés de liberté, alors
nous rejetons l’hypothèse d’une pente commune et nous utilisons (et fixons ). Ici,
est un seuil de
signification nominal fixé par défaut à 0,05, mais nous considérerons d’autres choix
de la valeur de à la section consacrée
aux simulations. La définition de la statistique de test faisant intervenir degrés de liberté est
un choix légèrement artificiel conçu afin de rendre les probabilités de rejet
d’un échantillon modéré plus proches de la valeur nominale, mais la théorie asymptotique
en grand échantillon justifiant ce test est donnée à la partie (c) du théorème 1. Si alors nous acceptons l’hypothèse
d’une pente commune, nous combinons les sous-strates et et nous utilisons Les tests sont
effectués de manière indépendante dans les diverses strates L’estimateur de fondé
sur le test de décision est alors
Puisque
les deux droites de régression ayant une pente commune peuvent avoir des ordonnées
à l’origine différentes, on pourrait tester une hypothèse supplémentaire
concernant les ordonnées à l’origine pour décider s’il faut combiner les deux
sous-strates. Cependant, des points de population se trouvant sur deux droites
de régression de sous-strate parallèles, mais non identiques seraient
discontinus autour du seuil entre les deux sous-strates et ce qui ne semble ne se
produire que rarement dans les situations pratiques. Par exemple, dans l’ASPEP,
Cheng et coll. (2010) ont étudié les
pentes et les ordonnées à l’origine de sous-strates dans les ensembles de
donnés des recensements des administrations publiques de 2002 et de 2007, et
ont constaté que l’hypothèse d’une ordonnée à l’origine commune ne pouvait
jamais être rejetée lorsque l’hypothèse d’une pente commune ne pouvait pas l’être.
Donc, l’estimateur fondé sur un test de décision donné dans (1.4) dépend
uniquement du test de l’hypothèse d’égalité des pentes des droites de régression
des sous-strates.
Les estimateurs
à deux degrés étudiés ici sont des cas particuliers de procédures nommées
antérieurement estimateurs après un test préliminaire (preliminary test estimators). Il existe une littérature abondante traitant
de l’utilisation de ce genre de procédures dans les enquêtes, y compris une
bibliographie de Bancroft et Han (1977), un
livre publié par Saleh (2006) et un traitement
proposé par Fuller (2009, section 6.7).
Une idée de Saleh (2006) consiste à
estimer les coefficients par une combinaison convexe des coefficients estimés à
partir des strates distinctes en faisant dépendre les proportions d’une statistique
de test. Les estimateurs lissés de ce genre pourraient être plus efficaces que nos
procédures fondées sur un test de décision. Si les ordonnées à l’origine et les
pentes propres aux strates étaient considérées comme aléatoires, on pourrait
aussi essayer d’appliquer à l’estimation une approche bayésienne empirique
fondée sur un modèle.
Les estimateurs
fondés sur un test de décision (1.4) sont nouveaux, parce qu’ils sont assistés
par modèle et convergents sous le plan dans le contexte des sondages, et
utilisent explicitement les tailles de population de sous-strate connues. Dans
un esprit à peu près semblable, Rao et
Ramachandran (1974) avaient effectué antérieurement une comparaison exacte
des estimateurs par le ratio distincts et combinés sous un modèle de ratio similaire
au modèle de régression considéré dans le présent article.
L’objectif
de l’article est d’illustrer certaines propriétés asymptotiques et empiriques des
estimateurs de décrits plus haut et des estimateurs
de leur variance. La convergence et la normalité asymptotique de et sont établies à la section 2,
dans le contexte de la théorie asymptotique fondée sur le plan de sondage ou assistée
par modèle. Bien que les résultats asymptotiques d’ordre un favorisent pourrait être meilleur quand
certaines tailles d’échantillon de sous-strate sont modérées, un effet asymptotique
d’ordre deux. L’avantage de l’estimateur fondé sur un test de décision tient à l’adaptation en vue
d’être proche de ou de selon celui qui est le
meilleur. Comme l’indique la discussion du paragraphe (III) de la section 4.4,
les simulations montrent que l’avantage de cette adaptabilité est de réduire l’EQM
d’une quantité allant jusqu’à quelques pour cent sous des conditions de
paramétrisation raisonnables, et de plus grandes quantités sous des conditions
plus étranges.
L’estimation
de la variance de l’estimateur fondé sur un test de décision est traitée à la
section 3. Même si la théorie asymptotique exposée à la section 2 laisse
entendre que des estimateurs convergents de variance sont obtenus par
substitution des quantités inconnues dans les formules de variance asymptotique,
nous étudions aussi les estimateurs bootstrap de la variance proposés dans Cheng et coll. (2010), qui ont
généralement de meilleures propriétés en échantillon fini que les estimateurs par
substitution. Les résultats empiriques sont présentés à la section 4, les
interprétations et les conclusions étant formulées à la sous-section 4.4. Toutes
les preuves techniques sont données en annexe.
Précédent | Suivant