2 Le plan de sondage de la SDR

Iván A. Carrillo et Alan F. Karr

2.1 Population finie

La population finie d'intérêt de la SDR peut être représentée comme au tableau 2.1. À la vague 1, c'est-à-dire la première période d'intérêt, il existe un ensemble fini, $U_{1 (1)} = U_{1},$ de $N_{1 (1)} = N_{1}$ titulaires d'un doctorat, obtenu récemment ou non, qui satisfont aux exigences de la SDR.

Tableau 2.1
Population finie de la SDR

$\begin{matrix} j : & 1 & 2 & 3 & \dots & J - 1 & J \\ U_{1 (1)} & \supseteq & U_{2 (1)} & \supseteq & U_{3 (1)} & \supseteq & \dots & \supseteq & U_{J - 1 (1)} & \supseteq & U_{J (1)} \\ N_{1 (1)} & \geq & N_{2 (1)} & \geq & N_{3 (1)} & \geq & \dots & \geq & N_{J - 1 (1)} & \geq & N_{J (1)} \\ U_{2 (2)} & \supseteq & U_{3 (2)} & \supseteq & \dots & \supseteq & U_{J - 1 (2)} & \supseteq & U_{J (2)} \\ N_{2 (2)} & \geq & N_{3 (2)} & \geq & \dots & \geq & N_{J - 1 (2)} & \geq & N_{J (2)} \\ ⋱ & ⋮ & ⋮ \\ U_{J - 1 (J - 1)} & \supseteq & U_{J (J - 1)} \\ N_{J - 1 (J - 1)} & \geq & N_{J (J - 1)} \\ U_{J (J)} \\ N_{J (J)} \\ U_{1} & U_{2} & U_{3} & \dots & U_{J - 1} & U_{J} \\ N_{1} & N_{2} & N_{3} & \dots & N_{J - 1} & N_{J} \end{matrix}$

À la vague 2, un sous-ensemble seulement des sujets compris dans $U_{1 (1)}$ satisfont encore aux exigences de la SDR; nous appelons ce sous-ensemble de $N_{2 (1)}$ sujets, $U_{2 (1)} .$ En outre, il existe un ensemble de nouveaux titulaires d'un doctorat, qui ont obtenu leur diplôme depuis la vague 1, et qui satisfont aussi aux autres exigences de l'enquête. Cet ensemble de nouveaux diplômés dans le champ de l'enquête est appelé $U_{2 (2)}$ et est de taille $N_{2 (2)} .$ Par conséquent, à la vague 2, il y a un total de $N_{2} = N_{2 (1)} + N_{2 (2)}$ sujets dans la population d'intérêt $U_{2} = U_{2 (1)} \cup U_{2 (2)} .$

À la vague suivante, la vague 3, le même processus a lieu. Certains sujets compris dans $U_{2 (1)}$ ont quitté la population d'intérêt et il n'en reste que $N_{3 (1)}$ dans $U_{3 (1)} .$ La même chose se produit avec l'ensemble $U_{2 (2)};$ seulement un sous-ensemble $U_{3 (2)}$ de $N_{3 (2)}$ sujets satisfera encore aux exigences de la SDR. En outre, $N_{3 (3)}$ diplômés récents entrent dans la population d'intérêt; cet ensemble est appelé $U_{3 (3)} .$ En tout, la population finie d'intérêt à la vague 3 est $U_{3} = U_{3 (1)} \cup U_{3 (2)} \cup U_{3 (3)},$ avec $N_{3} = N_{3 (1)} + N_{3 (2)} + N_{3 (3)}$ sujets.

Cette procédure de réduction des cohortes anciennes et d'ajout de nouvelles cohortes se poursuit jusqu'à la dernière vague d'intérêt, la vague $J .$ Nous constatons que la population finie d'intérêt change à chaque vague, principalement pour deux raisons. Premièrement, certains sujets appartenant aux anciennes cohortes ne sont plus dans le champ de la vague courante et ne font pas partie de la population cible courante. Deuxièmement, des diplômés récents sont ajoutés à la population cible de la vague courante. Nous désignons par $j = 1, 2, \dots, J$ la vague d'intérêt (hors des parenthèses) et par $j^{'} = 1, 2, \dots, J$ la cohorte à laquelle le sujet appartient (entre parenthèses), et par conséquent $U_{j (j^{'})} = U_{vague (cohorte)} .$

2.2 Échantillonnage

Le plan d'échantillonnage de la SDR possède une structure similaire à celle de la population finie et est illustré au tableau 2.2. À la vague 1, un échantillon (complexe) $s_{1 (1)} = s_{1}$ de $n_{1 (1)} = n_{1}$ sujets est sélectionné parmi les $N_{1}$ éléments de $U_{1} .$ Chaque élément $i$ dans $s_{1}$ est interviewé et les données qu'il fournit sont recueillies; en outre, il existe un poids de sondage $w_{i 1} = 1 / π_{i 1}$ associé à l'élément, qui est l'inverse de la probabilité d'inclusion de ce dernier dans l'échantillon à la vague 1.

Tableau 2.2
Échantillon de la SDR

$\begin{matrix} j : & 1 & 2 & 3 & \dots & J - 1 & J \\ s_{1 (1)} & \supseteq & s_{2 (1)} & \supseteq & s_{3 (1)} & \supseteq & \dots & \supseteq & s_{J - 1 (1)} & \supseteq & s_{J (1)} \\ n_{1 (1)} & \geq & n_{2 (1)} & \geq & n_{3 (1)} & \geq & \dots & \geq & n_{J - 1 (1)} & \geq & n_{J (1)} \\ s_{2 (2)} & \supseteq & s_{3 (2)} & \supseteq & \dots & \supseteq & s_{J - 1 (2)} & \supseteq & s_{J (2)} \\ n_{2 (2)} & \geq & n_{3 (2)} & \geq & \dots & \geq & n_{J - 1 (2)} & \geq & n_{J (2)} \\ s_{3 (3)} & \supseteq & \dots & \supseteq & s_{J - 1 (3)} & \supseteq & s_{J (3)} \\ n_{3 (3)} & \geq & \dots & \geq & n_{J - 1 (3)} & \geq & n_{J (3)} \\ ⋱ & ⋮ & ⋮ \\ s_{J - 1 (J - 1)} & \supseteq & s_{J (J - 1)} \\ n_{J - 1 (J - 1)} & \geq & n_{J (J - 1)} \\ s_{J (J)} \\ n_{J (J)} \\ s_{1} & s_{2} & s_{3} & \dots & s_{J - 1} & s_{J} \\ n_{1} & n_{2} & n_{3} & \dots & n_{J - 1} & n_{J} \end{matrix}$

À la deuxième vague, les éléments compris dans $s_{1 (1)}$ qui ne sont plus dans le champ de l'enquête sont simplement supprimés de la base de sondage (mais les observations les concernant faites à la vague 1 sont gardées), et un sous-échantillon $s_{2 (1)},$ de taille $n_{2 (1)},$ des sujets encore dans le champ de l'enquête est sélectionné. Les membres de $s_{1 (1)}$ qui sont encore dans le champ de l'enquête à la vague 2 ne sont pas tous gardés dans l'échantillon, et ce pour permettre d'ajouter l'échantillon de nouveaux titulaires d'un doctorat tout en maintenant plus ou moins la même taille d'échantillon qu'à la vague 1. Un échantillon $s_{2 (2)}$ de taille $n_{2 (2)}$ est tiré de $U_{2 (2)};$ les sujets compris dans $s_{2 (2)}$ forment la deuxième cohorte. L'échantillon total à la vague 2 est $s_{2} = s_{2 (1)} \cup s_{2 (2)},$ dont la taille est $n_{2} = n_{2 (1)} + n_{2 (2)},$ qui est approximativement égale à $n_{1} .$ Tous les sujets compris dans $s_{2}$ sont interviewés à la vague 2. Les poids de sondage à la vague 2, $w_{i 2} = 1 / π_{i 2},$ sont tels que l'échantillon $s_{2}$ représente la population d'intérêt à la vague 2, à savoir $U_{2} .$

La même procédure est répétée à chaque vague jusqu'à la dernière $(J),$ où un sous-échantillon des sujets restants en provenance de chacune des $J - 1$ cohortes antérieures est sélectionné, et un nouvel échantillon (nouvelle cohorte) $s_{J (J)}$ de diplômés récents est tiré de $U_{J (J)} .$ À la dernière vague, tous les sujets compris dans $s_{J} = \cup_{j^{'} = 1}^{J} s_{J (j^{'})}$ sont interviewés et un poids de sondage $w_{i J} = 1 / π_{i J}$ est créé pour chacun, de sorte que $s_{J}$ représente la population finie $U_{J} .$

En ce qui concerne la façon dont sont sélectionnés les sujets supprimées de l'échantillon, selon NSF (2012), en 2008 par exemple, le sous-échantillon $s_{08} \ s_{08 (08)}$ a été sélectionné en stratifiant $s_{06}$ « en 150 strates en fonction de 3 variables : groupe démographique, domaine du diplôme et sexe. » Le rapport explique aussi que :

L'ancienne pratique consistant à sélectionner l'échantillon avec probabilité proportionnelle à la taille s'est poursuivie, la mesure de taille étant le poids de base associé au cycle précédent de l'enquête. Pour chaque strate, l'algorithme d'échantillonnage a commencé par repérer et supprimer les cas autoreprésentatifs selon une procédure itérative. Ensuite, dans chaque strate, les cas non autoreprésentatifs ont été triés en fonction de la citoyenneté, de l'état d'incapacité, du domaine du diplôme et de l'année d'obtention du diplôme de doctorat. Enfin, le solde de l'échantillon (c'est-à-dire le total attribué à la strate moins le nombre de cas autoreprésentatifs) a été sélectionné dans chaque strate systématiquement avec probabilité proportionnelle à la taille.

Il convient de mentionner que, jusqu'à 1989, la cohorte (ou plus précisément l'année d'obtention du diplôme) faisait partie des variables de stratification (et des cellules d'ajustement des poids), mais qu'à partir de 1991, elle ne l'a plus été; elle a été remplacée par l'état d'incapacité. Pour des renseignements plus détaillés sur la procédure de sous-échantillonnage, y compris la description de la répartition de l'échantillon, voir NSF (2012) ou Cox, Grigorian, Wang et Harter (2010).

La description qui précède montre clairement que la SDR n'est pas réalisée selon un plan à panel rotatif. Outre le fait que la composition de la population finie d'intérêt évolue avec le temps, un plan à panel rotatif donnerait lieu à la sélection, au temps. $j,$ d'une nouvelle cohorte à partir de $U_{j},$ et non à partir de $U_{j} \ U_{j - 1}$ comme cela est le cas dans la SDR.

Une autre particularité de la SDR est qu'à chaque vague $j,$ une base de sondage de diplômés récents $U_{j (j)}$ existe, de laquelle peut être tirée directement la nouvelle cohorte $s_{j (j)} .$ Cependant, dans d'autres applications, le coût de la création d'une telle base de sondage, par exemple une liste de nouveaux membres, peut être excessif (particulièrement lorsqu'il est cumulé sur l'ensemble des vagues), et la nouvelle cohorte doit parfois être sélectionnée à partir de $U_{j}$ (par opposition à $U_{j (j)}$ ). La méthode proposée dans le présent article peut également être appliquée à ce genre de cas, à condition que l'on puisse créer pour l'échantillon total à la vague $j, s_{j},$ un poids transversal pour représenter $U_{j} .$ Nous discutons de cet aspect plus en détail à la section 3.2.

Soulignons que, dans la notation $s_{j (j^{'})},$ la quantité $j$ représente la vague à laquelle l'échantillon se rapporte, et $j^{'}$ désigne la cohorte de l'échantillon, c'est-à-dire la vague à laquelle l'échantillon a été sélectionné initialement. La notation pour les pondérations est $w_{i j},$ où le premier indice inférieur désigne le sujet et le second, la vague d'intérêt, quelle que soit la période où le sujet a été sélectionné initialement.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

2 Le plan de sondage de la SDR

2.1 Population finie

2.2 Échantillonnage