Recherche par mot-clé

Aide à l'ordre
entrées

Résultats

Tout (97)

Tout (97) (0 à 10 de 97 résultats)

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200011
    Description : Le présent article permet d’examiner des plans d’échantillonnage pour les populations qui peuvent être représentées sous forme de matrice N × M. Par exemple, pour l’étude des activités touristiques, les lignes peuvent représenter les endroits visités par les touristes et les colonnes, les jours pendant la saison touristique. L’objectif est d’échantillonner les cellules (i, j) de la matrice lorsque le nombre de sélections dans chaque ligne et chaque colonne est a priori fixe. La taille d’échantillon de la ie ligne représente le nombre de cellules sélectionnées dans la ligne i, tandis que la taille d’échantillon de la je colonne correspond au nombre de cellules sélectionnées dans la colonne j. Un plan d’échantillonnage matriciel donne une matrice d’indicateurs d’échantillon N × M, avec l’entrée 1 à la position (i, j) si la cellule (i, j) est échantillonnée, et 0 autrement. Le premier plan d’échantillonnage matriciel étudié comporte un niveau d’échantillonnage et les tailles d’échantillon des lignes et des colonnes sont établies à l’avance : les tailles d’échantillon des lignes peuvent varier, tandis que les tailles d’échantillon des colonnes sont toutes identiques. Nous pouvons considérer les marges fixes comme des contraintes d’équilibrage et nous examinons les algorithmes possibles pour la sélection de ces échantillons. Nous abordons ensuite un nouvel estimateur de variance de l’estimateur de Horvitz-Thompson pour la moyenne de la variable d’enquête y. Plusieurs niveaux d’échantillonnage peuvent être requis pour tenir compte de toutes les contraintes, ce qui nécessite des plans d’échantillonnage matriciel à plusieurs niveaux, que nous étudions également.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100011
    Description : La définition des unités statistiques est une question récurrente dans le domaine des enquêtes-échantillons. En effet, les populations sondées ne comportent pas toutes une base de sondage déjà disponible. Dans certaines populations, les unités échantillonnées sont différentes des unités d’observation, et la production d’estimations concernant la population d’intérêt soulève des questions complexes qu’il est possible de traiter en utilisant la méthode de partage des poids (Deville et Lavallée, 2006). Les deux populations prises en considération dans cette méthode sont toutefois discrètes. Dans certains champs d’études, la population échantillonnée est continue : c’est, par exemple, le cas des inventaires forestiers dans lesquels, souvent, les arbres sondés sont ceux situés sur des parcelles de terrain dont les centres sont des points tirés aléatoirement dans un secteur donné. La production d’estimations statistiques à partir de l’échantillon d’arbres sondés présente des difficultés d’ordre méthodologique, tout comme les calculs de variance qui y sont associés. Le présent article a pour but d’étendre la méthode de partage des poids au cas de populations continues (population échantillonnée) et de populations discrètes (population sondée), à partir de l’extension proposée par Cordy (1993) de l’estimateur de Horvitz-Thompson pour procéder à un tirage de points dans un univers continu.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X201800254952
    Description :

    Les enquêtes par panel sont souvent utilisées pour mesurer l’évolution de paramètres au cours du temps. Ces enquêtes peuvent souffrir de différentes formes de non-réponse totale, situation que l’on traite à l’heure actuelle en estimant les probabilités de réponse et en effectuant une nouvelle pondération des répondants. La présente étude porte sur l’estimation, ainsi que l’estimation de la variance en cas de non-réponse totale dans les enquêtes par panel. En étendant les travaux de Kim et Kim (2007) à plusieurs périodes, nous considérons un estimateur ajusté par un score de propension qui tient compte de la non-réponse initiale et de l’attrition, et proposons un estimateur de variance approprié. Nous étendons ensuite cet estimateur afin de couvrir la plupart des estimateurs utilisés dans les enquêtes, y compris les estimateurs calés, les estimateurs de paramètres complexes et les estimateurs longitudinaux. Les propriétés de l’estimateur de variance proposé et d’un estimateur de variance simplifié sont évaluées au moyen d’une étude en simulation. Une illustration de la méthode proposée sur des données provenant de l’enquête ELFE est également présentée.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201600114541
    Description :

    Le présent travail a pour objet de comparer des estimateurs non paramétriques pour des fonctions de répartition de populations finies fondés sur deux types de valeurs prédites, à savoir celles données par l’estimateur bien connu de Kuo et une version modifiée de ces dernières, qui intègre une estimation non paramétrique de la fonction de régression à la moyenne. Pour chaque type de valeurs prédites, nous considérons l’estimateur fondé sur un modèle correspondant et, après incorporation des poids de sondage, l’estimateur par la différence généralisée. Nous montrons sous des conditions assez générales que le terme principal de l’erreur quadratique moyenne sous le modèle n’est pas affecté par la modification des valeurs prédites, même si cette modification réduit la vitesse de convergence pour le biais sous le modèle. Les termes d’ordre deux des erreurs quadratiques moyennes sous le modèle sont difficiles à obtenir et ne seront pas calculés dans le présent article. La question est de savoir si les valeurs prédites modifiées offrent un certain avantage du point de vue de l’approche fondée sur un modèle. Nous examinons aussi les propriétés des estimateurs sous le plan de sondage et proposons pour l’estimateur par la différence généralisée un estimateur de variance fondé sur les valeurs prédites modifiées. Enfin, nous effectuons une étude en simulation. Les résultats des simulations laissent entendre que les valeurs prédites modifiées entraînent

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114542
    Description :

    La méthode du maximum de vraisemblance restreint (méthode REML pour restricted maximum likelihood) est généralement utilisée pour estimer la variance de l’effet aléatoire de domaine sous le modèle de Fay-Herriot (Fay et Herriot 1979) afin d’obtenir le meilleur estimateur linéaire sans biais empirique (estimateur EBLUP pour empirical best linear unbiased predictor) d’une moyenne de petit domaine. Lorsque l’estimation REML correspond à zéro, le poids de l’estimateur d’échantillon direct est zéro et l’EBLUP devient un estimateur synthétique, ce qui est rarement souhaitable. Pour résoudre le problème, Li et Lahiri (2011) et Yoshimori et Lahiri (2014) ont élaboré des estimateurs de variance constante par la méthode du maximum de vraisemblance ajusté (méthode ADM pour adjusted maximum likelihood), qui produisent toujours des estimations de variance positives. Certains des estimateurs ADM produisent toujours des estimations positives, mais génèrent un biais élevé, ce qui influe sur l’estimation de l’erreur quadratique moyenne (EQM) de l’estimateur EBLUP. Nous proposons d’utiliser un estimateur de variance MIX, défini comme étant une combinaison des méthodes REML et ADM. Nous montrons que cet estimateur est sans biais jusqu’à l’ordre deux et qu’il produit toujours une estimation de variance positive. Nous proposons également un estimateur de l’EQM sous la méthode MIX et montrons au moyen d’une simulation fondée sur un modèle que, dans de nombreuses situations, cet estimateur donne de meilleurs résultats que d’autres estimateurs de l’EQM par « linéarisation de Taylor » récemment proposés.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114544
    Description :

    Aux Pays-Bas, les données statistiques sur le revenu et le patrimoine reposent sur deux grands panels auprès des ménages qui sont entièrement dérivés de données administratives. L’utilisation de ménages comme unités d’échantillonnage dans les plans de sondage des panels pose problème en raison de l’instabilité de ces unités au fil du temps. Les changements dans la composition des ménages influent sur les probabilités d’inclusion nécessaires aux méthodes d’inférence fondées sur le plan et assistées par modèle. Dans les deux panels auprès des ménages susmentionnés, ces problèmes sont surmontés par la sélection de personnes que l’on suit au fil du temps. À chaque période, les membres des ménages auxquels appartiennent les personnes choisies sont inclus dans l’échantillon. Il s’agit d’une méthode équivalente à un échantillonnage selon des probabilités proportionnelles à la taille du ménage, selon laquelle les ménages peuvent être sélectionnés plus d’une fois jusqu’à concurrence du nombre de membres du ménage. Dans le présent article, nous décrivons les propriétés de ce plan d’échantillonnage et les comparons avec la méthode généralisée du partage des poids pour l’échantillonnage indirect (Lavallée 1995, 2007). Les méthodes sont illustrées au moyen d’une application à la Dutch Regional Income Survey.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500214249
    Description :

    Le problème de la répartition optimale des échantillons dans les enquêtes basées sur un plan d’échantillonnage stratifié a été abordé pour la première fois par Neyman en 1934. Depuis, de nombreux chercheurs ont étudié le problème de la répartition des échantillons dans les enquêtes à plusieurs variables, et plusieurs méthodes ont été proposées. Ces méthodes se divisent essentiellement en deux catégories. La première catégorie englobe les méthodes de répartition qui réduisent les coûts des enquêtes tout en maintenant les coefficients de variation des estimateurs de totaux sous des seuils spécifiés pour toutes les variables d’enquête d’intérêt. La seconde catégorie de méthodes vise à minimiser une moyenne pondérée des variances relatives des estimateurs des totaux étant donné une taille globale maximale d’échantillon ou un coût maximum. Cet article propose une nouvelle approche d’optimisation pour régler le problème de la répartition des échantillons dans les enquêtes à plusieurs variables. Cette approche se fonde sur une formulation de la programmation en nombres entiers binaires. Plusieurs expériences numériques ont démontré que l’approche proposée offre des solutions efficaces à ce problème, qui permettent d’améliorer un « algorithme classique » et peuvent être plus efficaces que l’algorithme de Bethel (1985, 1989).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114149
    Description :

    L’article décrit un cadre généralisé de calcul des probabilités d’inclusion optimales dans divers contextes d’enquête dans lesquels il est requis de diffuser des estimations d’enquête d’une précision préétablie pour de multiples variables et domaines d’intérêt. Le cadre permet de définir des plans de sondage stratifiés classiques ou incomplets. Les probabilités d’inclusion optimales sont obtenues en minimisant les coûts au moyen d’un algorithme qui garantit l’établissement de bornes pour les erreurs d’échantillonnage au niveau du domaine, en supposant que les variables d’appartenance au domaine sont disponibles dans la base de sondage. Les variables cibles sont inconnues, mais peuvent être prédites au moyen de modèles de superpopulation appropriés. L’algorithme tient compte correctement de l’incertitude de ces modèles. Certaines expériences basées sur des données réelles montrent les propriétés empiriques de l’algorithme.

    Date de diffusion : 2015-06-29
Données (1)

Données (1) ((1 résultat))

  • Microdonnées à grande diffusion : 12M0013X
    Description :

    Le cycle 13 de l'Enquête sociale générale (ESG) est le troisième cycle (après les cycles 3 et 8) qui a recueilli des renseignements en 1999 sur la nature et l'ampleur de la victimisation au Canada. Le cycle 13 a porté sur deux domaines d'intérêt nouveau : la perception publique des solutions de rechange à l'emprisonnement, et la violence conjugale et la violence envers les personnes âgées. Les autres sujets communs aux trois cycles comprennent les perceptions de la criminalité, de la police et des tribunaux, les précautions pour la prévention de la criminalité, les sections filtres concernant les accidents et la criminalité, et les rapports sur les accidents et les incidents de criminalité. La population cible de l'ESG est formée de toutes les personnes de 15 ans et plus vivant dans un ménage privé de l'une des dix provinces.

    Date de diffusion : 2000-11-02
Analyses (93)

Analyses (93) (0 à 10 de 93 résultats)

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200011
    Description : Le présent article permet d’examiner des plans d’échantillonnage pour les populations qui peuvent être représentées sous forme de matrice N × M. Par exemple, pour l’étude des activités touristiques, les lignes peuvent représenter les endroits visités par les touristes et les colonnes, les jours pendant la saison touristique. L’objectif est d’échantillonner les cellules (i, j) de la matrice lorsque le nombre de sélections dans chaque ligne et chaque colonne est a priori fixe. La taille d’échantillon de la ie ligne représente le nombre de cellules sélectionnées dans la ligne i, tandis que la taille d’échantillon de la je colonne correspond au nombre de cellules sélectionnées dans la colonne j. Un plan d’échantillonnage matriciel donne une matrice d’indicateurs d’échantillon N × M, avec l’entrée 1 à la position (i, j) si la cellule (i, j) est échantillonnée, et 0 autrement. Le premier plan d’échantillonnage matriciel étudié comporte un niveau d’échantillonnage et les tailles d’échantillon des lignes et des colonnes sont établies à l’avance : les tailles d’échantillon des lignes peuvent varier, tandis que les tailles d’échantillon des colonnes sont toutes identiques. Nous pouvons considérer les marges fixes comme des contraintes d’équilibrage et nous examinons les algorithmes possibles pour la sélection de ces échantillons. Nous abordons ensuite un nouvel estimateur de variance de l’estimateur de Horvitz-Thompson pour la moyenne de la variable d’enquête y. Plusieurs niveaux d’échantillonnage peuvent être requis pour tenir compte de toutes les contraintes, ce qui nécessite des plans d’échantillonnage matriciel à plusieurs niveaux, que nous étudions également.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100011
    Description : La définition des unités statistiques est une question récurrente dans le domaine des enquêtes-échantillons. En effet, les populations sondées ne comportent pas toutes une base de sondage déjà disponible. Dans certaines populations, les unités échantillonnées sont différentes des unités d’observation, et la production d’estimations concernant la population d’intérêt soulève des questions complexes qu’il est possible de traiter en utilisant la méthode de partage des poids (Deville et Lavallée, 2006). Les deux populations prises en considération dans cette méthode sont toutefois discrètes. Dans certains champs d’études, la population échantillonnée est continue : c’est, par exemple, le cas des inventaires forestiers dans lesquels, souvent, les arbres sondés sont ceux situés sur des parcelles de terrain dont les centres sont des points tirés aléatoirement dans un secteur donné. La production d’estimations statistiques à partir de l’échantillon d’arbres sondés présente des difficultés d’ordre méthodologique, tout comme les calculs de variance qui y sont associés. Le présent article a pour but d’étendre la méthode de partage des poids au cas de populations continues (population échantillonnée) et de populations discrètes (population sondée), à partir de l’extension proposée par Cordy (1993) de l’estimateur de Horvitz-Thompson pour procéder à un tirage de points dans un univers continu.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X201800254952
    Description :

    Les enquêtes par panel sont souvent utilisées pour mesurer l’évolution de paramètres au cours du temps. Ces enquêtes peuvent souffrir de différentes formes de non-réponse totale, situation que l’on traite à l’heure actuelle en estimant les probabilités de réponse et en effectuant une nouvelle pondération des répondants. La présente étude porte sur l’estimation, ainsi que l’estimation de la variance en cas de non-réponse totale dans les enquêtes par panel. En étendant les travaux de Kim et Kim (2007) à plusieurs périodes, nous considérons un estimateur ajusté par un score de propension qui tient compte de la non-réponse initiale et de l’attrition, et proposons un estimateur de variance approprié. Nous étendons ensuite cet estimateur afin de couvrir la plupart des estimateurs utilisés dans les enquêtes, y compris les estimateurs calés, les estimateurs de paramètres complexes et les estimateurs longitudinaux. Les propriétés de l’estimateur de variance proposé et d’un estimateur de variance simplifié sont évaluées au moyen d’une étude en simulation. Une illustration de la méthode proposée sur des données provenant de l’enquête ELFE est également présentée.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201600114541
    Description :

    Le présent travail a pour objet de comparer des estimateurs non paramétriques pour des fonctions de répartition de populations finies fondés sur deux types de valeurs prédites, à savoir celles données par l’estimateur bien connu de Kuo et une version modifiée de ces dernières, qui intègre une estimation non paramétrique de la fonction de régression à la moyenne. Pour chaque type de valeurs prédites, nous considérons l’estimateur fondé sur un modèle correspondant et, après incorporation des poids de sondage, l’estimateur par la différence généralisée. Nous montrons sous des conditions assez générales que le terme principal de l’erreur quadratique moyenne sous le modèle n’est pas affecté par la modification des valeurs prédites, même si cette modification réduit la vitesse de convergence pour le biais sous le modèle. Les termes d’ordre deux des erreurs quadratiques moyennes sous le modèle sont difficiles à obtenir et ne seront pas calculés dans le présent article. La question est de savoir si les valeurs prédites modifiées offrent un certain avantage du point de vue de l’approche fondée sur un modèle. Nous examinons aussi les propriétés des estimateurs sous le plan de sondage et proposons pour l’estimateur par la différence généralisée un estimateur de variance fondé sur les valeurs prédites modifiées. Enfin, nous effectuons une étude en simulation. Les résultats des simulations laissent entendre que les valeurs prédites modifiées entraînent

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114542
    Description :

    La méthode du maximum de vraisemblance restreint (méthode REML pour restricted maximum likelihood) est généralement utilisée pour estimer la variance de l’effet aléatoire de domaine sous le modèle de Fay-Herriot (Fay et Herriot 1979) afin d’obtenir le meilleur estimateur linéaire sans biais empirique (estimateur EBLUP pour empirical best linear unbiased predictor) d’une moyenne de petit domaine. Lorsque l’estimation REML correspond à zéro, le poids de l’estimateur d’échantillon direct est zéro et l’EBLUP devient un estimateur synthétique, ce qui est rarement souhaitable. Pour résoudre le problème, Li et Lahiri (2011) et Yoshimori et Lahiri (2014) ont élaboré des estimateurs de variance constante par la méthode du maximum de vraisemblance ajusté (méthode ADM pour adjusted maximum likelihood), qui produisent toujours des estimations de variance positives. Certains des estimateurs ADM produisent toujours des estimations positives, mais génèrent un biais élevé, ce qui influe sur l’estimation de l’erreur quadratique moyenne (EQM) de l’estimateur EBLUP. Nous proposons d’utiliser un estimateur de variance MIX, défini comme étant une combinaison des méthodes REML et ADM. Nous montrons que cet estimateur est sans biais jusqu’à l’ordre deux et qu’il produit toujours une estimation de variance positive. Nous proposons également un estimateur de l’EQM sous la méthode MIX et montrons au moyen d’une simulation fondée sur un modèle que, dans de nombreuses situations, cet estimateur donne de meilleurs résultats que d’autres estimateurs de l’EQM par « linéarisation de Taylor » récemment proposés.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114544
    Description :

    Aux Pays-Bas, les données statistiques sur le revenu et le patrimoine reposent sur deux grands panels auprès des ménages qui sont entièrement dérivés de données administratives. L’utilisation de ménages comme unités d’échantillonnage dans les plans de sondage des panels pose problème en raison de l’instabilité de ces unités au fil du temps. Les changements dans la composition des ménages influent sur les probabilités d’inclusion nécessaires aux méthodes d’inférence fondées sur le plan et assistées par modèle. Dans les deux panels auprès des ménages susmentionnés, ces problèmes sont surmontés par la sélection de personnes que l’on suit au fil du temps. À chaque période, les membres des ménages auxquels appartiennent les personnes choisies sont inclus dans l’échantillon. Il s’agit d’une méthode équivalente à un échantillonnage selon des probabilités proportionnelles à la taille du ménage, selon laquelle les ménages peuvent être sélectionnés plus d’une fois jusqu’à concurrence du nombre de membres du ménage. Dans le présent article, nous décrivons les propriétés de ce plan d’échantillonnage et les comparons avec la méthode généralisée du partage des poids pour l’échantillonnage indirect (Lavallée 1995, 2007). Les méthodes sont illustrées au moyen d’une application à la Dutch Regional Income Survey.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500214249
    Description :

    Le problème de la répartition optimale des échantillons dans les enquêtes basées sur un plan d’échantillonnage stratifié a été abordé pour la première fois par Neyman en 1934. Depuis, de nombreux chercheurs ont étudié le problème de la répartition des échantillons dans les enquêtes à plusieurs variables, et plusieurs méthodes ont été proposées. Ces méthodes se divisent essentiellement en deux catégories. La première catégorie englobe les méthodes de répartition qui réduisent les coûts des enquêtes tout en maintenant les coefficients de variation des estimateurs de totaux sous des seuils spécifiés pour toutes les variables d’enquête d’intérêt. La seconde catégorie de méthodes vise à minimiser une moyenne pondérée des variances relatives des estimateurs des totaux étant donné une taille globale maximale d’échantillon ou un coût maximum. Cet article propose une nouvelle approche d’optimisation pour régler le problème de la répartition des échantillons dans les enquêtes à plusieurs variables. Cette approche se fonde sur une formulation de la programmation en nombres entiers binaires. Plusieurs expériences numériques ont démontré que l’approche proposée offre des solutions efficaces à ce problème, qui permettent d’améliorer un « algorithme classique » et peuvent être plus efficaces que l’algorithme de Bethel (1985, 1989).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114149
    Description :

    L’article décrit un cadre généralisé de calcul des probabilités d’inclusion optimales dans divers contextes d’enquête dans lesquels il est requis de diffuser des estimations d’enquête d’une précision préétablie pour de multiples variables et domaines d’intérêt. Le cadre permet de définir des plans de sondage stratifiés classiques ou incomplets. Les probabilités d’inclusion optimales sont obtenues en minimisant les coûts au moyen d’un algorithme qui garantit l’établissement de bornes pour les erreurs d’échantillonnage au niveau du domaine, en supposant que les variables d’appartenance au domaine sont disponibles dans la base de sondage. Les variables cibles sont inconnues, mais peuvent être prédites au moyen de modèles de superpopulation appropriés. L’algorithme tient compte correctement de l’incertitude de ces modèles. Certaines expériences basées sur des données réelles montrent les propriétés empiriques de l’algorithme.

    Date de diffusion : 2015-06-29
Références (2)

Références (2) ((2 résultats))

  • Enquêtes et programmes statistiques — Documentation : 12-002-X20040016891
    Description :

    Ces deux programmes ont été conçus pour estimer la variabilité attribuable à l'erreur de mesure au-delà de la variance d'échantillonnage établie par le plan d'enquête de l'Enquête auprès des jeunes en transition et du Programme international pour le suivi des acquis des élèves (EJET/PISA). Le code du programme figure en annexe.

    Date de diffusion : 2004-04-15

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2002002
    Géographie : Province ou territoire
    Description :

    Dans ce guide, nous présentons de l'information susceptible d'intéresser les utilisateurs de données provenant de l'Enquête sur les dépenses des ménages. Ces données sont recueillies au moyen de questionnaires papier et d'entrevues personnelles menées en janvier, février et mars suivant l'année de référence. Nous obtenons des données sur les habitudes de dépenses, les caractéristiques des logements et l'équipement ménager des ménages canadiens pendant l'année de référence. L'enquête vise les ménages privés des 10 provinces et des 3 territoires. (Depuis 2001, les trois territoires sont étudiés tous les deux ans.) Ce guide comprend les définitions des termes et des variables de l'enquête ainsi que des descriptions sur les méthodes de l'enquête et la qualité des données. Il contient aussi une section décrivant les différentes statistiques pouvant être produites au moyen des données sur les dépenses (dont la part consacrée au budget, la part de marché et les agrégats).

    Date de diffusion : 2002-12-11
Date de modification :