Aide à l'ordre
entrées

Résultats

Tout (12)

Tout (12) (0 à 10 de 12 résultats)

  • Articles et rapports : 11-522-X202200100002
    Description : Les auteures ont utilisé le progiciel de couplage probabiliste Splink mis au point par le ministère de la Justice du Royaume-Uni pour relier les données du recensement de l’Angleterre et du pays de Galles à elles-mêmes afin de trouver des réponses en double au recensement. Un grand ensemble étalon-or des doublons confirmés du recensement était disponible, ce qui signifiait que la qualité des résultats de la mise en œuvre de Splink pouvait être assurée. Le présent article décrit la mise en œuvre et les fonctionnalités de Splink, donne des détails sur les configurations et les paramètres que nous avons utilisés pour ajuster Splink à notre projet en particulier, et donne les résultats que nous avons obtenus.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300100001
    Description : Les travaux récents sur l’estimation pour domaine d’enquête permettent d’estimer les moyennes de domaine de population selon des hypothèses a priori exprimées dans des termes de contraintes d’inégalité linéaires. Par exemple, on pourrait savoir que les moyennes de population sont non décroissantes conformément aux domaines ordonnés. Il a été montré que l’imposition de contraintes donne des estimateurs ayant une plus petite variance et des intervalles de confiance plus étroits. Dans le présent article, nous considérons un test formel de l’hypothèse nulle selon laquelle toutes les contraintes sont obligatoires, par opposition à une hypothèse alternative où au moins une contrainte n’est pas obligatoire. Le test de moyennes de domaine constantes comparativement à des moyennes de domaine croissantes est un cas particulier. La puissance du test est nettement meilleure que celle du test comportant la même hypothèse nulle et une hypothèse alternative sans contrainte. Le nouveau test est utilisé sur les données de la National Survey of College Graduates des États-Unis (NSCG, Enquête nationale sur les diplômés des collèges), pour montrer que les salaires sont positivement liés au niveau de scolarité du père du sujet, dans tous les domaines d’études et sur plusieurs années de cohortes.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 11-522-X202100100024
    Description : La Direction des études économiques du U.S. Census Bureau élabore des procédures coordonnées de plan et de sélection des échantillons pour son Annual Integrated Economic Survey (AIES, Enquête économique annuelle intégrée). L’échantillon unifié remplacera la pratique actuelle de la Direction qui consiste à élaborer de façon indépendante des bases de sondage et des procédures d’échantillonnage pour une série d’enquêtes annuelles distinctes, ce qui optimise les caractéristiques du plan d’échantillonnage au prix d’un fardeau de réponse accru. Les attributs de taille des populations d’entreprises (p. ex. les revenus et l’emploi) sont considérablement biaisés. Un pourcentage élevé d’entreprises exercent au sein de plusieurs secteurs. De nombreuses entreprises sont donc échantillonnées dans le cadre de multiples enquêtes; ce qui accroît le fardeau de réponse, en particulier pour les entreprises de taille moyenne.

    Même si cette composante de fardeau de réponse est réduite en sélectionnant un seul échantillon coordonné, elle n’est pas entièrement supprimée. Le fardeau de réponse dépend de plusieurs facteurs, notamment (1) de la longueur et la complexité du questionnaire, (2) de l’accessibilité des données, (3) du nombre attendu de mesures répétées et (4) de la fréquence de la collecte. Le plan de sondage peut avoir des répercussions profondes sur les troisième et quatrième facteurs. Pour contribuer aux décisions relatives au plan de sondage intégré, nous utilisons des arbres de régression afin de relever les covariables de la base de sondage associées au fardeau de réponse. En utilisant une base et des données de réponse historiques provenant de quatre enquêtes échantillonnées indépendamment, nous mettons à l’essai divers algorithmes, puis dressons des arbres de régression qui expliquent les relations entre les niveaux attendus de fardeau de réponse (tels qu’ils sont mesurés par le taux de réponse) et les covariables de base communes à plusieurs enquêtes. Nous validons les constats initiaux par une validation croisée, en examinant les résultats au fil du temps. Enfin, nous faisons des recommandations sur la façon d’intégrer nos résultats robustes au plan de sondage coordonné.
    Date de diffusion : 2021-10-29

  • Articles et rapports : 62F0014M2019005
    Description :

    Ce document décrit la méthodologie mise à jour pour l'indice des prix des services bancaires d'investissement (IPSBI).

    Date de diffusion : 2019-07-08

  • Articles et rapports : 12-001-X201300211871
    Description :

    Les modèles de régression sont utilisés couramment pour analyser les données d'enquête lorsque l'on souhaite déterminer quels sont les facteurs influents associés à certains indices comportementaux, sociaux ou économiques au sein d'une population cible. Lorsque des données sont recueillies au moyen d'enquêtes complexes, il convient de réexaminer les propriétés des approches classiques de sélection des variables élaborées dans des conditions i.i.d. ne faisant pas appel au sondage. Dans le présent article, nous dérivons un critère BIC fondé sur la pseudovraisemblance pour la sélection des variables dans l'analyse des données d'enquête et proposons une approche de vraisemblance pénalisée dans des conditions de sondage pour sa mise en oeuvre. Les poids de sondage sont attribués comme il convient pour corriger le biais de sélection causé par la distorsion entre l'échantillon et la population cible. Dans un cadre de randomisation conjointe, nous établissons la cohérence de la procédure de sélection proposée. Les propriétés en échantillon fini de l'approche sont évaluées par des analyses et des simulations informatiques en se servant de données provenant de la composante de l'hypertension de l'Enquête sur les personnes ayant une maladie chronique au Canada de 2009.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201200211753
    Description :

    Dans les études longitudinales, la non-réponse est souvent de nature non monotone. Dans le cas de la Survey of Industrial Research and Development (SIRD), il est raisonnable de supposer que le mécanisme de non-réponse dépend des valeurs antérieures, en ce sens que la propension à répondre au sujet d'une variable étudiée au point t dans le temps dépend de la situation de réponse ainsi que des valeurs observées ou manquantes de la même variable aux points dans le temps antérieurs à t. Puisque cette non-réponse n'est pas ignorable, l'approche axée sur la vraisemblance paramétrique est sensible à la spécification des modèles paramétriques s'appuyant sur la distribution conjointe des variables à différents points dans le temps et sur le mécanisme de non-réponse. La non-réponse non monotone limite aussi l'application des méthodes de pondération par l'inverse de la propension à répondre. En écartant toutes les valeurs observées auprès d'un sujet après la première valeur manquante pour ce dernier, on peut créer un ensemble de données présentant une non-réponse monotone ignorable, puis appliquer les méthodes établies pour la non-réponse ignorable. Cependant, l'abandon de données observées n'est pas souhaitable et peut donner lieu à des estimateurs inefficaces si le nombre de données écartées est élevé. Nous proposons d'imputer les réponses manquantes par la régression au moyen de modèles d'imputation créés prudemment sous le mécanisme de non-réponse dépendante des valeurs antérieures. Cette méthode ne requiert l'ajustement d'aucun modèle paramétrique sur la distribution conjointe des variables à différents points dans le temps ni sur le mécanisme de non-réponse. Les propriétés des moyennes estimées en appliquant la méthode d'imputation proposée sont examinées en s'appuyant sur des études en simulation et une analyse empirique des données de la SIRD.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 75F0002M2011003
    Description :

    Les études existantes qui sont consacrées à la dynamique de la pauvreté (ou du faible revenu) au Canada reposent principalement sur des données de la Banque de données administratives longitudinales ou de l'Enquête sur la dynamique du travail et du revenu (EDTR) pour les années 1990. Les études en question sont habituellement fondées sur un unique seuil de faible revenu.

    Nos travaux sont le prolongement de ces études par delà 1999 à partir de données des panels 3 (de 1999 à 2004) et 4 (de 2002 à 2007) de l'EDTR. Nous utilisons chacun des trois seuils de faible revenu établis par des ministères et organismes fédéraux, c'est à dire le seuil de faible revenu (SFR) et la mesure de faible revenu (MFR) de Statistique Canada, ainsi que la mesure fondée sur un panier de consommation (MPC) de Ressources humaines et Développement des compétences Canada.

    Date de diffusion : 2011-10-21

  • Articles et rapports : 12-001-X200900211038
    Description :

    Nous cherchons à corriger la surestimation causée par la non-réponse de lien dans l'échantillonnage indirect lorsque l'on utilise la méthode généralisée de partage des poids (MGPP). Nous avons élaboré quelques méthodes de correction pour tenir compte de la non-réponse de lien dans la MGPP applicables lorsque l'on dispose ou non de variables auxiliaires. Nous présentons une étude par simulation de certaines de ces méthodes de correction fondée sur des données d'enquête longitudinale. Les résultats des simulations révèlent que les corrections proposées de la MGPP réduisent bien le biais et la variance d'estimation. L'accroissement de la réduction du biais est significatif.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 11-522-X200800010959
    Description :

    L'Enquête unifiée auprès des entreprises (EUE) réalisée par Statistique Canada est une enquête-entreprise annuelle dont le but est d'uniformiser plus de 60 enquêtes couvrant diverses industries. À l'heure actuelle, deux types de fonctions de score sont utilisés durant la collecte des données de l'EUE pour en faire le suivi. L'objectif est d'employer une fonction de score qui maximise les taux de réponse à l'enquête pondérés par le poids économique en ce qui a trait aux principales variables d'intérêt, sous la contrainte d'un budget de suivi limité. Les deux types de fonctions de score étant fondés sur des méthodologies différentes, leur incidence sur les estimations finales pourrait ne pas être la même.

    La présente étude consiste à comparer, d'une manière générale, les deux types de fonctions de score en s'appuyant sur des données concernant la collecte recueillies au cours des deux dernières années. Aux fins des comparaisons, chaque type de fonction de score est appliqué aux mêmes données et diverses estimations de variables financières et de variables liées aux marchandises (biens et services) pour lesquelles des données sont publiées sont calculées, ainsi que leur écart par rapport à la pseudo valeur réelle et leur écart quadratique moyen, en se fondant sur chaque méthode. Ces estimations de l'écart et de l'écart quadratique moyen calculées selon chaque méthode sont ensuite utilisées pour mesurer l'effet de chaque fonction de score sur les estimations finales des variables financières et des variables liées aux biens et services.

    Date de diffusion : 2009-12-03

  • Articles et rapports : 12-001-X200800210756
    Description :

    Dans les enquêtes longitudinales, la non-réponse survient souvent selon un schéma non monotone. Nous considérons l'estimation des moyennes dépendantes du temps sous l'hypothèse que le mécanisme de non-réponse dépend de la dernière valeur. Puisque cette dernière valeur peut elle-même manquer quand la non-réponse est non monotone, le mécanisme de non-réponse examiné est non ignorable. Nous proposons une méthode d'imputation qui consiste à établir d'abord certains modèles d'imputation par la régression en fonction du mécanisme de non-réponse, puis à appliquer l'imputation par la régression non paramétrique. Nous supposons que les données longitudinales suivent une chaîne de Markov admettant des moments finis de deuxième ordre. Aucune autre contrainte n'est imposée à la distribution conjointe des données longitudinales et à leurs indicateurs de non-réponse. La variance est estimée par une méthode du bootstrap. Nous présentons certains résultats de simulation et un exemple concernant une enquête sur l'emploi.

    Date de diffusion : 2008-12-23
Stats en bref (0)

Stats en bref (0) (0 résultat)

Aucun contenu disponible actuellement

Articles et rapports (12)

Articles et rapports (12) (0 à 10 de 12 résultats)

  • Articles et rapports : 11-522-X202200100002
    Description : Les auteures ont utilisé le progiciel de couplage probabiliste Splink mis au point par le ministère de la Justice du Royaume-Uni pour relier les données du recensement de l’Angleterre et du pays de Galles à elles-mêmes afin de trouver des réponses en double au recensement. Un grand ensemble étalon-or des doublons confirmés du recensement était disponible, ce qui signifiait que la qualité des résultats de la mise en œuvre de Splink pouvait être assurée. Le présent article décrit la mise en œuvre et les fonctionnalités de Splink, donne des détails sur les configurations et les paramètres que nous avons utilisés pour ajuster Splink à notre projet en particulier, et donne les résultats que nous avons obtenus.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300100001
    Description : Les travaux récents sur l’estimation pour domaine d’enquête permettent d’estimer les moyennes de domaine de population selon des hypothèses a priori exprimées dans des termes de contraintes d’inégalité linéaires. Par exemple, on pourrait savoir que les moyennes de population sont non décroissantes conformément aux domaines ordonnés. Il a été montré que l’imposition de contraintes donne des estimateurs ayant une plus petite variance et des intervalles de confiance plus étroits. Dans le présent article, nous considérons un test formel de l’hypothèse nulle selon laquelle toutes les contraintes sont obligatoires, par opposition à une hypothèse alternative où au moins une contrainte n’est pas obligatoire. Le test de moyennes de domaine constantes comparativement à des moyennes de domaine croissantes est un cas particulier. La puissance du test est nettement meilleure que celle du test comportant la même hypothèse nulle et une hypothèse alternative sans contrainte. Le nouveau test est utilisé sur les données de la National Survey of College Graduates des États-Unis (NSCG, Enquête nationale sur les diplômés des collèges), pour montrer que les salaires sont positivement liés au niveau de scolarité du père du sujet, dans tous les domaines d’études et sur plusieurs années de cohortes.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 11-522-X202100100024
    Description : La Direction des études économiques du U.S. Census Bureau élabore des procédures coordonnées de plan et de sélection des échantillons pour son Annual Integrated Economic Survey (AIES, Enquête économique annuelle intégrée). L’échantillon unifié remplacera la pratique actuelle de la Direction qui consiste à élaborer de façon indépendante des bases de sondage et des procédures d’échantillonnage pour une série d’enquêtes annuelles distinctes, ce qui optimise les caractéristiques du plan d’échantillonnage au prix d’un fardeau de réponse accru. Les attributs de taille des populations d’entreprises (p. ex. les revenus et l’emploi) sont considérablement biaisés. Un pourcentage élevé d’entreprises exercent au sein de plusieurs secteurs. De nombreuses entreprises sont donc échantillonnées dans le cadre de multiples enquêtes; ce qui accroît le fardeau de réponse, en particulier pour les entreprises de taille moyenne.

    Même si cette composante de fardeau de réponse est réduite en sélectionnant un seul échantillon coordonné, elle n’est pas entièrement supprimée. Le fardeau de réponse dépend de plusieurs facteurs, notamment (1) de la longueur et la complexité du questionnaire, (2) de l’accessibilité des données, (3) du nombre attendu de mesures répétées et (4) de la fréquence de la collecte. Le plan de sondage peut avoir des répercussions profondes sur les troisième et quatrième facteurs. Pour contribuer aux décisions relatives au plan de sondage intégré, nous utilisons des arbres de régression afin de relever les covariables de la base de sondage associées au fardeau de réponse. En utilisant une base et des données de réponse historiques provenant de quatre enquêtes échantillonnées indépendamment, nous mettons à l’essai divers algorithmes, puis dressons des arbres de régression qui expliquent les relations entre les niveaux attendus de fardeau de réponse (tels qu’ils sont mesurés par le taux de réponse) et les covariables de base communes à plusieurs enquêtes. Nous validons les constats initiaux par une validation croisée, en examinant les résultats au fil du temps. Enfin, nous faisons des recommandations sur la façon d’intégrer nos résultats robustes au plan de sondage coordonné.
    Date de diffusion : 2021-10-29

  • Articles et rapports : 62F0014M2019005
    Description :

    Ce document décrit la méthodologie mise à jour pour l'indice des prix des services bancaires d'investissement (IPSBI).

    Date de diffusion : 2019-07-08

  • Articles et rapports : 12-001-X201300211871
    Description :

    Les modèles de régression sont utilisés couramment pour analyser les données d'enquête lorsque l'on souhaite déterminer quels sont les facteurs influents associés à certains indices comportementaux, sociaux ou économiques au sein d'une population cible. Lorsque des données sont recueillies au moyen d'enquêtes complexes, il convient de réexaminer les propriétés des approches classiques de sélection des variables élaborées dans des conditions i.i.d. ne faisant pas appel au sondage. Dans le présent article, nous dérivons un critère BIC fondé sur la pseudovraisemblance pour la sélection des variables dans l'analyse des données d'enquête et proposons une approche de vraisemblance pénalisée dans des conditions de sondage pour sa mise en oeuvre. Les poids de sondage sont attribués comme il convient pour corriger le biais de sélection causé par la distorsion entre l'échantillon et la population cible. Dans un cadre de randomisation conjointe, nous établissons la cohérence de la procédure de sélection proposée. Les propriétés en échantillon fini de l'approche sont évaluées par des analyses et des simulations informatiques en se servant de données provenant de la composante de l'hypertension de l'Enquête sur les personnes ayant une maladie chronique au Canada de 2009.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201200211753
    Description :

    Dans les études longitudinales, la non-réponse est souvent de nature non monotone. Dans le cas de la Survey of Industrial Research and Development (SIRD), il est raisonnable de supposer que le mécanisme de non-réponse dépend des valeurs antérieures, en ce sens que la propension à répondre au sujet d'une variable étudiée au point t dans le temps dépend de la situation de réponse ainsi que des valeurs observées ou manquantes de la même variable aux points dans le temps antérieurs à t. Puisque cette non-réponse n'est pas ignorable, l'approche axée sur la vraisemblance paramétrique est sensible à la spécification des modèles paramétriques s'appuyant sur la distribution conjointe des variables à différents points dans le temps et sur le mécanisme de non-réponse. La non-réponse non monotone limite aussi l'application des méthodes de pondération par l'inverse de la propension à répondre. En écartant toutes les valeurs observées auprès d'un sujet après la première valeur manquante pour ce dernier, on peut créer un ensemble de données présentant une non-réponse monotone ignorable, puis appliquer les méthodes établies pour la non-réponse ignorable. Cependant, l'abandon de données observées n'est pas souhaitable et peut donner lieu à des estimateurs inefficaces si le nombre de données écartées est élevé. Nous proposons d'imputer les réponses manquantes par la régression au moyen de modèles d'imputation créés prudemment sous le mécanisme de non-réponse dépendante des valeurs antérieures. Cette méthode ne requiert l'ajustement d'aucun modèle paramétrique sur la distribution conjointe des variables à différents points dans le temps ni sur le mécanisme de non-réponse. Les propriétés des moyennes estimées en appliquant la méthode d'imputation proposée sont examinées en s'appuyant sur des études en simulation et une analyse empirique des données de la SIRD.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 75F0002M2011003
    Description :

    Les études existantes qui sont consacrées à la dynamique de la pauvreté (ou du faible revenu) au Canada reposent principalement sur des données de la Banque de données administratives longitudinales ou de l'Enquête sur la dynamique du travail et du revenu (EDTR) pour les années 1990. Les études en question sont habituellement fondées sur un unique seuil de faible revenu.

    Nos travaux sont le prolongement de ces études par delà 1999 à partir de données des panels 3 (de 1999 à 2004) et 4 (de 2002 à 2007) de l'EDTR. Nous utilisons chacun des trois seuils de faible revenu établis par des ministères et organismes fédéraux, c'est à dire le seuil de faible revenu (SFR) et la mesure de faible revenu (MFR) de Statistique Canada, ainsi que la mesure fondée sur un panier de consommation (MPC) de Ressources humaines et Développement des compétences Canada.

    Date de diffusion : 2011-10-21

  • Articles et rapports : 12-001-X200900211038
    Description :

    Nous cherchons à corriger la surestimation causée par la non-réponse de lien dans l'échantillonnage indirect lorsque l'on utilise la méthode généralisée de partage des poids (MGPP). Nous avons élaboré quelques méthodes de correction pour tenir compte de la non-réponse de lien dans la MGPP applicables lorsque l'on dispose ou non de variables auxiliaires. Nous présentons une étude par simulation de certaines de ces méthodes de correction fondée sur des données d'enquête longitudinale. Les résultats des simulations révèlent que les corrections proposées de la MGPP réduisent bien le biais et la variance d'estimation. L'accroissement de la réduction du biais est significatif.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 11-522-X200800010959
    Description :

    L'Enquête unifiée auprès des entreprises (EUE) réalisée par Statistique Canada est une enquête-entreprise annuelle dont le but est d'uniformiser plus de 60 enquêtes couvrant diverses industries. À l'heure actuelle, deux types de fonctions de score sont utilisés durant la collecte des données de l'EUE pour en faire le suivi. L'objectif est d'employer une fonction de score qui maximise les taux de réponse à l'enquête pondérés par le poids économique en ce qui a trait aux principales variables d'intérêt, sous la contrainte d'un budget de suivi limité. Les deux types de fonctions de score étant fondés sur des méthodologies différentes, leur incidence sur les estimations finales pourrait ne pas être la même.

    La présente étude consiste à comparer, d'une manière générale, les deux types de fonctions de score en s'appuyant sur des données concernant la collecte recueillies au cours des deux dernières années. Aux fins des comparaisons, chaque type de fonction de score est appliqué aux mêmes données et diverses estimations de variables financières et de variables liées aux marchandises (biens et services) pour lesquelles des données sont publiées sont calculées, ainsi que leur écart par rapport à la pseudo valeur réelle et leur écart quadratique moyen, en se fondant sur chaque méthode. Ces estimations de l'écart et de l'écart quadratique moyen calculées selon chaque méthode sont ensuite utilisées pour mesurer l'effet de chaque fonction de score sur les estimations finales des variables financières et des variables liées aux biens et services.

    Date de diffusion : 2009-12-03

  • Articles et rapports : 12-001-X200800210756
    Description :

    Dans les enquêtes longitudinales, la non-réponse survient souvent selon un schéma non monotone. Nous considérons l'estimation des moyennes dépendantes du temps sous l'hypothèse que le mécanisme de non-réponse dépend de la dernière valeur. Puisque cette dernière valeur peut elle-même manquer quand la non-réponse est non monotone, le mécanisme de non-réponse examiné est non ignorable. Nous proposons une méthode d'imputation qui consiste à établir d'abord certains modèles d'imputation par la régression en fonction du mécanisme de non-réponse, puis à appliquer l'imputation par la régression non paramétrique. Nous supposons que les données longitudinales suivent une chaîne de Markov admettant des moments finis de deuxième ordre. Aucune autre contrainte n'est imposée à la distribution conjointe des données longitudinales et à leurs indicateurs de non-réponse. La variance est estimée par une méthode du bootstrap. Nous présentons certains résultats de simulation et un exemple concernant une enquête sur l'emploi.

    Date de diffusion : 2008-12-23
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :