Vérification et imputation

Passer au filtres. Voir les résultats.

Filtrer les résultats par

Search Help
Currently selected filters that can be removed

Mot(s)-clé(s)

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (98)

Tout (98) (0 to 10 of 98 results)

  • Articles et rapports : 12-001-X202500200007
    Description : Les échantillons probabilistes sont considérés comme la référence pour recueillir des renseignements dans les études basées sur la population, mais l’on utilise fréquemment, dans la pratique, des échantillons non probabilistes en raison de leur faible coût, de leur commodité et de l’absence de base de sondage pour l’enquête. Les estimations naïves fondées sur des échantillons non probabilistes risquent, en l’absence d’ajustements, d’être trompeuses en raison d’un biais de sélection. Une approche valide d’intégration des données comprenant l’imputation massive, la pondération par le score de propension et le calage a récemment été utilisée pour améliorer la représentativité des échantillons non probabilistes. L’efficacité de l’approche d’imputation massive dépend des hypothèses sous-jacentes du modèle. Dans le présent article, nous proposons d’utiliser l’apprentissage profond pour l’imputation massive dans une combinaison d’échantillons probabilistes et non probabilistes et de le comparer à plusieurs approches modernes d’imputation massive basée sur l’apprentissage automatique, y compris la modélisation additive généralisée, l’arbre de régression, la forêt aléatoire et le renforcement extrême du gradient (XGBoosting). Dans l’étude par simulation, les approches basées sur l’apprentissage profond se sont révélées plus robustes et efficaces que d’autres approches d’imputation massive contre l’invalidation des hypothèses sous-jacentes du modèle dans les scénarios de non-linéarité.
    Date de diffusion : 2025-12-23

  • Articles et rapports : 11-522-X202500100025
    Description : Les offices nationaux de statistique ont de plus en plus adopté l’apprentissage automatique (AA) en raison de son potentiel à améliorer les estimations issues des enquêtes. Les techniques d’AA offrent des avantages considérables, notamment la capacité de traiter des données de grande dimension et de capter des relations complexes et non linéaires, améliorant ainsi la qualité globale des statistiques d’enquête. Dans cet article, suivant l’approche de Chernozhukov et al. (2018), nous décrivons un cadre d’apprentissage automatique doublement débiaisé permettant de réaliser une inférence statistique valide lorsque les estimateurs imputés proviennent de procédures d’AA. Les résultats de simulations indiquent que le cadre proposé fonctionne bien dans un large éventail de scénarios.
    Date de diffusion : 2025-09-08

  • Articles et rapports : 11-522-X202500100034
    Description : Jusqu'à maintenant, les Canadiens n'avaient pas accès à des données détaillées sur l'emplacement des ventes du secteur de la fabrication. Grâce à l'intégration des données de l'enquête annuelle (Enquête annuelle sur les industries manufacturières et de l'exploitation forestière), un tableau de l'emplacement des ventes selon l'industrie et la province d'origine a été élaboré au profit des enquêtes annuelles et mensuelles sur les industries manufacturières à Statistique Canada. Bien qu'il ne s'agisse pas d'une question de l'enquête mensuelle, les répondants à l'enquête annuelle sont priés d'indiquer leur répartition des ventes en pourcentage dans 15 emplacements. Pour aborder la difficulté de générer une répartition au niveau de l'établissement des répondants œuvrant dans plusieurs provinces, trois approches ont été comparées : utiliser la répartition totale des répondants pour tous leurs établissements; viser l'optimisation; et utiliser les répartitions des répondants d'une seule province. La répartition imputée des ventes selon l'emplacement à partir des données annuelles a ensuite été appliquée à la valeur des ventes mensuelles. Les établissements mensuels non couplés aux répondants annuels ont été imputés à l'aide d'une stratégie comportant la répartition agrégée de leur groupe industrie-province dans l'enquête annuelle. Enfin, on a réussi à produire, dans le cadre de l'enquête mensuelle, des estimations ponctuelles et une variance d'échantillonnage (ainsi qu'un coefficient de variation) pour tout le tableau des ventes selon les emplacements d'origine et de destination, ainsi que pour chaque industrie. Le présent exposé aborde les défis liés à l'imputation des ventes selon l'emplacement (particulièrement en ce qui concerne les répondants ayant des établissements dans plusieurs provinces). L'objectif est d'assurer que les ventes correspondent aux totaux marginaux des provinces d'origine et de répartir les emplacements en fonction des données tirées du programme annuel aux estimations mensuelles.
    Date de diffusion : 2025-09-08

  • Articles et rapports : 11-522-X202500100035
    Description : Par le passé, le processus de vérification et d'imputation du Recensement de la population au Canada se déroulait à l'aide d'une méthodologie d'imputation par le plus proche voisin, selon laquelle la distance entre une unité rejetée et un donneur potentiel est obtenue au moyen d'une combinaison pondérée de variables auxiliaires. La révision du modèle entre les cycles peut être un processus compliqué et long, étant donné qu'il n'existe pas d'approche normalisée pour la sélection des variables et la pondération entre les sujets. La présente étude illustre la possibilité pour l'algorithme de sélection des variables Relief de créer une approche de sélection et de pondération des variables axée sur l'apprentissage automatique qui est normalisée et comparable entre les cycles de recensement et parmi les nombreux sujets du recensement. Un aperçu de la façon dont ce processus peut être appliqué en pratique sera présenté, suivi des résultats sur plusieurs sujets qui indiquent une amélioration générale par rapport aux méthodes précédentes.
    Date de diffusion : 2025-09-08

  • Articles et rapports : 12-001-X202500100004
    Description : La collecte de données d’enquête est souvent limitée par une non-réponse totale ou partielle. Pour réduire la dépendance à des hypothèses robustes relatives aux mécanismes d’absence de données, les statisticiens peuvent utiliser des renseignements sur les distributions marginales de population connues, par exemple, découlant de recensements ou de bases de données administratives. Une approche en ce sens est le recours au cadre de données manquantes avec marges auxiliaires, qui repose sur l’imputation multiple à la fois pour la non-réponse totale et la non-réponse partielle, de sorte que les estimations pondérées par les poids d’enquête correspondent aux distributions marginales connues. Toutefois, ce cadre repose sur la spécification et l’estimation d’une distribution conjointe pour les indicateurs de données d’enquête et de non-réponse, ce qui peut présenter des défis du point de vue du calcul et de la pratique pour des données comportant de nombreuses variables de divers types. Nous proposons deux adaptations du cadre de données manquantes avec marges auxiliaires afin de simplifier la tâche d’imputation. Tout d’abord, plutôt que de préciser un modèle conjoint pour les données des unités répondantes, nous avons recours à une imputation hot deck aléatoire tout en utilisant toujours les distributions marginales connues. Ensuite, plutôt qu’un échantillonnage à partir de distributions conditionnelles découlant du modèle conjoint pour les données manquantes dues à une non-réponse partielle, nous appliquons une imputation multiple par équations en séries pour la non-réponse partielle avant une imputation pour la non-réponse totale. À l’aide d’études par simulations avec des mécanismes de données manquantes non ignorables, nous démontrons que la démarche proposée peut fournir des estimations ponctuelles et par intervalle plus exactes que des modèles ne tirant pas profit de l’information auxiliaire. Nous illustrons cette démarche à l’aide de données relatives à la participation électorale tirée de la Current Population Survey des États-Unis.
    Date de diffusion : 2025-06-30

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200100008
    Description :

    La méthode d’imputation multiple à classes latentes (IMCL) allie l’imputation multiple à l’analyse de classe latente afin de corriger une classification erronée dans des ensembles de données combinés. De plus, l’IMCL permet de générer un ensemble de données multi-imputé qu’il est possible d’utiliser pour l’estimation directe de différentes statistiques, faisant en sorte que l’incertitude due à une classification erronée soit intégrée au moment d’estimer la variance totale. Dans la présente étude, les auteurs ont examiné la façon dont il est possible d’ajuster la méthode d’IMCL pour l’utiliser à des fins de recensement. Ils ont plus précisément étudié le mode de prise en charge, par la méthode d’IMCL, d’un registre de population fini et complet, la façon dont la méthode permet de corriger simultanément une classification erronée de multiples variables latentes et la façon dont elle permet d’intégrer plusieurs restrictions de vérification. Une étude par simulations montre que la méthode d’IMCL peut habituellement reproduire des fréquences par cellule dans des tableaux à basse et à haute dimensionnalité, comportant de faibles quantités de biais. Il est en outre possible d’estimer adéquatement la variance, même si elle est surestimée lorsque les fréquences par cellule sont moindres.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100100004
    Description :

    À l’ère des mégadonnées, on dispose d’un nombre croissant de sources de données pour les analyses statistiques. Comme exemple important d’inférence de population finie, nous examinons une approche d’imputation pour la combinaison de données tirées d’une enquête probabiliste et de mégadonnées. Nous nous concentrons sur une situation où la variable à l’étude est observée dans les mégadonnées seulement, mais les autres variables auxiliaires sont couramment observées dans les deux sources de données. Contrairement à l’imputation habituellement utilisée pour l’analyse des données manquantes, nous créons des valeurs imputées pour toutes les unités de l’échantillon probabiliste. Une imputation massive de ce type est intéressante dans le contexte de l’intégration des données d’enquête (Kim et Rao, 2012). Nous étendons l’imputation massive comme outil d’intégration des données d’enquête et des mégadonnées ne provenant pas d’enquêtes. Nous présentons les méthodes d’imputation massive et leurs propriétés statistiques. De plus, l’estimateur d’appariement de Rivers (2007) est traité comme cas particulier. L’estimation de la variance au moyen de données obtenues par imputation massive est abordée. Les résultats de la simulation montrent que les estimateurs proposés donnent de meilleurs résultats que les estimateurs concurrents en matière de robustesse et d’efficacité.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100009
    Description : L’imputation par appariement selon la moyenne prédictive est couramment utilisée pour régler les cas de non-réponse dans le cadre d’enquêtes. L’approche habituelle consiste à spécifier un modèle de régression unique. Dans la présente note, nous proposons une nouvelle procédure par appariement selon la moyenne prédictive permettant à l’utilisateur de spécifier plusieurs modèles de régression. L’estimateur obtenu est multirobuste en ce sens qu’il demeure convergent si l’un des modèles de régression spécifié est défini correctement. Les résultats d’une étude de simulation indiquent que la méthode proposée fonctionne bien en termes de biais et d’efficacité.
    Date de diffusion : 2021-06-24

  • 19-22-0004
    Description : L'un des principaux objectifs de la statistique consiste à présenter des données sous forme de renseignements faciles à résumer et à comprendre. L'utilisation d'outils de visualisation des données, comme les graphiques et les tableaux, est un moyen efficace d'atteindre cet objectif. Cette séance d'information vise à montrer des exemples de graphiques et de tableaux courants, à fournir des conseils pratiques pour aider les participants à choisir l'affichage approprié pour leurs données, et à déterminer ce qu'il faut éviter et pour quelle raison. De manière générale, l'objet est de renforcer la capacité statistique et d'améliorer la compréhension des techniques fondamentales qui favorisent la diffusion précise et efficace des statistiques et des résultats de recherche.

    https://www.statcan.gc.ca/fr/afc/information/19220004
    Date de diffusion : 2020-10-30
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (90)

Analyses (90) (0 to 10 of 90 results)

  • Articles et rapports : 12-001-X202500200007
    Description : Les échantillons probabilistes sont considérés comme la référence pour recueillir des renseignements dans les études basées sur la population, mais l’on utilise fréquemment, dans la pratique, des échantillons non probabilistes en raison de leur faible coût, de leur commodité et de l’absence de base de sondage pour l’enquête. Les estimations naïves fondées sur des échantillons non probabilistes risquent, en l’absence d’ajustements, d’être trompeuses en raison d’un biais de sélection. Une approche valide d’intégration des données comprenant l’imputation massive, la pondération par le score de propension et le calage a récemment été utilisée pour améliorer la représentativité des échantillons non probabilistes. L’efficacité de l’approche d’imputation massive dépend des hypothèses sous-jacentes du modèle. Dans le présent article, nous proposons d’utiliser l’apprentissage profond pour l’imputation massive dans une combinaison d’échantillons probabilistes et non probabilistes et de le comparer à plusieurs approches modernes d’imputation massive basée sur l’apprentissage automatique, y compris la modélisation additive généralisée, l’arbre de régression, la forêt aléatoire et le renforcement extrême du gradient (XGBoosting). Dans l’étude par simulation, les approches basées sur l’apprentissage profond se sont révélées plus robustes et efficaces que d’autres approches d’imputation massive contre l’invalidation des hypothèses sous-jacentes du modèle dans les scénarios de non-linéarité.
    Date de diffusion : 2025-12-23

  • Articles et rapports : 11-522-X202500100025
    Description : Les offices nationaux de statistique ont de plus en plus adopté l’apprentissage automatique (AA) en raison de son potentiel à améliorer les estimations issues des enquêtes. Les techniques d’AA offrent des avantages considérables, notamment la capacité de traiter des données de grande dimension et de capter des relations complexes et non linéaires, améliorant ainsi la qualité globale des statistiques d’enquête. Dans cet article, suivant l’approche de Chernozhukov et al. (2018), nous décrivons un cadre d’apprentissage automatique doublement débiaisé permettant de réaliser une inférence statistique valide lorsque les estimateurs imputés proviennent de procédures d’AA. Les résultats de simulations indiquent que le cadre proposé fonctionne bien dans un large éventail de scénarios.
    Date de diffusion : 2025-09-08

  • Articles et rapports : 11-522-X202500100034
    Description : Jusqu'à maintenant, les Canadiens n'avaient pas accès à des données détaillées sur l'emplacement des ventes du secteur de la fabrication. Grâce à l'intégration des données de l'enquête annuelle (Enquête annuelle sur les industries manufacturières et de l'exploitation forestière), un tableau de l'emplacement des ventes selon l'industrie et la province d'origine a été élaboré au profit des enquêtes annuelles et mensuelles sur les industries manufacturières à Statistique Canada. Bien qu'il ne s'agisse pas d'une question de l'enquête mensuelle, les répondants à l'enquête annuelle sont priés d'indiquer leur répartition des ventes en pourcentage dans 15 emplacements. Pour aborder la difficulté de générer une répartition au niveau de l'établissement des répondants œuvrant dans plusieurs provinces, trois approches ont été comparées : utiliser la répartition totale des répondants pour tous leurs établissements; viser l'optimisation; et utiliser les répartitions des répondants d'une seule province. La répartition imputée des ventes selon l'emplacement à partir des données annuelles a ensuite été appliquée à la valeur des ventes mensuelles. Les établissements mensuels non couplés aux répondants annuels ont été imputés à l'aide d'une stratégie comportant la répartition agrégée de leur groupe industrie-province dans l'enquête annuelle. Enfin, on a réussi à produire, dans le cadre de l'enquête mensuelle, des estimations ponctuelles et une variance d'échantillonnage (ainsi qu'un coefficient de variation) pour tout le tableau des ventes selon les emplacements d'origine et de destination, ainsi que pour chaque industrie. Le présent exposé aborde les défis liés à l'imputation des ventes selon l'emplacement (particulièrement en ce qui concerne les répondants ayant des établissements dans plusieurs provinces). L'objectif est d'assurer que les ventes correspondent aux totaux marginaux des provinces d'origine et de répartir les emplacements en fonction des données tirées du programme annuel aux estimations mensuelles.
    Date de diffusion : 2025-09-08

  • Articles et rapports : 11-522-X202500100035
    Description : Par le passé, le processus de vérification et d'imputation du Recensement de la population au Canada se déroulait à l'aide d'une méthodologie d'imputation par le plus proche voisin, selon laquelle la distance entre une unité rejetée et un donneur potentiel est obtenue au moyen d'une combinaison pondérée de variables auxiliaires. La révision du modèle entre les cycles peut être un processus compliqué et long, étant donné qu'il n'existe pas d'approche normalisée pour la sélection des variables et la pondération entre les sujets. La présente étude illustre la possibilité pour l'algorithme de sélection des variables Relief de créer une approche de sélection et de pondération des variables axée sur l'apprentissage automatique qui est normalisée et comparable entre les cycles de recensement et parmi les nombreux sujets du recensement. Un aperçu de la façon dont ce processus peut être appliqué en pratique sera présenté, suivi des résultats sur plusieurs sujets qui indiquent une amélioration générale par rapport aux méthodes précédentes.
    Date de diffusion : 2025-09-08

  • Articles et rapports : 12-001-X202500100004
    Description : La collecte de données d’enquête est souvent limitée par une non-réponse totale ou partielle. Pour réduire la dépendance à des hypothèses robustes relatives aux mécanismes d’absence de données, les statisticiens peuvent utiliser des renseignements sur les distributions marginales de population connues, par exemple, découlant de recensements ou de bases de données administratives. Une approche en ce sens est le recours au cadre de données manquantes avec marges auxiliaires, qui repose sur l’imputation multiple à la fois pour la non-réponse totale et la non-réponse partielle, de sorte que les estimations pondérées par les poids d’enquête correspondent aux distributions marginales connues. Toutefois, ce cadre repose sur la spécification et l’estimation d’une distribution conjointe pour les indicateurs de données d’enquête et de non-réponse, ce qui peut présenter des défis du point de vue du calcul et de la pratique pour des données comportant de nombreuses variables de divers types. Nous proposons deux adaptations du cadre de données manquantes avec marges auxiliaires afin de simplifier la tâche d’imputation. Tout d’abord, plutôt que de préciser un modèle conjoint pour les données des unités répondantes, nous avons recours à une imputation hot deck aléatoire tout en utilisant toujours les distributions marginales connues. Ensuite, plutôt qu’un échantillonnage à partir de distributions conditionnelles découlant du modèle conjoint pour les données manquantes dues à une non-réponse partielle, nous appliquons une imputation multiple par équations en séries pour la non-réponse partielle avant une imputation pour la non-réponse totale. À l’aide d’études par simulations avec des mécanismes de données manquantes non ignorables, nous démontrons que la démarche proposée peut fournir des estimations ponctuelles et par intervalle plus exactes que des modèles ne tirant pas profit de l’information auxiliaire. Nous illustrons cette démarche à l’aide de données relatives à la participation électorale tirée de la Current Population Survey des États-Unis.
    Date de diffusion : 2025-06-30

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200100008
    Description :

    La méthode d’imputation multiple à classes latentes (IMCL) allie l’imputation multiple à l’analyse de classe latente afin de corriger une classification erronée dans des ensembles de données combinés. De plus, l’IMCL permet de générer un ensemble de données multi-imputé qu’il est possible d’utiliser pour l’estimation directe de différentes statistiques, faisant en sorte que l’incertitude due à une classification erronée soit intégrée au moment d’estimer la variance totale. Dans la présente étude, les auteurs ont examiné la façon dont il est possible d’ajuster la méthode d’IMCL pour l’utiliser à des fins de recensement. Ils ont plus précisément étudié le mode de prise en charge, par la méthode d’IMCL, d’un registre de population fini et complet, la façon dont la méthode permet de corriger simultanément une classification erronée de multiples variables latentes et la façon dont elle permet d’intégrer plusieurs restrictions de vérification. Une étude par simulations montre que la méthode d’IMCL peut habituellement reproduire des fréquences par cellule dans des tableaux à basse et à haute dimensionnalité, comportant de faibles quantités de biais. Il est en outre possible d’estimer adéquatement la variance, même si elle est surestimée lorsque les fréquences par cellule sont moindres.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100100004
    Description :

    À l’ère des mégadonnées, on dispose d’un nombre croissant de sources de données pour les analyses statistiques. Comme exemple important d’inférence de population finie, nous examinons une approche d’imputation pour la combinaison de données tirées d’une enquête probabiliste et de mégadonnées. Nous nous concentrons sur une situation où la variable à l’étude est observée dans les mégadonnées seulement, mais les autres variables auxiliaires sont couramment observées dans les deux sources de données. Contrairement à l’imputation habituellement utilisée pour l’analyse des données manquantes, nous créons des valeurs imputées pour toutes les unités de l’échantillon probabiliste. Une imputation massive de ce type est intéressante dans le contexte de l’intégration des données d’enquête (Kim et Rao, 2012). Nous étendons l’imputation massive comme outil d’intégration des données d’enquête et des mégadonnées ne provenant pas d’enquêtes. Nous présentons les méthodes d’imputation massive et leurs propriétés statistiques. De plus, l’estimateur d’appariement de Rivers (2007) est traité comme cas particulier. L’estimation de la variance au moyen de données obtenues par imputation massive est abordée. Les résultats de la simulation montrent que les estimateurs proposés donnent de meilleurs résultats que les estimateurs concurrents en matière de robustesse et d’efficacité.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100009
    Description : L’imputation par appariement selon la moyenne prédictive est couramment utilisée pour régler les cas de non-réponse dans le cadre d’enquêtes. L’approche habituelle consiste à spécifier un modèle de régression unique. Dans la présente note, nous proposons une nouvelle procédure par appariement selon la moyenne prédictive permettant à l’utilisateur de spécifier plusieurs modèles de régression. L’estimateur obtenu est multirobuste en ce sens qu’il demeure convergent si l’un des modèles de régression spécifié est défini correctement. Les résultats d’une étude de simulation indiquent que la méthode proposée fonctionne bien en termes de biais et d’efficacité.
    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202000100006
    Description :

    Dans les enquêtes, les bornes logiques entre variables ou entre vagues d’enquêtes compliquent l’imputation des valeurs manquantes. Nous proposons une nouvelle méthode d’imputation multiple par la régression pour traiter les non-réponses d’enquête avec bornes logiques bilatérales. La méthode d’imputation proposée satisfait automatiquement aux conditions de bornes sans procédure supplémentaire d’acceptation ou de rejet et utilise l’information sur les bornes pour dériver une valeur imputée et déterminer la pertinence de la valeur imputée. Les résultats de la simulation montrent que notre nouvelle méthode d’imputation surpasse les méthodes d’imputation actuelles pour les estimations de la moyenne et des quantiles, quels que soient les taux de valeurs manquantes, les distributions d’erreurs et les mécanismes de valeurs manquantes. Nous appliquons notre méthode pour imputer la variable du « nombre d’années de tabagisme » autodéclaré dans les dépistages médicaux successifs de la population coréenne.

    Date de diffusion : 2020-06-30
Références (7)

Références (7) ((7 results))

  • Enquêtes et programmes statistiques — Documentation : 71F0031X2005002
    Description :

    Cet article est une introduction ainsi qu'une discussion sur les modifications apportées aux estimations de l'Enquête sur la population active en janvier 2005. Parmi ces modifications on retrouve notamment l'ajustement de toutes les estimations de l'EPA en fonction des chiffres de population basés sur le Recensement de 2001, des mise à jour aux systèmes de classification des industries et des occupations ainsi que des changements au remaniement de l'échantillon.

    Date de diffusion : 2005-01-26

  • Enquêtes et programmes statistiques — Documentation : 92-397-X
    Description :

    Ce rapport porte sur les concepts et définitions, sur la méthode d'imputation et sur la qualité des données de cette variable. Le recensement de 2001 a recueilli de l'information sur trois types de fonctions non rémunérées effectuées durant la semaine précédant celle du recensement : il s'agit des soins aux enfants, des travaux ménagers et des soins aux personnes âgées. Les données sur le travail non rémunéré de 2001 sont comparées à celles recueillies lors du recensement de 1996 de même qu'aux données provenant de l'enquête sociale générale (sur l'emploi du temps de 1998). Le rapport comprend également des tableaux historiques.

    Date de diffusion : 2005-01-11

  • Enquêtes et programmes statistiques — Documentation : 92-388-X
    Description :

    Ce rapport technique présente des renseignements de base sur les concepts et la qualité des données visant à faciliter l'utilisation et l'interprétation des données du recensement sur la profession. Il donne un aperçu des activités de collecte, de codage (selon la Classification nationale des professions pour statistiques de 2001), de contrôle et d'imputation des données sur la profession du recensement de 2001 ainsi qu'une description des changements apportés aux procédures du recensement de 2001 par rapport à celles des recensements précédents. Le rapport fournit également une analyse du degré de qualité des données du recensement de 2001 sur la profession et donne une description des modifications apportées à la Classification type des professions de 1991 utilisée lors des recensements de 1991 et de 1996 en vue d'établir la Classification nationale des professions pour statistiques de 2001 (CNP-S 2001), utilisée pour le recensement de 2001. Le rapport traite également de la comparabilité dans le temps des données codées selon ces deux classifications. Les annexes renferment un tableau présentant les données chronologiques des recensements de 1991, 1996 et 2001.

    Date de diffusion : 2004-07-15

  • Enquêtes et programmes statistiques — Documentation : 92-398-X
    Description :

    Ce rapport contient des renseignements de base sur les concepts et la qualité des données visant à faciliter l'utilisation et l'interprétation des données du recensement sur la catégorie de travailleurs. Il donne un aperçu du cycle de traitement des données, qui comprend notamment le dépouillement régional ainsi que le contrôle et l'imputation. Enfin, ce rapport contient des tableaux sommaires faisant état de la qualité des données du recensement de 2001 sur la catégorie de travailleurs.

    Date de diffusion : 2004-04-22

  • Enquêtes et programmes statistiques — Documentation : 85-602-X
    Description :

    L'objet du présent rapport est de faire le survol des méthodes et techniques existantes qui utilisent les identificateurs personnels en vue de réaliser le couplage des enregistrements. Ce couplage peut être décrit de façon générale comme une méthode de traitement ou de transformation des identificateurs personnels tirés des dossiers personnels enregistrés dans l'une ou plusieurs bases de données opérationnelles afin de jumeler les identificateurs et de créer un dossier composé sur un particulier. Le couplage des enregistrements ne vise pas seulement à identifier les particuliers à des fins opérationnelles, mais à établir les concordances probabilistes de degrés de fiabilité variés à des fins de rapports statistiques. Les techniques utilisées dans le cadre du couplage d'enregistrements peuvent également servir dans les enquêtes afin d'en restreindre le champ dans les bases de données, lorsque des renseignements sur les identificateurs personnels existent.

    Date de diffusion : 2000-12-05

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1998012
    Description :

    Dans ce document, on étudie les activités du groupe de travail responsable de la révision des programmes statistiques sur les ménages et le revenu familial de Statistique Canada, ainsi que l'un des changements apportés aux programmes correspondants, à savoir l'intégration de deux importantes sources de données annuelles sur le revenu au Canada : l'Enquête sur les finances des consommateurs (EFC) et l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1998-12-30

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1997006
    Description :

    Dans ce document, on présente la méthode de vérification et d'imputation retenue lors du traitement des données sur le revenu de la première vague de l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1997-12-31