Vérification et imputation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre

Résultats

Tout (18)

Tout (18) (0 à 10 de 18 résultats)

  • Articles et rapports : 11-522-X201700014715
    Description :

    En vue du Recensement de 2021 au Royaume-Uni, l'Office for National Statistics (ONS) s’est engagée à mener un programme de recherche exhaustif, afin d’explorer comment les données administratives couplées peuvent servir à appuyer les processus statistiques conventionnels. Le contrôle et l’imputation (C et I) au niveau de la question joueront un rôle important pour l’ajustement de la base de données du Recensement de 2021. Toutefois, l’incertitude associée à l’exactitude et à la qualité des données administratives disponibles jette des doutes sur l’efficacité d’une approche intégrée fondée sur des données du recensement et des données administratives en ce qui a trait au C et I. Les contraintes actuelles, qui dictent une approche anonymisée de la « clef » pour le couplage des enregistrements, afin d’assurer la confidentialité, accentuent cette incertitude. Nous fournissons les résultats préliminaires d’une étude de simulation comparant l’exactitude prédictive et l’exactitude de la distribution de la stratégie conventionnelle de C et I mise en œuvre au moyen du SCANCIR pour le Recensement de 2011 au Royaume-Uni, à celles d’une approche intégrée reposant sur des données administratives synthétiques, comme données auxiliaires, avec une erreur qui augmente de façon systématique. À cette étape initiale de la recherche, nous mettons l’accent sur l’imputation d’une année d’âge. L’objectif de l’étude est de déterminer si les données auxiliaires découlant des données administratives peuvent améliorer les estimations de l’imputation, et où se situent les différentes stratégies dans un continuum d’exactitude.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 11-522-X201300014275
    Description :

    Depuis juillet 2014, l’Office for National Statistics a pris l’engagement de tenir le Recensement de 2021 au Royaume-Uni essentiellement en ligne. L’imputation au niveau de la question jouera un rôle important dans l’ajustement de la base de données du Recensement de 2021. Les recherches montrent qu’Internet pourrait produire des données plus précises que la saisie sur papier et attirer des personnes affichant des caractéristiques particulières. Nous présentons ici les résultats préliminaires des recherches destinées à comprendre comment nous pourrions gérer ces caractéristiques dans une stratégie d’imputation pour le Recensement du Royaume-Uni de 2021. Selon nos constatations, l’utilisation d’une méthode d’imputation fondée sur des donneurs pourrait nécessiter d’envisager l’inclusion du mode de réponse comme variable d’appariement dans le modèle d’imputation sous-jacent.

    Date de diffusion : 2014-10-31

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201400114002
    Description :

    Nous proposons une approche d’imputation multiple des réponses manquant aléatoirement dans les enquêtes à grande échelle qui ne portent que sur des variables catégoriques présentant des zéros structurels. Notre approche consiste à utiliser des mélanges de lois multinomiales comme outils d’imputation et à tenir compte des zéros structurels en concevant les données observées comme un échantillon tronqué issu d’une population hypothétique ne contenant pas de zéros structurels. Cette approche possède plusieurs caractéristiques intéressantes : les imputations sont générées à partir de modèles bayésiens conjoints cohérents qui tiennent compte automatiquement des dépendances complexes et s’adaptent facilement à de grands nombres de variables. Nous décrivons un algorithme d’échantillonnage de Gibbs pour mettre en œuvre l’approche et illustrons son potentiel au moyen d’une étude par échantillonnage répété en utilisant des microdonnées de recensement à grande diffusion provenant de l’État de New York, aux États Unis.

    Date de diffusion : 2014-06-27

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201200111687
    Description :

    Afin de créer des fichiers de données à grande diffusion à partir d'enquêtes à grande échelle, les organismes statistiques diffusent parfois des sous­échantillons aléatoires des enregistrements originaux. Le sous­échantillonnage aléatoire amenuise la taille des fichiers transmis aux analystes secondaires des données et réduit les risques de divulgation accidentelle de renseignements confidentiels sur les participants aux enquêtes. Cependant, le sous­échantillonnage n'élimine pas entièrement le risque, de sorte qu'il faut altérer les données avant leur diffusion. Nous proposons de créer des sous­échantillons protégés contre la divulgation provenant d'enquêtes à grande échelle en recourant à l'imputation multiple. L'idée consiste à remplacer dans l'échantillon original les valeurs identificatoires ou sensibles par des valeurs tirées de modèles statistiques et de diffuser des sous­échantillons de ces données protégées contre la divulgation. Nous présentons des méthodes permettant de faire des inférences fondées sur les multiples sous­échantillons synthétiques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 11-522-X200600110408
    Description :

    Malgré les progrès réalisés en vue d'améliorer la santé de la population des États Unis, des disparités en matière de santé persistent entre divers groupes raciaux/ethniques et socioéconomiques. Les sources habituelles de données pour évaluer la santé d'une population d'intérêt comprennent les enquêtes à grande échelle, qui contiennent souvent des questions à réponse autodéclarée, comme « Un médecin ou un autre professionnel de la santé vous a t-il déjà dit que vous souffrez de problème de santé d'intérêt ? Les réponses à de telles questions pourraient ne pas refléter la prévalence réelle des problèmes de santé (p. ex., si le répondant n'a pas accès à un médecin ou à un autre professionnel de la santé). De même, les renseignements autodéclarés concernant des données quantitatives telles que la taille et le poids pourraient être entachés d'erreurs de déclaration. Ce genre d'« erreurs de mesure » dans les données sur la santé pourraient avoir une incidence sur les inférences relatives aux mesures de la santé et aux disparités en matière de santé. Dans la présente étude, nous ajustons des modèles d'erreur de mesure aux données de la National Health and Nutrition Examination Survey, qui comprend un volet d'interview durant lequel sont posées des questions à réponse autodéclarée et un volet d'examen durant lequel sont obtenues des mesures physiques. Puis, nous élaborons des méthodes permettant d'utiliser les modèles ajustés pour améliorer l'analyse des données autodéclarées provenant d'une autre enquête ne comportant pas de volet d'examen. Enfin, nous appliquons ces méthodes, qui comportent l'imputation multiples de valeurs fondées sur les données recueillies par examen à l'enquête ne produisant que des données autodéclarées, à la National Health Interview Survey dans des exemples ayant trait au diabète, à l'hypertension et à l'obésité. Les résultats préliminaires laissent entendre que les ajustements pour l'erreur de mesure peuvent causer des variations non négligeables des estimations des mesures de la santé.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-001-X20060029548
    Description :

    La théorie de l'imputation multiple pour traiter les données manquantes exige que l'imputation soit faite conditionnellement du plan d'échantillonnage. Cependant, comme la plupart des progiciels standard utilisés pour l'imputation multiple fondée sur un modèle reposent sur l'hypothèse d'un échantillonnage aléatoire simple, de nombreux praticiens sont portés à ne pas tenir compte des caractéristiques des plans d'échantillonnage complexes, comme la stratification et la mise en grappes, dans leurs imputations. Or, la théorie prédit que l'analyse d'ensembles de données soumis de telle façon à une imputation multiple peut produire des estimations biaisées du point de vue du plan de sondage. Dans le présent article, nous montrons au moyen de simulations que i) le biais peut être important si les caractéristiques du plan sont reliées aux variables d'intérêt et que ii) le biais peu être réduit en tenant compte de l'effet des caractéristiques du plan dans les modèles d'imputation. Les simulations montrent aussi que l'introduction de caractéristiques non pertinentes du plan comme contraintes dans les modèles d'imputation peut donner lieu à des inférences conservatrices, à condition que les modèles contiennent aussi des variables explicatives pertinentes. Ces résultats portent à formuler la prescription qui suit à l'intention des imputeurs : le moyen le plus sûr de procéder consiste à inclure les variables du plan de sondage dans la spécification des modèles d'imputation. À l'aide de données réelles, nous donnons une démonstration d'une approche simple d'intégration des caractéristiques d'un plan de sondage complexe qui peut être suivie en utilisant certains progiciels standard pour créer des imputations multiples.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 12-001-X20060029555
    Description :

    Les chercheurs et les responsables des politiques utilisent souvent des données provenant d'enquêtes par échantillonnage probabiliste représentatives de la population nationale. Le nombre de sujets couverts par ces enquêtes, et par conséquent la durée des entrevues, a généralement augmenté au fil des ans, ce qui a accru les coûts et le fardeau de réponse. Un remède éventuel à ce problème consiste à regrouper prudemment les questions d'une enquête en sous ensembles et à demander à chaque répondant de ne répondre qu'à l'un de ces sous ensembles. Les plans de sondage de ce type sont appelés plans à « questionnaire scindé » ou plans d'« échantillonnage matriciel ». Le fait de ne poser qu'un sous ensemble des questions d'une enquête à chaque répondant selon un plan d'échantillonnage matriciel crée ce que l'on peut considérer comme des données manquantes. Le recours à l'imputation multiple (Rubin 1987), une approche polyvalente mise au point pour traiter les données pour lesquelles des valeurs manquent, est tentant pour analyser les données provenant d'un échantillon matriciel, parce qu'après la création des imputations multiples, l'analyste peut appliquer les méthodes standard d'analyse de données complètes provenant d'une enquête par sondage. Le présent article décrit l'élaboration et l'évaluation d'une méthode permettant de créer des questionnaires d'échantillonnage matriciel contenant chacun un sous ensemble de questions devant être administrées à des répondants sélectionnés aléatoirement. La méthode peut être appliquée dans des conditions complexes, y compris les situations comportant des enchaînements de questions. Les questionnaires sont créés de telle façon que chacun comprenne des questions qui sont prédictives des questions exclues, afin qu'il soit possible, lors des analyses subséquentes fondées sur l'imputation multiple, de recouvrer une partie de l'information relative aux questions exclues qui aurait été recueillie si l'on n'avait pas recouru à l'échantillonnage matriciel. Ce dernier et les méthodes d'imputation multiple sont évalués au moyen de données provenant de la National Health and Nutrition Examination Survey, l'une des nombreuses enquêtes par échantillonnage probabiliste représentatives de la population nationale réalisées par le National Center for Health Statistics des Centers for Disease Control and Prevention. L'étude démontre que l'approche peut être appliquée à une grande enquête nationale sur la santé à structure complexe et permet de faire des recommandations pratiques quant aux questions qu'il serait approprié d'inclure dans des plans d'échantillonnage matriciel lors de futures enquêtes.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 11-522-X20030017722
    Description :

    Dans ce document, on montre comment adapter les cadres de travail basés sur le plan de sondage et basés sur un modèle dans le cas de l'échantillonnage à deux degrés

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20020016715
    Description :

    Dans cet article, on décrit l'imputation multiple de données sur le revenu dans le cas de la National Health Interview Survey et les problèmes méthodologiques qui se posent. En outre, on présente des résumés empiriques des imputations ainsi que les résultats d'une évaluation par la méthode de Monte Carlo des inférences basées sur des données sur le revenu résultant d'une imputation multiple.

    Les analystes de données sur la santé cherchent souvent à étudier les liens qui existent entre le revenu et la santé. La National Health Interview Survey, réalisée par le National Center for Health Statistics des Centers for Disease Control and Prevention aux États-Unis, constitue une riche source de données pour l'étude de tels liens. Cependant, les taux de non-réponse à deux questions essentielles sur le revenu, à savoir le revenu personnel et le revenu familial total, sont supérieurs à 20 %. En outre, ces taux de non-réponse semblent augmenter au fil du temps. Un projet en cours de réalisation vise à procéder à une imputation multiple du revenu personnel et du revenu familial, ainsi que des valeurs de certaines autres covariables pour les cycles de la National Health Interview Survey de 1997 et des années subséquentes.

    La mise au point de méthodes d'imputation multiple appropriées pour des enquêtes à aussi grande échelle pose de nombreux défis. D'abord, il existe un grand nombre de variables de divers types pour lesquelles les sauts de questions et les relations logiques diffèrent. Ensuite, on ignore quelles associations seront étudiées par les analystes des données résultant d'imputations multiples. Enfin, les données sur certaines variables, comme le revenu familial, sont recueillies à l'échelle des familles et d'autres, comme le revenu tiré d'un travail, le sont à l'échelle des particuliers. Afin que les imputations pour les variables à l'échelle des familles et des particuliers soient subordonnées à un aussi grand nombre de prédicteurs que possible, et pour simplifier la modélisation, on utilise une version modifiée de la méthode d'imputation par régression séquentielle décrite dans Raghunathan et coll. (Techniques d'enquête, 2001).

    Outre les problèmes liés à la nature hiérarchique des imputations qu'on vient de décrire, d'autres questions méthodologiques méritent d'être examinées, comme l'utilisation de transformations des variables de revenu, l'imposition de restrictions sur les valeurs des variables, la validité générale de l'imputation par régression séquentielle et, de façon encore plus générale, la validité des inférences basées sur une imputation multiple dans le cas d'enquêtes à plan d'échantillonnage complexe.

    Date de diffusion : 2004-09-13
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (16)

Analyses (16) (0 à 10 de 16 résultats)

  • Articles et rapports : 11-522-X201700014715
    Description :

    En vue du Recensement de 2021 au Royaume-Uni, l'Office for National Statistics (ONS) s’est engagée à mener un programme de recherche exhaustif, afin d’explorer comment les données administratives couplées peuvent servir à appuyer les processus statistiques conventionnels. Le contrôle et l’imputation (C et I) au niveau de la question joueront un rôle important pour l’ajustement de la base de données du Recensement de 2021. Toutefois, l’incertitude associée à l’exactitude et à la qualité des données administratives disponibles jette des doutes sur l’efficacité d’une approche intégrée fondée sur des données du recensement et des données administratives en ce qui a trait au C et I. Les contraintes actuelles, qui dictent une approche anonymisée de la « clef » pour le couplage des enregistrements, afin d’assurer la confidentialité, accentuent cette incertitude. Nous fournissons les résultats préliminaires d’une étude de simulation comparant l’exactitude prédictive et l’exactitude de la distribution de la stratégie conventionnelle de C et I mise en œuvre au moyen du SCANCIR pour le Recensement de 2011 au Royaume-Uni, à celles d’une approche intégrée reposant sur des données administratives synthétiques, comme données auxiliaires, avec une erreur qui augmente de façon systématique. À cette étape initiale de la recherche, nous mettons l’accent sur l’imputation d’une année d’âge. L’objectif de l’étude est de déterminer si les données auxiliaires découlant des données administratives peuvent améliorer les estimations de l’imputation, et où se situent les différentes stratégies dans un continuum d’exactitude.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 11-522-X201300014275
    Description :

    Depuis juillet 2014, l’Office for National Statistics a pris l’engagement de tenir le Recensement de 2021 au Royaume-Uni essentiellement en ligne. L’imputation au niveau de la question jouera un rôle important dans l’ajustement de la base de données du Recensement de 2021. Les recherches montrent qu’Internet pourrait produire des données plus précises que la saisie sur papier et attirer des personnes affichant des caractéristiques particulières. Nous présentons ici les résultats préliminaires des recherches destinées à comprendre comment nous pourrions gérer ces caractéristiques dans une stratégie d’imputation pour le Recensement du Royaume-Uni de 2021. Selon nos constatations, l’utilisation d’une méthode d’imputation fondée sur des donneurs pourrait nécessiter d’envisager l’inclusion du mode de réponse comme variable d’appariement dans le modèle d’imputation sous-jacent.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 11-522-X200600110408
    Description :

    Malgré les progrès réalisés en vue d'améliorer la santé de la population des États Unis, des disparités en matière de santé persistent entre divers groupes raciaux/ethniques et socioéconomiques. Les sources habituelles de données pour évaluer la santé d'une population d'intérêt comprennent les enquêtes à grande échelle, qui contiennent souvent des questions à réponse autodéclarée, comme « Un médecin ou un autre professionnel de la santé vous a t-il déjà dit que vous souffrez de problème de santé d'intérêt ? Les réponses à de telles questions pourraient ne pas refléter la prévalence réelle des problèmes de santé (p. ex., si le répondant n'a pas accès à un médecin ou à un autre professionnel de la santé). De même, les renseignements autodéclarés concernant des données quantitatives telles que la taille et le poids pourraient être entachés d'erreurs de déclaration. Ce genre d'« erreurs de mesure » dans les données sur la santé pourraient avoir une incidence sur les inférences relatives aux mesures de la santé et aux disparités en matière de santé. Dans la présente étude, nous ajustons des modèles d'erreur de mesure aux données de la National Health and Nutrition Examination Survey, qui comprend un volet d'interview durant lequel sont posées des questions à réponse autodéclarée et un volet d'examen durant lequel sont obtenues des mesures physiques. Puis, nous élaborons des méthodes permettant d'utiliser les modèles ajustés pour améliorer l'analyse des données autodéclarées provenant d'une autre enquête ne comportant pas de volet d'examen. Enfin, nous appliquons ces méthodes, qui comportent l'imputation multiples de valeurs fondées sur les données recueillies par examen à l'enquête ne produisant que des données autodéclarées, à la National Health Interview Survey dans des exemples ayant trait au diabète, à l'hypertension et à l'obésité. Les résultats préliminaires laissent entendre que les ajustements pour l'erreur de mesure peuvent causer des variations non négligeables des estimations des mesures de la santé.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-001-X20060029548
    Description :

    La théorie de l'imputation multiple pour traiter les données manquantes exige que l'imputation soit faite conditionnellement du plan d'échantillonnage. Cependant, comme la plupart des progiciels standard utilisés pour l'imputation multiple fondée sur un modèle reposent sur l'hypothèse d'un échantillonnage aléatoire simple, de nombreux praticiens sont portés à ne pas tenir compte des caractéristiques des plans d'échantillonnage complexes, comme la stratification et la mise en grappes, dans leurs imputations. Or, la théorie prédit que l'analyse d'ensembles de données soumis de telle façon à une imputation multiple peut produire des estimations biaisées du point de vue du plan de sondage. Dans le présent article, nous montrons au moyen de simulations que i) le biais peut être important si les caractéristiques du plan sont reliées aux variables d'intérêt et que ii) le biais peu être réduit en tenant compte de l'effet des caractéristiques du plan dans les modèles d'imputation. Les simulations montrent aussi que l'introduction de caractéristiques non pertinentes du plan comme contraintes dans les modèles d'imputation peut donner lieu à des inférences conservatrices, à condition que les modèles contiennent aussi des variables explicatives pertinentes. Ces résultats portent à formuler la prescription qui suit à l'intention des imputeurs : le moyen le plus sûr de procéder consiste à inclure les variables du plan de sondage dans la spécification des modèles d'imputation. À l'aide de données réelles, nous donnons une démonstration d'une approche simple d'intégration des caractéristiques d'un plan de sondage complexe qui peut être suivie en utilisant certains progiciels standard pour créer des imputations multiples.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 12-001-X20060029555
    Description :

    Les chercheurs et les responsables des politiques utilisent souvent des données provenant d'enquêtes par échantillonnage probabiliste représentatives de la population nationale. Le nombre de sujets couverts par ces enquêtes, et par conséquent la durée des entrevues, a généralement augmenté au fil des ans, ce qui a accru les coûts et le fardeau de réponse. Un remède éventuel à ce problème consiste à regrouper prudemment les questions d'une enquête en sous ensembles et à demander à chaque répondant de ne répondre qu'à l'un de ces sous ensembles. Les plans de sondage de ce type sont appelés plans à « questionnaire scindé » ou plans d'« échantillonnage matriciel ». Le fait de ne poser qu'un sous ensemble des questions d'une enquête à chaque répondant selon un plan d'échantillonnage matriciel crée ce que l'on peut considérer comme des données manquantes. Le recours à l'imputation multiple (Rubin 1987), une approche polyvalente mise au point pour traiter les données pour lesquelles des valeurs manquent, est tentant pour analyser les données provenant d'un échantillon matriciel, parce qu'après la création des imputations multiples, l'analyste peut appliquer les méthodes standard d'analyse de données complètes provenant d'une enquête par sondage. Le présent article décrit l'élaboration et l'évaluation d'une méthode permettant de créer des questionnaires d'échantillonnage matriciel contenant chacun un sous ensemble de questions devant être administrées à des répondants sélectionnés aléatoirement. La méthode peut être appliquée dans des conditions complexes, y compris les situations comportant des enchaînements de questions. Les questionnaires sont créés de telle façon que chacun comprenne des questions qui sont prédictives des questions exclues, afin qu'il soit possible, lors des analyses subséquentes fondées sur l'imputation multiple, de recouvrer une partie de l'information relative aux questions exclues qui aurait été recueillie si l'on n'avait pas recouru à l'échantillonnage matriciel. Ce dernier et les méthodes d'imputation multiple sont évalués au moyen de données provenant de la National Health and Nutrition Examination Survey, l'une des nombreuses enquêtes par échantillonnage probabiliste représentatives de la population nationale réalisées par le National Center for Health Statistics des Centers for Disease Control and Prevention. L'étude démontre que l'approche peut être appliquée à une grande enquête nationale sur la santé à structure complexe et permet de faire des recommandations pratiques quant aux questions qu'il serait approprié d'inclure dans des plans d'échantillonnage matriciel lors de futures enquêtes.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 11-522-X20030017722
    Description :

    Dans ce document, on montre comment adapter les cadres de travail basés sur le plan de sondage et basés sur un modèle dans le cas de l'échantillonnage à deux degrés

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20020016715
    Description :

    Dans cet article, on décrit l'imputation multiple de données sur le revenu dans le cas de la National Health Interview Survey et les problèmes méthodologiques qui se posent. En outre, on présente des résumés empiriques des imputations ainsi que les résultats d'une évaluation par la méthode de Monte Carlo des inférences basées sur des données sur le revenu résultant d'une imputation multiple.

    Les analystes de données sur la santé cherchent souvent à étudier les liens qui existent entre le revenu et la santé. La National Health Interview Survey, réalisée par le National Center for Health Statistics des Centers for Disease Control and Prevention aux États-Unis, constitue une riche source de données pour l'étude de tels liens. Cependant, les taux de non-réponse à deux questions essentielles sur le revenu, à savoir le revenu personnel et le revenu familial total, sont supérieurs à 20 %. En outre, ces taux de non-réponse semblent augmenter au fil du temps. Un projet en cours de réalisation vise à procéder à une imputation multiple du revenu personnel et du revenu familial, ainsi que des valeurs de certaines autres covariables pour les cycles de la National Health Interview Survey de 1997 et des années subséquentes.

    La mise au point de méthodes d'imputation multiple appropriées pour des enquêtes à aussi grande échelle pose de nombreux défis. D'abord, il existe un grand nombre de variables de divers types pour lesquelles les sauts de questions et les relations logiques diffèrent. Ensuite, on ignore quelles associations seront étudiées par les analystes des données résultant d'imputations multiples. Enfin, les données sur certaines variables, comme le revenu familial, sont recueillies à l'échelle des familles et d'autres, comme le revenu tiré d'un travail, le sont à l'échelle des particuliers. Afin que les imputations pour les variables à l'échelle des familles et des particuliers soient subordonnées à un aussi grand nombre de prédicteurs que possible, et pour simplifier la modélisation, on utilise une version modifiée de la méthode d'imputation par régression séquentielle décrite dans Raghunathan et coll. (Techniques d'enquête, 2001).

    Outre les problèmes liés à la nature hiérarchique des imputations qu'on vient de décrire, d'autres questions méthodologiques méritent d'être examinées, comme l'utilisation de transformations des variables de revenu, l'imposition de restrictions sur les valeurs des variables, la validité générale de l'imputation par régression séquentielle et, de façon encore plus générale, la validité des inférences basées sur une imputation multiple dans le cas d'enquêtes à plan d'échantillonnage complexe.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 12-001-X20030026785
    Description :

    L'une des méthodes permettant d'éviter les divulgations consiste à diffuser des ensembles de microdonnées à grande diffusion partiellement synthétiques. Ces ensembles comprennent les unités enquêtés au départ, mais certaines valeurs recueillies, comme celles de nature délicate présentant un haut risque de divulgation ou celles d'identificateurs clés, sont remplacées par des imputations multiples. Bien qu'on recoure à l'heure actuelle à des approches partiellement synthétiques pour protéger les données à grande diffusion, on ne les a pas encore assorties de méthodes d'inférence valides. Le présent article décrit de telles méthodes. Elles sont fondées sur les concepts de l'imputation multiple en vue de remplacer des données manquantes, mais s'appuient sur des règles différentes pour combiner les estimations ponctuelles et les estimations de la variance. Ces règles de combinaison diffèrent aussi de celles élaborées par Raghunathan, Reiter et Rubin (2003) pour les ensembles de données entièrement synthétiques. La validité de ces nouvelles règles est illustrée au moyen d'études par simulation.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 12-001-X20030016610
    Description :

    En présence de non-réponse partielle, en pratique, on recourt souvent à des méthodes d'imputation non pondérée, mais celles-ci produisent généralement des estimateurs biaisés sous l'hypothèse d'une réponse uniforme à l'intérieur des classes d'imputation. En nous inspirant de Skinner et Rao (2002), nous proposons un estimateur corrigé pour le biais d'une moyenne de population sous imputation par le ratio non pondérée et sous imputation aléatoire hot-deck, et nous calculons des estimateurs de la variance par linéarisation. Nous réalisons une petite étude en simulation pour évaluer les propriétés de biais et d'erreur quadratique moyenne des estimateurs obtenus. Nous étudions aussi le biais relatif et la stabilité relative des estimateurs de la variance.

    Date de diffusion : 2003-07-31
Références (2)

Références (2) ((2 résultats))

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201400114002
    Description :

    Nous proposons une approche d’imputation multiple des réponses manquant aléatoirement dans les enquêtes à grande échelle qui ne portent que sur des variables catégoriques présentant des zéros structurels. Notre approche consiste à utiliser des mélanges de lois multinomiales comme outils d’imputation et à tenir compte des zéros structurels en concevant les données observées comme un échantillon tronqué issu d’une population hypothétique ne contenant pas de zéros structurels. Cette approche possède plusieurs caractéristiques intéressantes : les imputations sont générées à partir de modèles bayésiens conjoints cohérents qui tiennent compte automatiquement des dépendances complexes et s’adaptent facilement à de grands nombres de variables. Nous décrivons un algorithme d’échantillonnage de Gibbs pour mettre en œuvre l’approche et illustrons son potentiel au moyen d’une étude par échantillonnage répété en utilisant des microdonnées de recensement à grande diffusion provenant de l’État de New York, aux États Unis.

    Date de diffusion : 2014-06-27

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201200111687
    Description :

    Afin de créer des fichiers de données à grande diffusion à partir d'enquêtes à grande échelle, les organismes statistiques diffusent parfois des sous­échantillons aléatoires des enregistrements originaux. Le sous­échantillonnage aléatoire amenuise la taille des fichiers transmis aux analystes secondaires des données et réduit les risques de divulgation accidentelle de renseignements confidentiels sur les participants aux enquêtes. Cependant, le sous­échantillonnage n'élimine pas entièrement le risque, de sorte qu'il faut altérer les données avant leur diffusion. Nous proposons de créer des sous­échantillons protégés contre la divulgation provenant d'enquêtes à grande échelle en recourant à l'imputation multiple. L'idée consiste à remplacer dans l'échantillon original les valeurs identificatoires ou sensibles par des valeurs tirées de modèles statistiques et de diffuser des sous­échantillons de ces données protégées contre la divulgation. Nous présentons des méthodes permettant de faire des inférences fondées sur les multiples sous­échantillons synthétiques.

    Date de diffusion : 2012-06-27
Date de modification :