Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Année de publication

4 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (5)

Tout (5) ((5 résultats))

  • Articles et rapports : 12-001-X201200111687
    Description :

    Afin de créer des fichiers de données à grande diffusion à partir d'enquêtes à grande échelle, les organismes statistiques diffusent parfois des sous­échantillons aléatoires des enregistrements originaux. Le sous­échantillonnage aléatoire amenuise la taille des fichiers transmis aux analystes secondaires des données et réduit les risques de divulgation accidentelle de renseignements confidentiels sur les participants aux enquêtes. Cependant, le sous­échantillonnage n'élimine pas entièrement le risque, de sorte qu'il faut altérer les données avant leur diffusion. Nous proposons de créer des sous­échantillons protégés contre la divulgation provenant d'enquêtes à grande échelle en recourant à l'imputation multiple. L'idée consiste à remplacer dans l'échantillon original les valeurs identificatoires ou sensibles par des valeurs tirées de modèles statistiques et de diffuser des sous­échantillons de ces données protégées contre la divulgation. Nous présentons des méthodes permettant de faire des inférences fondées sur les multiples sous­échantillons synthétiques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X20060029548
    Description :

    La théorie de l'imputation multiple pour traiter les données manquantes exige que l'imputation soit faite conditionnellement du plan d'échantillonnage. Cependant, comme la plupart des progiciels standard utilisés pour l'imputation multiple fondée sur un modèle reposent sur l'hypothèse d'un échantillonnage aléatoire simple, de nombreux praticiens sont portés à ne pas tenir compte des caractéristiques des plans d'échantillonnage complexes, comme la stratification et la mise en grappes, dans leurs imputations. Or, la théorie prédit que l'analyse d'ensembles de données soumis de telle façon à une imputation multiple peut produire des estimations biaisées du point de vue du plan de sondage. Dans le présent article, nous montrons au moyen de simulations que i) le biais peut être important si les caractéristiques du plan sont reliées aux variables d'intérêt et que ii) le biais peu être réduit en tenant compte de l'effet des caractéristiques du plan dans les modèles d'imputation. Les simulations montrent aussi que l'introduction de caractéristiques non pertinentes du plan comme contraintes dans les modèles d'imputation peut donner lieu à des inférences conservatrices, à condition que les modèles contiennent aussi des variables explicatives pertinentes. Ces résultats portent à formuler la prescription qui suit à l'intention des imputeurs : le moyen le plus sûr de procéder consiste à inclure les variables du plan de sondage dans la spécification des modèles d'imputation. À l'aide de données réelles, nous donnons une démonstration d'une approche simple d'intégration des caractéristiques d'un plan de sondage complexe qui peut être suivie en utilisant certains progiciels standard pour créer des imputations multiples.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 12-001-X20040027755
    Description :

    Plusieurs organismes statistiques utilisent, ou considèrent utiliser, l'imputation multiple pour limiter le risque de divulguer l'identité des répondants ou certains attributs délicats dans les fichiers de données à grande diffusion. Par exemple, ces organismes peuvent diffuser des ensembles de données partiellement synthétiques comprenant les unités étudiées originellement, où certaines valeurs recueillies, comme les valeurs délicates posant un risque élevé de divulgation ou les valeurs d'identificateurs clés, sont remplacées par des imputations multiples. Le présent article décrit une approche permettant de générer des ensembles de données partiellement synthétiques multi imputés pour traiter simultanément le contrôle de la divulgation et les données manquantes. L'idée fondamentale consiste à imputer d'abord les valeurs manquantes pour produire m ensembles de données complets, puis à remplacer dans chaque ensemble de données complet les valeurs délicates ou permettant l'identification par r valeurs imputées. L'article décrit aussi des méthodes permettant de faire des inférences valides à partir d'ensembles de données multi imputés de ce genre. De nouvelles règles sont nécessaires pour combiner les estimations ponctuelles et de variances multiples, parce que les deux étapes d'imputation multiple introduisent dans les estimations ponctuelles deux sources de variabilité que les méthodes existantes d'obtention d'inférences à partir d'ensembles de données multi imputés ne mesurent pas correctement. Une loi t de référence appropriée pour l'inférence quand les valeurs de m et r sont moyennes est établie au moyen d'approximations par appariement de moments et par développement en série de Taylor.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 11-522-X20030017692
    Description :

    Ce document porte sur les serveurs d'applications de régression, lesquels sont des systèmes de diffusion des données qui ne fournissent que certains résultats des analyses par régression en réponse aux demandes de l'utilisateur. On y présente aussi de façon détaillée les travaux sur le cas spécial où les données contiennent une variable confidentielle pour laquelle les résultats des régressions doivent être protégés.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 12-001-X20030026785
    Description :

    L'une des méthodes permettant d'éviter les divulgations consiste à diffuser des ensembles de microdonnées à grande diffusion partiellement synthétiques. Ces ensembles comprennent les unités enquêtés au départ, mais certaines valeurs recueillies, comme celles de nature délicate présentant un haut risque de divulgation ou celles d'identificateurs clés, sont remplacées par des imputations multiples. Bien qu'on recoure à l'heure actuelle à des approches partiellement synthétiques pour protéger les données à grande diffusion, on ne les a pas encore assorties de méthodes d'inférence valides. Le présent article décrit de telles méthodes. Elles sont fondées sur les concepts de l'imputation multiple en vue de remplacer des données manquantes, mais s'appuient sur des règles différentes pour combiner les estimations ponctuelles et les estimations de la variance. Ces règles de combinaison diffèrent aussi de celles élaborées par Raghunathan, Reiter et Rubin (2003) pour les ensembles de données entièrement synthétiques. La validité de ces nouvelles règles est illustrée au moyen d'études par simulation.

    Date de diffusion : 2004-01-27
Stats en bref (0)

Stats en bref (0) (0 résultat)

Aucun contenu disponible actuellement

Articles et rapports (5)

Articles et rapports (5) ((5 résultats))

  • Articles et rapports : 12-001-X201200111687
    Description :

    Afin de créer des fichiers de données à grande diffusion à partir d'enquêtes à grande échelle, les organismes statistiques diffusent parfois des sous­échantillons aléatoires des enregistrements originaux. Le sous­échantillonnage aléatoire amenuise la taille des fichiers transmis aux analystes secondaires des données et réduit les risques de divulgation accidentelle de renseignements confidentiels sur les participants aux enquêtes. Cependant, le sous­échantillonnage n'élimine pas entièrement le risque, de sorte qu'il faut altérer les données avant leur diffusion. Nous proposons de créer des sous­échantillons protégés contre la divulgation provenant d'enquêtes à grande échelle en recourant à l'imputation multiple. L'idée consiste à remplacer dans l'échantillon original les valeurs identificatoires ou sensibles par des valeurs tirées de modèles statistiques et de diffuser des sous­échantillons de ces données protégées contre la divulgation. Nous présentons des méthodes permettant de faire des inférences fondées sur les multiples sous­échantillons synthétiques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X20060029548
    Description :

    La théorie de l'imputation multiple pour traiter les données manquantes exige que l'imputation soit faite conditionnellement du plan d'échantillonnage. Cependant, comme la plupart des progiciels standard utilisés pour l'imputation multiple fondée sur un modèle reposent sur l'hypothèse d'un échantillonnage aléatoire simple, de nombreux praticiens sont portés à ne pas tenir compte des caractéristiques des plans d'échantillonnage complexes, comme la stratification et la mise en grappes, dans leurs imputations. Or, la théorie prédit que l'analyse d'ensembles de données soumis de telle façon à une imputation multiple peut produire des estimations biaisées du point de vue du plan de sondage. Dans le présent article, nous montrons au moyen de simulations que i) le biais peut être important si les caractéristiques du plan sont reliées aux variables d'intérêt et que ii) le biais peu être réduit en tenant compte de l'effet des caractéristiques du plan dans les modèles d'imputation. Les simulations montrent aussi que l'introduction de caractéristiques non pertinentes du plan comme contraintes dans les modèles d'imputation peut donner lieu à des inférences conservatrices, à condition que les modèles contiennent aussi des variables explicatives pertinentes. Ces résultats portent à formuler la prescription qui suit à l'intention des imputeurs : le moyen le plus sûr de procéder consiste à inclure les variables du plan de sondage dans la spécification des modèles d'imputation. À l'aide de données réelles, nous donnons une démonstration d'une approche simple d'intégration des caractéristiques d'un plan de sondage complexe qui peut être suivie en utilisant certains progiciels standard pour créer des imputations multiples.

    Date de diffusion : 2006-12-21

  • Articles et rapports : 12-001-X20040027755
    Description :

    Plusieurs organismes statistiques utilisent, ou considèrent utiliser, l'imputation multiple pour limiter le risque de divulguer l'identité des répondants ou certains attributs délicats dans les fichiers de données à grande diffusion. Par exemple, ces organismes peuvent diffuser des ensembles de données partiellement synthétiques comprenant les unités étudiées originellement, où certaines valeurs recueillies, comme les valeurs délicates posant un risque élevé de divulgation ou les valeurs d'identificateurs clés, sont remplacées par des imputations multiples. Le présent article décrit une approche permettant de générer des ensembles de données partiellement synthétiques multi imputés pour traiter simultanément le contrôle de la divulgation et les données manquantes. L'idée fondamentale consiste à imputer d'abord les valeurs manquantes pour produire m ensembles de données complets, puis à remplacer dans chaque ensemble de données complet les valeurs délicates ou permettant l'identification par r valeurs imputées. L'article décrit aussi des méthodes permettant de faire des inférences valides à partir d'ensembles de données multi imputés de ce genre. De nouvelles règles sont nécessaires pour combiner les estimations ponctuelles et de variances multiples, parce que les deux étapes d'imputation multiple introduisent dans les estimations ponctuelles deux sources de variabilité que les méthodes existantes d'obtention d'inférences à partir d'ensembles de données multi imputés ne mesurent pas correctement. Une loi t de référence appropriée pour l'inférence quand les valeurs de m et r sont moyennes est établie au moyen d'approximations par appariement de moments et par développement en série de Taylor.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 11-522-X20030017692
    Description :

    Ce document porte sur les serveurs d'applications de régression, lesquels sont des systèmes de diffusion des données qui ne fournissent que certains résultats des analyses par régression en réponse aux demandes de l'utilisateur. On y présente aussi de façon détaillée les travaux sur le cas spécial où les données contiennent une variable confidentielle pour laquelle les résultats des régressions doivent être protégés.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 12-001-X20030026785
    Description :

    L'une des méthodes permettant d'éviter les divulgations consiste à diffuser des ensembles de microdonnées à grande diffusion partiellement synthétiques. Ces ensembles comprennent les unités enquêtés au départ, mais certaines valeurs recueillies, comme celles de nature délicate présentant un haut risque de divulgation ou celles d'identificateurs clés, sont remplacées par des imputations multiples. Bien qu'on recoure à l'heure actuelle à des approches partiellement synthétiques pour protéger les données à grande diffusion, on ne les a pas encore assorties de méthodes d'inférence valides. Le présent article décrit de telles méthodes. Elles sont fondées sur les concepts de l'imputation multiple en vue de remplacer des données manquantes, mais s'appuient sur des règles différentes pour combiner les estimations ponctuelles et les estimations de la variance. Ces règles de combinaison diffèrent aussi de celles élaborées par Raghunathan, Reiter et Rubin (2003) pour les ensembles de données entièrement synthétiques. La validité de ces nouvelles règles est illustrée au moyen d'études par simulation.

    Date de diffusion : 2004-01-27
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :