Aide à l'ordre
entrées

Résultats

Tout (6)

Tout (6) ((6 résultats))

  • Articles et rapports : 12-001-X202100200002
    Description :

    Dans le couplage d’ensembles de données massifs, on a recours aux pochettes pour sélectionner un sous-ensemble gérable de paires d’enregistrements quitte à perdre quelques paires appariées. Cette perte tient une grande place dans l’erreur de couplage globale, parce que les décisions relatives aux pochettes se prennent tôt dans le processus sans qu’on puisse les réviser par la suite. Mesurer le rôle que joue cette perte demeure un grand défi si on considère la nécessité de modéliser toutes les paires dans le produit cartésien des sources, et non seulement celles qui répondent aux critères des pochettes. Malheureusement, les modèles antérieurs d’erreur ne nous aident guère parce qu’ils ne respectent normalement pas cette exigence. Il sera question ici d’un nouveau modèle de mélange fini, qui ne demande ni vérifications manuelles, ni données d’entraînement, ni hypothèse d’indépendance conditionnelle des variables de couplage. Il s’applique dans le cadre d’une procédure de pochettes typique dans le couplage d’un fichier avec un registre ou un recensement exhaustif lorsque ces deux sources sont exemptes d’enregistrements en double.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 11-522-X202100100008
    Description :

    Les organismes nationaux de statistique étudient de plus en plus la possibilité d'utiliser des échantillons non probabilistes en complément des échantillons probabilistes. Nous examinons le scénario où la variable d’intérêt et les variables auxiliaires sont observées à la fois dans un échantillon probabiliste et un échantillon non probabiliste. Nous cherchons à utiliser les données de l’échantillon non probabiliste pour améliorer l’efficacité des estimations pondérées par les poids d’enquête obtenues à partir de l’échantillon probabiliste. Récemment, Sakshaug, Wisniowski, Ruiz et Blom (2019) et Wisniowski, Sakshaug, Ruiz et Blom (2020) ont proposé une approche bayésienne visant à intégrer les données des deux échantillons aux fins de l’estimation des paramètres du modèle. Dans leur méthode, on utilise les données de l’échantillon non probabiliste pour déterminer la distribution a priori des paramètres du modèle et on obtient la distribution a posteriori en supposant que le plan de sondage probabiliste est ignorable (ou non informatif). Nous étendons cette approche bayésienne à la prédiction de paramètres d’une population finie dans le cadre d’un échantillonnage non ignorable (ou informatif) en nous appuyant sur des statistiques pondérées par des poids d’enquête appropriées. Nous illustrons les propriétés de notre prédicteur au moyen d’une étude par simulations.

    Mots clés : prédiction bayésienne; échantillonnage de Gibbs; échantillonnage non ignorable; intégration des données statistiques.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100006
    Description :

    Dans le contexte de son paradigme « données administratives d’abord », Statistique Canada donne la priorité à l’utilisation de sources autres que les enquêtes pour produire des statistiques officielles. Ce paradigme repose de façon capitale sur des sources autres que les enquêtes pouvant fournir une couverture quasi parfaite de certaines populations cibles, y compris des fichiers administratifs ou des sources de mégadonnées. Toutefois, cette couverture doit être mesurée, en appliquant par exemple la méthode de capture-recapture, selon laquelle les données sont comparées à d’autres sources présentant une bonne couverture des mêmes populations, y compris un recensement. Cependant, il s’agit d’un exercice difficile en présence d’erreurs de couplage, qui surviennent inévitablement lorsque le couplage se fonde sur des quasi-identificateurs, comme cela est généralement le cas. Pour faire face à cet enjeu, une nouvelle méthodologie est décrite, selon laquelle la méthode de capture-recapture est améliorée grâce à un nouveau modèle d’erreur fondé sur le nombre de couplages contigus à un enregistrement donné. Elle est appliquée dans le cadre d’une expérience avec des données publiques de recensement.

    Mots clés : estimation de système dual; appariement de données; couplage d’enregistrements; qualité; intégration des données; mégadonnées.

    Date de diffusion : 2021-10-22

  • Articles et rapports : 82-003-X201601214687
    Description :

    La présente étude donne un aperçu du couplage qui a été effectué entre l’Enquête sur la santé dans les collectivités canadiennes et la Base canadienne de données sur la mortalité. L’article explique le processus de couplage des enregistrements et présente les résultats concernant les associations entre les comportements en matière de santé et la mortalité dans un échantillon représentatif de Canadiens.

    Date de diffusion : 2016-12-21

  • Articles et rapports : 11-522-X201700014743
    Description :

    Le couplage probabiliste est susceptible de donner des erreurs d’appariement telles que les faux positifs et les faux négatifs . Dans de nombreux cas, ces erreurs peuvent être mesurées fiablement par des vérifications manuelles, c’est-à-dire l’inspection visuelle d’un échantillon de paires d’enregistrements pour déterminer si elles sont appariées. Nous décrivons un cadre pour la bonne exécution de ces vérifications qui se fonde sur un échantillon probabiliste de paires, des vérifications indépendantes répétées de mêmes paires et une analyse de classes latentes pour tenir compte des erreurs de vérification manuelle.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201300014265
    Description :

    Le couplage d’enregistrements exact est un outil essentiel à l’exploitation des fichiers administratifs, surtout quand on étudie les relations entre de nombreuses variables qui ne sont pas toutes contenues dans un fichier administratif unique. L’objectif est de trouver des paires d’enregistrements associées à une même personne ou entité. Le résultat est un fichier couplé qui peut être utilisé pour estimer les paramètres de population, y compris les totaux et les ratios. Malheureusement, le processus de couplage est complexe et sujet à erreurs parce qu’il s’appuie habituellement sur des variables d’appariement qui ne sont pas uniques et qui peuvent être consignées avec des erreurs. Par conséquent, le fichier couplé contient des erreurs d’appariement, y compris des appariements incorrects d’enregistrements non apparentés et des appariements manquants d’enregistrements apparentés. Ces erreurs peuvent donner lieu à des estimateurs biaisés s’il n’en est pas tenu compte dans le processus d’estimation. Dans le cadre de travaux antérieurs dans ce domaine, ces erreurs ont été prises en considération au moyen d’hypothèses au sujet de leur distribution. En général, la distribution supposée est en fait une approximation très grossière de la distribution réelle, en raison de la complexité intrinsèque du processus de couplage. Donc, les estimateurs résultants peuvent présenter un biais. Un nouveau cadre méthodologique, fondé sur la théorie classique des sondages, est proposé pour obtenir des estimateurs fondés sur le plan de sondage à partir de fichiers administratifs d’enregistrements couplés. Il comprend trois étapes. Pour commencer, on tire un échantillon probabiliste de paires d’enregistrements. Ensuite, on procède à un examen manuel de toutes les paires échantillonnées. Enfin, on calcule des estimateurs fondés sur le plan de sondage en fonction des résultats de l’examen. Cette méthodologie mène à des estimateurs dont l’erreur d’échantillonnage est fondée sur le plan de sondage, même si le processus repose uniquement sur deux fichiers administratifs. Elle s’écarte des travaux antérieurs s’appuyant sur un modèle et fournit des estimateurs plus robustes. Ce résultat est obtenu en plaçant les examens manuels au coeur du processus d’estimation. Le recours aux examens manuels est essentiel, parce qu’il s’agit de fait d’une norme de référence en ce qui a trait à la qualité des décisions au sujet des appariements. Le cadre proposé peut également être appliqué à l’estimation au moyen de données administratives et de données d’enquête couplées.

    Date de diffusion : 2014-10-31
Stats en bref (0)

Stats en bref (0) (0 résultat)

Aucun contenu disponible actuellement

Articles et rapports (6)

Articles et rapports (6) ((6 résultats))

  • Articles et rapports : 12-001-X202100200002
    Description :

    Dans le couplage d’ensembles de données massifs, on a recours aux pochettes pour sélectionner un sous-ensemble gérable de paires d’enregistrements quitte à perdre quelques paires appariées. Cette perte tient une grande place dans l’erreur de couplage globale, parce que les décisions relatives aux pochettes se prennent tôt dans le processus sans qu’on puisse les réviser par la suite. Mesurer le rôle que joue cette perte demeure un grand défi si on considère la nécessité de modéliser toutes les paires dans le produit cartésien des sources, et non seulement celles qui répondent aux critères des pochettes. Malheureusement, les modèles antérieurs d’erreur ne nous aident guère parce qu’ils ne respectent normalement pas cette exigence. Il sera question ici d’un nouveau modèle de mélange fini, qui ne demande ni vérifications manuelles, ni données d’entraînement, ni hypothèse d’indépendance conditionnelle des variables de couplage. Il s’applique dans le cadre d’une procédure de pochettes typique dans le couplage d’un fichier avec un registre ou un recensement exhaustif lorsque ces deux sources sont exemptes d’enregistrements en double.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 11-522-X202100100008
    Description :

    Les organismes nationaux de statistique étudient de plus en plus la possibilité d'utiliser des échantillons non probabilistes en complément des échantillons probabilistes. Nous examinons le scénario où la variable d’intérêt et les variables auxiliaires sont observées à la fois dans un échantillon probabiliste et un échantillon non probabiliste. Nous cherchons à utiliser les données de l’échantillon non probabiliste pour améliorer l’efficacité des estimations pondérées par les poids d’enquête obtenues à partir de l’échantillon probabiliste. Récemment, Sakshaug, Wisniowski, Ruiz et Blom (2019) et Wisniowski, Sakshaug, Ruiz et Blom (2020) ont proposé une approche bayésienne visant à intégrer les données des deux échantillons aux fins de l’estimation des paramètres du modèle. Dans leur méthode, on utilise les données de l’échantillon non probabiliste pour déterminer la distribution a priori des paramètres du modèle et on obtient la distribution a posteriori en supposant que le plan de sondage probabiliste est ignorable (ou non informatif). Nous étendons cette approche bayésienne à la prédiction de paramètres d’une population finie dans le cadre d’un échantillonnage non ignorable (ou informatif) en nous appuyant sur des statistiques pondérées par des poids d’enquête appropriées. Nous illustrons les propriétés de notre prédicteur au moyen d’une étude par simulations.

    Mots clés : prédiction bayésienne; échantillonnage de Gibbs; échantillonnage non ignorable; intégration des données statistiques.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100006
    Description :

    Dans le contexte de son paradigme « données administratives d’abord », Statistique Canada donne la priorité à l’utilisation de sources autres que les enquêtes pour produire des statistiques officielles. Ce paradigme repose de façon capitale sur des sources autres que les enquêtes pouvant fournir une couverture quasi parfaite de certaines populations cibles, y compris des fichiers administratifs ou des sources de mégadonnées. Toutefois, cette couverture doit être mesurée, en appliquant par exemple la méthode de capture-recapture, selon laquelle les données sont comparées à d’autres sources présentant une bonne couverture des mêmes populations, y compris un recensement. Cependant, il s’agit d’un exercice difficile en présence d’erreurs de couplage, qui surviennent inévitablement lorsque le couplage se fonde sur des quasi-identificateurs, comme cela est généralement le cas. Pour faire face à cet enjeu, une nouvelle méthodologie est décrite, selon laquelle la méthode de capture-recapture est améliorée grâce à un nouveau modèle d’erreur fondé sur le nombre de couplages contigus à un enregistrement donné. Elle est appliquée dans le cadre d’une expérience avec des données publiques de recensement.

    Mots clés : estimation de système dual; appariement de données; couplage d’enregistrements; qualité; intégration des données; mégadonnées.

    Date de diffusion : 2021-10-22

  • Articles et rapports : 82-003-X201601214687
    Description :

    La présente étude donne un aperçu du couplage qui a été effectué entre l’Enquête sur la santé dans les collectivités canadiennes et la Base canadienne de données sur la mortalité. L’article explique le processus de couplage des enregistrements et présente les résultats concernant les associations entre les comportements en matière de santé et la mortalité dans un échantillon représentatif de Canadiens.

    Date de diffusion : 2016-12-21

  • Articles et rapports : 11-522-X201700014743
    Description :

    Le couplage probabiliste est susceptible de donner des erreurs d’appariement telles que les faux positifs et les faux négatifs . Dans de nombreux cas, ces erreurs peuvent être mesurées fiablement par des vérifications manuelles, c’est-à-dire l’inspection visuelle d’un échantillon de paires d’enregistrements pour déterminer si elles sont appariées. Nous décrivons un cadre pour la bonne exécution de ces vérifications qui se fonde sur un échantillon probabiliste de paires, des vérifications indépendantes répétées de mêmes paires et une analyse de classes latentes pour tenir compte des erreurs de vérification manuelle.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201300014265
    Description :

    Le couplage d’enregistrements exact est un outil essentiel à l’exploitation des fichiers administratifs, surtout quand on étudie les relations entre de nombreuses variables qui ne sont pas toutes contenues dans un fichier administratif unique. L’objectif est de trouver des paires d’enregistrements associées à une même personne ou entité. Le résultat est un fichier couplé qui peut être utilisé pour estimer les paramètres de population, y compris les totaux et les ratios. Malheureusement, le processus de couplage est complexe et sujet à erreurs parce qu’il s’appuie habituellement sur des variables d’appariement qui ne sont pas uniques et qui peuvent être consignées avec des erreurs. Par conséquent, le fichier couplé contient des erreurs d’appariement, y compris des appariements incorrects d’enregistrements non apparentés et des appariements manquants d’enregistrements apparentés. Ces erreurs peuvent donner lieu à des estimateurs biaisés s’il n’en est pas tenu compte dans le processus d’estimation. Dans le cadre de travaux antérieurs dans ce domaine, ces erreurs ont été prises en considération au moyen d’hypothèses au sujet de leur distribution. En général, la distribution supposée est en fait une approximation très grossière de la distribution réelle, en raison de la complexité intrinsèque du processus de couplage. Donc, les estimateurs résultants peuvent présenter un biais. Un nouveau cadre méthodologique, fondé sur la théorie classique des sondages, est proposé pour obtenir des estimateurs fondés sur le plan de sondage à partir de fichiers administratifs d’enregistrements couplés. Il comprend trois étapes. Pour commencer, on tire un échantillon probabiliste de paires d’enregistrements. Ensuite, on procède à un examen manuel de toutes les paires échantillonnées. Enfin, on calcule des estimateurs fondés sur le plan de sondage en fonction des résultats de l’examen. Cette méthodologie mène à des estimateurs dont l’erreur d’échantillonnage est fondée sur le plan de sondage, même si le processus repose uniquement sur deux fichiers administratifs. Elle s’écarte des travaux antérieurs s’appuyant sur un modèle et fournit des estimateurs plus robustes. Ce résultat est obtenu en plaçant les examens manuels au coeur du processus d’estimation. Le recours aux examens manuels est essentiel, parce qu’il s’agit de fait d’une norme de référence en ce qui a trait à la qualité des décisions au sujet des appariements. Le cadre proposé peut également être appliqué à l’estimation au moyen de données administratives et de données d’enquête couplées.

    Date de diffusion : 2014-10-31
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :