Aide à l'ordre
entrées

Résultats

Tout (10)

Tout (10) ((10 résultats))

  • Articles et rapports : 11-522-X202200100020
    Description : La réconciliation des logements du recensement de 2021 avec le nouveau Registre statistique des immeubles (RSIm) a présenté des défis de couplage. Le Recensement de la population a recueilli des renseignements sur divers types de logements. Pour une grande partie de la population, les adresses postales, utilisées pour communiquer avec les gens et recueillies comme coordonnées, jouaient un rôle central. Parallèlement, l’environnement des registres a évolué. L’agence passe du Registre des adresses (RA) au Registre statistique des immeubles (RSIm), contenant les adresses postales et les adresses municipales, tout en couvrant les immeubles non résidentiels. La réconciliation a été effectuée à l’aide d’une combinaison de systèmes, notamment le nouveau Moteur d’appariement aux registres (MAR) pour les cas difficiles. Le MAR contient différents comparateurs de chaînes sophistiqués pertinents. Une méthode de couplage déterministe, tout en incorporant certaines connaissances sur les données comme l’entropie, fut employée. Grâce aux métadonnées, les experts en appariement ont aussi pu réduire le nombre de faux positifs et le nombre de faux négatifs.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 46-28-0001202200100001
    Description :

    Lorsqu'une enquête publie des statistiques accompagnées d'un indicateur de qualité, celui-ci est habituellement dérivé à partir de mesures fondées sur la théorie de l'échantillonnage. La production d'indicateurs de qualité représente un défi important lorsque les statistiques sont produites à l'aide de sources alternatives pour lesquelles aucun échantillonnage n'est fait. Ce document décrit une nouvelle méthode utilisée pour créer un indicateur de qualité qui combine des indicateurs obtenus à différentes étapes du traitement des données. Un exemple d'application de la méthode dans le cadre du Programme de la statistique du logement canadien est fourni en annexe.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 11-522-X202100100015
    Description : Les agences nationales de statistique telles que Statistique Canada se doivent de communiquer la qualité de l’information statistique aux utilisateurs. Les méthodes traditionnellement utilisées pour le faire sont fondées sur des mesures de l’erreur d’échantillonnage. Elles ne sont donc pas adaptées aux estimations produites à partir des données administratives pour lesquelles les sources d’erreur principales sont non dues à l’échantillonnage. Une approche plus adaptée à ce contexte pour rapporter la qualité des estimations présentées dans un tableau multidimensionnel est décrite dans cet article. Des indicateurs de qualité ont été dérivés pour diverses étapes de traitement post-acquisition, comme le couplage, le géocodage et l’imputation, par domaine d’estimation. Un algorithme de partitionnement a ensuite servi à regrouper les domaines présentant des niveaux de qualité similaires pour une estimation donnée. Des cotes visant à informer les utilisateurs sur la qualité relative des estimations d’un domaine à l’autre ont été attribuées aux groupes ainsi formés. Cet indicateur, nommé l’indicateur composite de la qualité (ICQ), a été développé et appliqué de façon expérimentale dans le cadre du Programme de la statistique du logement canadien (PSLC) qui a comme objectif la production de statistiques officielles sur le secteur du logement résidentiel au Canada par l’intégration de multiples sources de données administratives.

    Mots Clés : Apprentissage automatique non supervisé, assurance de la qualité, données administratives, intégration des données, partitionnement.

    Date de diffusion : 2021-10-22

  • Articles et rapports : 12-001-X201000211384
    Description :

    Le ralentissement économique aux États-Unis pourrait rendre incertain le maintien de stratégies coûteuses dans les opérations des enquêtes. Dans le Behavioral Risk Factor Surveillance System (BRFSS), une période de collecte de données mensuelle de 31 jours seulement pourrait être une solution de rechange moins coûteuse. Toutefois, elle pourrait exclure une partie des interviews menées après 31 jours (répondants tardifs) et les caractéristiques de ces répondants pourraient être différentes à de nombreux égards de celles des répondants qui ont participé à l'enquête dans les 31 jours (répondants hâtifs). Nous avons tâché de déterminer s'il existe entre les répondants hâtifs et les répondants tardifs des différences d'ordre démographique ou en ce qui a trait à la couverture des soins de santé, à l'état de santé général, aux comportements posant un risque pour la santé et aux maladies ou problèmes de santé chroniques. Nous avons utilisé les données du BRFSS 2007, où un échantillon représentatif de la population adulte aux États-Unis ne vivant pas en établissement a été sélectionné au moyen d'une méthode de composition aléatoire. Les répondants tardifs étaient significativement plus susceptibles d'être de sexe masculin ; de déclarer leur race ou origine ethnique comme étant hispanique ; d'avoir un revenu annuel de plus de 50 000 $ ; d'avoir moins de 45 ans ; d'avoir un niveau de scolarité inférieur au diplôme d'études secondaires ; de bénéficier d'une couverture des soins de santé ; d'être significativement plus susceptibles de déclarer être en bonne santé ; d'être significativement moins susceptibles de déclarer faire de l'hypertension, souffrir de diabète ou être obèses. Les différences observées entre les répondants hâtifs et les répondants tardifs dans les estimations d'enquête pourraient influer à peine sur les estimations nationales et au niveau de l'État. Étant donné que la proportion de répondants tardifs pourrait augmenter à l'avenir, il y a lieu d'examiner son incidence sur les estimations découlant de la surveillance avant de l'exclure de l'analyse. Dans l'analyse portant sur les répondants tardifs, il devrait suffire de combiner plusieurs années de données pour produire des estimations fiables.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X200900211037
    Description :

    Les stratégies fondées sur la réponse aléatoire, qui ont été élaborées au départ à titre de méthodes statistiques destinées à réduire la non-réponse ainsi que la réponse mensongère, peuvent aussi être appliquées dans le domaine du contrôle de la divulgation statistique dans les fichiers de microdonnées à grande diffusion. Le présent article décrit une standardisation des méthodes de réponse aléatoire en vue d'estimer des proportions pour des attributs identificatoires ou sensibles. Les propriétés statistiques de l'estimateur standardisé sont établies dans le cas de l'échantillonnage probabiliste général. Afin d'analyser l'effet du choix des « paramètres de plan » implicites de la méthode sur la performance de l'estimateur, nous incluons dans l'étude des mesures de la protection de la vie privée. Nous obtenons ainsi des paramètres de plan qui optimisent la variance, sachant le niveau de protection de la vie privée. Pour cela, les variables doivent être classées dans diverses catégories de sensibilité. Un exemple fondé sur des données réelles illustre l'application de la méthode à une enquête sur la tricherie chez les étudiants.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X200800210758
    Description :

    Nous proposons une méthode pour estimer la variance des estimateurs des évolutions qui prend en compte toutes les composantes de ceux-ci : le plan de sondage, le traitement des non-réponses, le traitement des grosses entreprises, la corrélation de la non-réponse d'une vague à l'autre, l'effet dû à l'utilisation d'un panel, la robustification et le calage au moyen d'un estimateur par le ratio. Cette méthode, qui permet la détermination d'intervalles de confiance des évolutions, est ensuite appliquée à l'enquête suisse sur la valeur ajoutée.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 12-001-X200800110619
    Description :

    La prédiction sur petits domaines fondée sur des effets aléatoires, appelée (MPLSBE), est une méthode de construction d'estimations pour de petites régions géographiques ou de petites sous populations en utilisant les données d'enquête existantes. Souvent, le total des prédicteurs sur petits domaines est forcé d'être égal à l'estimation par sondage directe et ces prédicteurs sont alors dits calés. Nous passons en revue plusieurs prédicteurs calés et présentons un critère qui unifie leur calcul. Nous dérivons celui qui est l'unique meilleur prédicteur linéaire sans biais sous ce critère et discutons de l'erreur quadratique moyenne des prédicteurs calés. L'imposition de la contrainte comporte implicitement la possibilité que le modèle de petit domaine soit spécifié incorrectement et que les prédicteurs présentent un biais. Nous étudions des modèles augmentés contenant une variable explicative supplémentaire pour lesquels les prédicteurs sur petits domaines ordinaires présentent la propriété d'autocalage. Nous démontrons à l'aide de simulations que les prédicteurs calés ont un biais un peu plus faible que le prédicteur MPLSBE habituel. Cependant, si le biais est une préoccupation, une meilleure approche consiste à utiliser un modèle augmenté contenant une variable auxiliaire supplémentaire qui est fonction de la taille du domaine. Dans les simulations, les prédicteurs fondés sur le modèle augmenté ont une EQM plus petite que MPLSBE quand le modèle incorrect est utilisé pour la prédiction. De surcroît, l'EQM augmente très légèrement comparativement à celle de MPLSBE si la variable auxiliaire est ajoutée au modèle correct.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 11-522-X200600110449
    Description :

    Les bases de données administratives sur les sorties d'hôpital sont traditionnellement utilisées à des fins administratives. Toutefois, les chercheurs oeuvrant dans les domaines des services de santé et de la santé de la population ont récemment utilisé ces bases de données pour réaliser de nombreuses études, notamment sur les soins de santé. Des outils comme les indices de comorbidité ont été élaborés pour faciliter ces analyses. Les indices doivent être mis à jour chaque fois que le système de codage des diagnostics et des procédures est révisé ou qu'un nouveau système est élaboré. Ces mises à jour sont importantes pour garantir la cohérence lorsque des tendances sont examinées au fil du temps.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X20040018743
    Description :

    Pour joindre les sans-abri les plus autonomes, l'INED a suivi les « services itinérants » qui, par opposition aux « services ordinaires », tentent de rejoindre les sans-abri en les visitant là où ils demeurent, la plupart du temps dans des lieux publics.

    Date de diffusion : 2005-10-27

  • Articles et rapports : 11-522-X20030017695
    Description :

    Dans ce document, on propose certaines méthodes en vue de corriger une série désaisonnalisée de sorte que ses totaux annuels correspondent à ceux de la série brute. Ces méthodes sont illustrées au moyen de séries désaisonnalisées obtenues par la méthode X-11-ARIMA ou X-12-ARIMA.

    Date de diffusion : 2005-01-26
Stats en bref (0)

Stats en bref (0) (0 résultat)

Aucun contenu disponible actuellement

Articles et rapports (10)

Articles et rapports (10) ((10 résultats))

  • Articles et rapports : 11-522-X202200100020
    Description : La réconciliation des logements du recensement de 2021 avec le nouveau Registre statistique des immeubles (RSIm) a présenté des défis de couplage. Le Recensement de la population a recueilli des renseignements sur divers types de logements. Pour une grande partie de la population, les adresses postales, utilisées pour communiquer avec les gens et recueillies comme coordonnées, jouaient un rôle central. Parallèlement, l’environnement des registres a évolué. L’agence passe du Registre des adresses (RA) au Registre statistique des immeubles (RSIm), contenant les adresses postales et les adresses municipales, tout en couvrant les immeubles non résidentiels. La réconciliation a été effectuée à l’aide d’une combinaison de systèmes, notamment le nouveau Moteur d’appariement aux registres (MAR) pour les cas difficiles. Le MAR contient différents comparateurs de chaînes sophistiqués pertinents. Une méthode de couplage déterministe, tout en incorporant certaines connaissances sur les données comme l’entropie, fut employée. Grâce aux métadonnées, les experts en appariement ont aussi pu réduire le nombre de faux positifs et le nombre de faux négatifs.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 46-28-0001202200100001
    Description :

    Lorsqu'une enquête publie des statistiques accompagnées d'un indicateur de qualité, celui-ci est habituellement dérivé à partir de mesures fondées sur la théorie de l'échantillonnage. La production d'indicateurs de qualité représente un défi important lorsque les statistiques sont produites à l'aide de sources alternatives pour lesquelles aucun échantillonnage n'est fait. Ce document décrit une nouvelle méthode utilisée pour créer un indicateur de qualité qui combine des indicateurs obtenus à différentes étapes du traitement des données. Un exemple d'application de la méthode dans le cadre du Programme de la statistique du logement canadien est fourni en annexe.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 11-522-X202100100015
    Description : Les agences nationales de statistique telles que Statistique Canada se doivent de communiquer la qualité de l’information statistique aux utilisateurs. Les méthodes traditionnellement utilisées pour le faire sont fondées sur des mesures de l’erreur d’échantillonnage. Elles ne sont donc pas adaptées aux estimations produites à partir des données administratives pour lesquelles les sources d’erreur principales sont non dues à l’échantillonnage. Une approche plus adaptée à ce contexte pour rapporter la qualité des estimations présentées dans un tableau multidimensionnel est décrite dans cet article. Des indicateurs de qualité ont été dérivés pour diverses étapes de traitement post-acquisition, comme le couplage, le géocodage et l’imputation, par domaine d’estimation. Un algorithme de partitionnement a ensuite servi à regrouper les domaines présentant des niveaux de qualité similaires pour une estimation donnée. Des cotes visant à informer les utilisateurs sur la qualité relative des estimations d’un domaine à l’autre ont été attribuées aux groupes ainsi formés. Cet indicateur, nommé l’indicateur composite de la qualité (ICQ), a été développé et appliqué de façon expérimentale dans le cadre du Programme de la statistique du logement canadien (PSLC) qui a comme objectif la production de statistiques officielles sur le secteur du logement résidentiel au Canada par l’intégration de multiples sources de données administratives.

    Mots Clés : Apprentissage automatique non supervisé, assurance de la qualité, données administratives, intégration des données, partitionnement.

    Date de diffusion : 2021-10-22

  • Articles et rapports : 12-001-X201000211384
    Description :

    Le ralentissement économique aux États-Unis pourrait rendre incertain le maintien de stratégies coûteuses dans les opérations des enquêtes. Dans le Behavioral Risk Factor Surveillance System (BRFSS), une période de collecte de données mensuelle de 31 jours seulement pourrait être une solution de rechange moins coûteuse. Toutefois, elle pourrait exclure une partie des interviews menées après 31 jours (répondants tardifs) et les caractéristiques de ces répondants pourraient être différentes à de nombreux égards de celles des répondants qui ont participé à l'enquête dans les 31 jours (répondants hâtifs). Nous avons tâché de déterminer s'il existe entre les répondants hâtifs et les répondants tardifs des différences d'ordre démographique ou en ce qui a trait à la couverture des soins de santé, à l'état de santé général, aux comportements posant un risque pour la santé et aux maladies ou problèmes de santé chroniques. Nous avons utilisé les données du BRFSS 2007, où un échantillon représentatif de la population adulte aux États-Unis ne vivant pas en établissement a été sélectionné au moyen d'une méthode de composition aléatoire. Les répondants tardifs étaient significativement plus susceptibles d'être de sexe masculin ; de déclarer leur race ou origine ethnique comme étant hispanique ; d'avoir un revenu annuel de plus de 50 000 $ ; d'avoir moins de 45 ans ; d'avoir un niveau de scolarité inférieur au diplôme d'études secondaires ; de bénéficier d'une couverture des soins de santé ; d'être significativement plus susceptibles de déclarer être en bonne santé ; d'être significativement moins susceptibles de déclarer faire de l'hypertension, souffrir de diabète ou être obèses. Les différences observées entre les répondants hâtifs et les répondants tardifs dans les estimations d'enquête pourraient influer à peine sur les estimations nationales et au niveau de l'État. Étant donné que la proportion de répondants tardifs pourrait augmenter à l'avenir, il y a lieu d'examiner son incidence sur les estimations découlant de la surveillance avant de l'exclure de l'analyse. Dans l'analyse portant sur les répondants tardifs, il devrait suffire de combiner plusieurs années de données pour produire des estimations fiables.

    Date de diffusion : 2010-12-21

  • Articles et rapports : 12-001-X200900211037
    Description :

    Les stratégies fondées sur la réponse aléatoire, qui ont été élaborées au départ à titre de méthodes statistiques destinées à réduire la non-réponse ainsi que la réponse mensongère, peuvent aussi être appliquées dans le domaine du contrôle de la divulgation statistique dans les fichiers de microdonnées à grande diffusion. Le présent article décrit une standardisation des méthodes de réponse aléatoire en vue d'estimer des proportions pour des attributs identificatoires ou sensibles. Les propriétés statistiques de l'estimateur standardisé sont établies dans le cas de l'échantillonnage probabiliste général. Afin d'analyser l'effet du choix des « paramètres de plan » implicites de la méthode sur la performance de l'estimateur, nous incluons dans l'étude des mesures de la protection de la vie privée. Nous obtenons ainsi des paramètres de plan qui optimisent la variance, sachant le niveau de protection de la vie privée. Pour cela, les variables doivent être classées dans diverses catégories de sensibilité. Un exemple fondé sur des données réelles illustre l'application de la méthode à une enquête sur la tricherie chez les étudiants.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X200800210758
    Description :

    Nous proposons une méthode pour estimer la variance des estimateurs des évolutions qui prend en compte toutes les composantes de ceux-ci : le plan de sondage, le traitement des non-réponses, le traitement des grosses entreprises, la corrélation de la non-réponse d'une vague à l'autre, l'effet dû à l'utilisation d'un panel, la robustification et le calage au moyen d'un estimateur par le ratio. Cette méthode, qui permet la détermination d'intervalles de confiance des évolutions, est ensuite appliquée à l'enquête suisse sur la valeur ajoutée.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 12-001-X200800110619
    Description :

    La prédiction sur petits domaines fondée sur des effets aléatoires, appelée (MPLSBE), est une méthode de construction d'estimations pour de petites régions géographiques ou de petites sous populations en utilisant les données d'enquête existantes. Souvent, le total des prédicteurs sur petits domaines est forcé d'être égal à l'estimation par sondage directe et ces prédicteurs sont alors dits calés. Nous passons en revue plusieurs prédicteurs calés et présentons un critère qui unifie leur calcul. Nous dérivons celui qui est l'unique meilleur prédicteur linéaire sans biais sous ce critère et discutons de l'erreur quadratique moyenne des prédicteurs calés. L'imposition de la contrainte comporte implicitement la possibilité que le modèle de petit domaine soit spécifié incorrectement et que les prédicteurs présentent un biais. Nous étudions des modèles augmentés contenant une variable explicative supplémentaire pour lesquels les prédicteurs sur petits domaines ordinaires présentent la propriété d'autocalage. Nous démontrons à l'aide de simulations que les prédicteurs calés ont un biais un peu plus faible que le prédicteur MPLSBE habituel. Cependant, si le biais est une préoccupation, une meilleure approche consiste à utiliser un modèle augmenté contenant une variable auxiliaire supplémentaire qui est fonction de la taille du domaine. Dans les simulations, les prédicteurs fondés sur le modèle augmenté ont une EQM plus petite que MPLSBE quand le modèle incorrect est utilisé pour la prédiction. De surcroît, l'EQM augmente très légèrement comparativement à celle de MPLSBE si la variable auxiliaire est ajoutée au modèle correct.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 11-522-X200600110449
    Description :

    Les bases de données administratives sur les sorties d'hôpital sont traditionnellement utilisées à des fins administratives. Toutefois, les chercheurs oeuvrant dans les domaines des services de santé et de la santé de la population ont récemment utilisé ces bases de données pour réaliser de nombreuses études, notamment sur les soins de santé. Des outils comme les indices de comorbidité ont été élaborés pour faciliter ces analyses. Les indices doivent être mis à jour chaque fois que le système de codage des diagnostics et des procédures est révisé ou qu'un nouveau système est élaboré. Ces mises à jour sont importantes pour garantir la cohérence lorsque des tendances sont examinées au fil du temps.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X20040018743
    Description :

    Pour joindre les sans-abri les plus autonomes, l'INED a suivi les « services itinérants » qui, par opposition aux « services ordinaires », tentent de rejoindre les sans-abri en les visitant là où ils demeurent, la plupart du temps dans des lieux publics.

    Date de diffusion : 2005-10-27

  • Articles et rapports : 11-522-X20030017695
    Description :

    Dans ce document, on propose certaines méthodes en vue de corriger une série désaisonnalisée de sorte que ses totaux annuels correspondent à ceux de la série brute. Ces méthodes sont illustrées au moyen de séries désaisonnalisées obtenues par la méthode X-11-ARIMA ou X-12-ARIMA.

    Date de diffusion : 2005-01-26
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :