Analyses
Filtrer les résultats par
Aide à la rechercheMot(s)-clé(s)
Sujet
- Sélectionné: Méthodes statistiques (344)
- Analyse des données (35)
- Assurance de la qualité (35)
- Bases de sondage et couverture (10)
- Collecte et questionnaires (32)
- Contrôle de la divulgation et diffusion de données (10)
- Données administratives (22)
- Histoire et contexte (13)
- Inférence et fondements (11)
- Plan de sondage (53)
- Pondération et estimation (112)
- Réponse et non-réponse (44)
- Séries chronologiques (10)
- Simulations (5)
- Techniques statistiques (33)
- Vérification et imputation (27)
- Autre contenu lié aux Méthodes statistiques (12)
Année de publication
- 2002 (27)
- 2009 (23)
- 2008 (20)
- 2005 (16)
- 2007 (15)
- 2016 (15)
- 2004 (12)
- 2015 (12)
- 2019 (11)
- 2024 (11)
- 2021 (10)
- 2001 (9)
- 2000 (8)
- 1994 (7)
- 2003 (7)
- 2013 (7)
- 2020 (7)
- 1995 (6)
- 1997 (6)
- 1998 (6)
- 1999 (6)
- 2006 (6)
- 2010 (6)
- 2014 (6)
- 2022 (6)
- 2023 (6)
- 1988 (5)
- 1991 (5)
- 1992 (5)
- 1993 (5)
- 2012 (5)
- 2017 (5)
- 1978 (4)
- 1980 (4)
- 1985 (4)
- 1986 (4)
- 1987 (4)
- 1990 (4)
- 2011 (4)
- 1989 (3)
- 2018 (3)
- 1979 (2)
- 1981 (2)
- 1996 (2)
- 1982 (1)
- 1983 (1)
- 1984 (1)
Auteur(s)
- Singh, M.P. (20)
- Särndal, Carl-Erik (18)
- Sanmartin, Claudia (16)
- Shields, Margot (12)
- Scheuren, Fritz (10)
- Schouten, Barry (8)
- Shao, Jun (8)
- Scholtus, Sander (7)
- Schenker, Nathaniel (6)
- Skinner, C.J. (6)
- Saidi, Abdelnasser (5)
- Schellenberg, Grant (5)
- Singh, A.C. (5)
- Sitter, Randy R. (5)
- Skinner, Chris (5)
- Smith, Philip (5)
- Stasny, Elizabeth A. (5)
- Scott, Alastair (4)
- Simile, Catherine (4)
- Singh, Avi (4)
- Smith, Paul (4)
- St-Jean, Hélène (4)
- Steel, David G. (4)
- Saigo, Hiroshi (3)
- Schiopu-Kratina, Ioana (3)
- Sedransk, Joseph (3)
- Shlomo, Natalie (3)
- Simard-Duplain, Gaëlle (3)
- Sinclair, Michael D. (3)
- Singh, Sarjinder (3)
- Sirken, Monroe G. (3)
- Stafford, Janine (3)
- Stukel, Diana (3)
- Swain, Larry (3)
- Sande, Innis G. (2)
- Scanu, Mauro (2)
- Schimmele, Christoph (2)
- Schmeets, Hans (2)
- Schulte Nordholt, Eric (2)
- Scott, A.J. (2)
- Seko, Craig (2)
- Selby, Peter (2)
- Servais, Jennifer (2)
- Shimizu, I. (2)
- Sigman, Richard (2)
- Simon, Patricia (2)
- Slanta, John (2)
- Smeets, Marc J.E. (2)
- Smith, Paul A. (2)
- Smith, Philip J. (2)
- Smith, T.M.F. (2)
- Solenberger, P. (2)
- Spencer, Bruce D. (2)
- Spielauer, Martin (2)
- Srivastava, A.K. (2)
- St-Denis, Xavier (2)
- Steel, D.G. (2)
- Stefan, Marius (2)
- Stephens, Thomas (2)
- Stout, Natasha K. (2)
- Stussman, Barbara J. (2)
- Sutradhar, Brajendra (2)
- Swanson, David A. (2)
- Swires-Hennessy, Ed (2)
- Saegusa, Takumi (1)
- Salamin, Paul-André (1)
- Salvati, Nicola (1)
- Sambell, Christie (1)
- Samii, Cyrus (1)
- Sammar, Muhanad (1)
- Sanil, Ashish (1)
- Santos, Aurélie (1)
- Santos, Benjamin (1)
- Santos, M.J. (1)
- Sarter, Hélène (1)
- Satin, A. (1)
- Sattaluri, Sridevi (1)
- Sautory, Olivier (1)
- Savio, Giovanni (1)
- Sawada, Mike (1)
- Saxena, B.C. (1)
- Sayit, Hasanjan (1)
- Scannapieco, Monica (1)
- Schaan, Susan (1)
- Schabenberger, Oliver (1)
- Schafer, Joseph L. (1)
- Schierholz, Malte (1)
- Schiltz, Marie-Ange (1)
- Schipper, Mark A. (1)
- Schmidt, Christine (1)
- Schnell, Dan (1)
- Schonlau, Matthias (1)
- Schoua-Glusberg, Alisu (1)
- Schreuder, H.T. (1)
- Schultz, L.K. (1)
- Schulze Waltrup, Linda (1)
- Schut, C.M. (1)
- Schwartz, Deborah (1)
- Scott, Charles T. (1)
- Searson, Michael (1)
- Seastrom, Marilyn (1)
- Sen, Aditi (1)
- Settersten, Richard A. (1)
- Shaffer, Juliet Popper (1)
- Shahid, Maaz (1)
- Shapiro, G. (1)
- Shapka, Jennifer D. (1)
- Sharma, Raghubar D. (1)
- Sharp, Jeff S. (1)
- Sharp, Katie (1)
- Shen, Kailing (1)
- Sheppard, Amanda J. (1)
- Sheriff, Steven L. (1)
- Shipsey, Rachel (1)
- Shon, Aelee (1)
- Shrestha, Laura B. (1)
- Shukla, Girja Kant (1)
- Si, Yajuan (1)
- Signore, Marina (1)
- Silberstein, Adriana R. (1)
- Silva Semaan, Gustavo (1)
- Silva, D.B.N. (1)
- Simard, Michelle (1)
- Simard, Éric (1)
- Simeoni, Giorgia (1)
- Sinclair, Amanda (1)
- Singh, Bharat Bhushan (1)
- Singh, K.K. (1)
- Singh, R. (1)
- Singh, S. (1)
- Sinha, Karabi (1)
- Sinha, Samiran (1)
- Skinner, T.J. (1)
- Skuterud, Mikal (1)
- Slud, Eric (1)
- Small, Cheryl (1)
- Smith, Aidan D. (1)
- Smith, Phil (1)
- Smith, Tom W. (1)
- Snow, Austin (1)
- Snow, R.W. (1)
- Solari, Fabrizio (1)
- Solomon, Binyam (1)
- Soodeen, Ruth-Ann (1)
- Souza, Debora F. (1)
- Spackman, William (1)
- Spear, J. (1)
- Spisak, A.W. (1)
- Srinath, K.P. (1)
- Srivastava, M.S. (1)
- St-Cyr, Patrick (1)
- St-Denis, Marc (1)
- St-Pierre, Sylvie (1)
- Staisey, Nancy (1)
- Steenberg, Pat (1)
- Steiner, Ilka (1)
- Stelmack, Andrew (1)
- Stempowski, Deborah (1)
- Stephens, Andrew (1)
- Stettler, Kristin (1)
- Stevens, Philip R. (1)
- Stewart, Jay (1)
- Stewart, Moira (1)
- Stewart, Robert T. (1)
- Stokes, Lynne (1)
- Storey, Susan (1)
- Strief, Jeremy (1)
- Stroh, George (1)
- Struble, Robert E. (1)
- Studds, Stephanie (1)
- Stukel, Therese A. (1)
- Ståhl, Göran (1)
- Su, Ling (1)
- Subedi, Rajendra (1)
- Succi, Raffaella (1)
- Suchindran, C.M. (1)
- Sullivan, Gary (1)
- Sun, Dongchu (1)
- Sunter, Alan (1)
- Svensson, Jörgen (1)
- Sverchkov, Michail (1)
- Sweeney, D.J. (1)
- Sykes, W.M. (1)
- Söhler, Emily (1)
- Sélectionné: S (344)
Enquête ou programme statistique
- Enquête sur la santé dans les collectivités canadiennes - Composante annuelle (3)
- Enquête canadienne sur les mesures de la santé (3)
- Étude longitudinale et internationale des adultes (3)
- Enquête sur la dynamique du travail et du revenu (2)
- Comptes du bilan national (1)
- Enquête nationale sur la santé de la population : Volet ménages, longitudinal (1)
- Enquête auprès des peuples autochtones (1)
- Enquête sur l'innovation (1)
- Enquête longitudinale auprès des immigrants du Canada (1)
- Enquête longitudinale nationale sur les enfants et les jeunes (1)
Résultats
Tout (344)
Tout (344) (0 à 10 de 344 résultats)
- Articles et rapports : 12-001-X202400100006Description : Dans certains articles sur les échantillons non probabilistes, l’hypothèse de l’échangeabilité conditionnelle est jugée nécessaire pour une inférence statistique valide. Cette hypothèse repose sur une inférence causale, bien que son cadre de résultat potentiel diffère grandement de celui des échantillons non probabilistes. Nous décrivons les similitudes et les différences entre deux cadres et abordons les enjeux à prendre en considération lors de l’adoption de l’hypothèse d’échangeabilité conditionnelle dans les configurations d’échantillons non probabilistes. Nous examinons aussi le rôle de l’inférence de la population finie dans différentes approches de scores de propension et de modélisation de régression des résultats à l’égard des échantillons non probabilistes.Date de diffusion : 2024-06-25
- Articles et rapports : 12-001-X202400100010Description : La présente analyse résume les nouvelles constatations intéressantes de Kennedy, Mercer et Lau (KML) sur les erreurs de mesure dans les enquêtes à participation volontaire. Alors que KML éclairent les lecteurs au sujet des « fausses réponses » et des tendances qui peuvent s’y rattacher, cette analyse propose de combiner ces nouveaux résultats avec d’autres pistes de recherche sur l’échantillonnage non probabiliste, comme l’amélioration de la représentativité.Date de diffusion : 2024-06-25
- Articles et rapports : 11-522-X202200100001Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.Date de diffusion : 2024-03-25
- 4. Étude de cas de l’utilisation de Splink : couplage du recensement pour trouver des doublons ArchivéArticles et rapports : 11-522-X202200100002Description : Les auteures ont utilisé le progiciel de couplage probabiliste Splink mis au point par le ministère de la Justice du Royaume-Uni pour relier les données du recensement de l’Angleterre et du pays de Galles à elles-mêmes afin de trouver des réponses en double au recensement. Un grand ensemble étalon-or des doublons confirmés du recensement était disponible, ce qui signifiait que la qualité des résultats de la mise en œuvre de Splink pouvait être assurée. Le présent article décrit la mise en œuvre et les fonctionnalités de Splink, donne des détails sur les configurations et les paramètres que nous avons utilisés pour ajuster Splink à notre projet en particulier, et donne les résultats que nous avons obtenus.Date de diffusion : 2024-03-25
- Articles et rapports : 11-522-X202200100007Description : Dans le contexte de la disponibilité de sources de données plus vastes et plus diverses, les instituts statistiques en Europe sont enclins à publier des statistiques sur des groupes plus petits qu’auparavant. En outre, des épisodes mondiaux à forte incidence, comme la crise de la COVID-19 et la situation en Ukraine, peuvent également nécessiter des statistiques sur des sous-groupes particuliers de personnes. La publication de données concernant de petits groupes ciblés soulève non seulement des questions sur la qualité statistique des chiffres, mais aussi sur le risque de divulgation statistique. Le principe du contrôle de la divulgation statistique ne dépend pas de la taille des groupes sur lesquels les statistiques sont basées. Cependant, le risque de divulgation dépend de la taille du groupe : plus un groupe est petit, plus le risque est élevé. Les méthodes classiques de gestion du contrôle de la divulgation statistique lorsque la taille des groupes est réduite comprennent la suppression de données et le regroupement des catégories. Pour l’essentiel, ces méthodes consistent à augmenter la taille (moyenne) des groupes. Des approches plus récentes incluent des méthodes de perturbation des données visant à maintenir des groupes de petite taille pour préserver le plus d’information possible, tout en réduisant suffisamment le risque de divulgation. Dans le présent article, nous mentionnerons quelques exemples européens de statistiques sur des groupes types présentant un intérêt particulier et évoquerons les implications sur le contrôle de la divulgation statistique. Nous aborderons, en outre, certains problèmes liés à l’utilisation de méthodes de perturbation des données, à savoir leur incidence sur le risque de divulgation et sur l’utilité, ainsi que les défis liés à une bonne communication à ce sujet.Date de diffusion : 2024-03-25
- 6. Modélisation de la mesure intra-annuelle dans les données administratives et d’enquête couplées ArchivéArticles et rapports : 11-522-X202200100012Description : Au Bureau central de la statistique des Pays-Bas (CBS), pour certains secteurs économiques, deux séries d’indices de chiffre d’affaires intra-annuels partiellement indépendantes sont disponibles : une série mensuelle fondée sur des données d’enquête et une série trimestrielle fondée sur les données de la taxe sur la valeur ajoutée pour les petites unités et sur des données d’enquête réutilisées pour les autres unités. Le CBS vise à étalonner la série mensuelle d’indices de chiffre d’affaires aux données trimestrielles du recensement à une fréquence trimestrielle. Pour l’heure, cela n’est pas réalisable, car les données fiscales ont une distribution trimestrielle différente, le chiffre d’affaires étant relativement grand au quatrième trimestre de l’année et plus faible au premier trimestre. Dans la présente étude, nous cherchons à décrire cette tendance trimestrielle présentant un écart au niveau micro. Nous avons élaboré auparavant un modèle de mélange utilisant des niveaux de chiffre d’affaires absolus pouvant expliquer en partie les distributions trimestrielles. Étant donné que les niveaux de chiffre d’affaires absolus diffèrent entre les deux séries, nous utilisons dans la présente étude un modèle fondé sur les niveaux de chiffre d’affaires trimestriels relatifs au cours d’une année.Date de diffusion : 2024-03-25
- Articles et rapports : 11-522-X202200100016Description : Pour pallier les défauts classiques des méthodes par chainage, la méthode d'échantillonnage appelée « Network sampling with memory » a été développée. Sa particularité est de recréer, au fil du terrain, une base de sondage de la population cible composée des personnes citées par les répondants et de tirer aléatoirement les futurs enquêtés dans cette base, minimisant ainsi les biais de sélection. Expérimentée pour la première fois en France entre septembre 2020 et juin 2021 dans le cadre d'une enquête auprès des immigrés chinois en Ile-de-France (ChIPRe), cette présentation est une restitution des difficultés rencontrées lors de la collecte, parfois contextuelles, en raison de la pandémie, mais pour la plupart inhérentes à la méthode.Date de diffusion : 2024-03-25
- 8. Intégration des données existantes pour élaborer un indicateur d’ethnicité dans le cadre du PEDSL ArchivéArticles et rapports : 11-522-X202200100018Description : Le Programme d'élaboration de données sociales longitudinales (PEDSL) est une approche d'intégration des données sociales destinée à fournir des opportunités analytiques longitudinales sans imposer un fardeau de réponse supplémentaire aux répondants. Le PEDSL tire parti d'une multitude de signaux qui proviennent de différentes sources de données pour la même personne, ce qui permet de mieux comprendre leurs interactions et de suivre l'évolution dans le temps. Cet article traitera de la façon dont le statut d'ethnicité des personnes au Canada peut être estimé au niveau désagrégé le plus détaillé possible en utilisant les résultats d'une variété de règles opérationnelles appliquées aux données déjà appariées et au dénominateur du PEDSL puis montrera comment des améliorations ont pu être obtenues en utilisant des méthodes d'apprentissage automatique telles que des arbres de décision et des techniques de forêt aléatoire.Date de diffusion : 2024-03-25
- 9. Méthode d’estimation de l’effet des erreurs de classification sur les statistiques de deux domainesArticles et rapports : 12-001-X202300200002Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.Date de diffusion : 2024-01-03
- Articles et rapports : 12-001-X202300200010Description : Les méthodes de coordination d’échantillons visent à augmenter (dans une coordination positive) ou à diminuer (dans une coordination négative) la taille du chevauchement entre les échantillons. Les échantillons pris en compte peuvent être tirés à différentes périodes d’une enquête répétée ou de différentes enquêtes portant sur une population commune. La coordination négative est utilisée pour contrôler le fardeau de réponse au cours d’une période donnée, car certaines unités ne répondent pas aux questionnaires d’enquête si elles sont sélectionnées dans de nombreux échantillons. Habituellement, les méthodes de coordination d’échantillons ne tiennent pas compte des mesures du fardeau de réponse qu’une unité a déjà supporté pour répondre à des enquêtes précédentes. Nous ajoutons une telle mesure dans une nouvelle méthode en adaptant un schéma d’échantillonnage spatialement équilibré basé sur une généralisation de l’échantillonnage de Poisson, de concert avec une méthode de coordination négative. Le but est de créer un double contrôle du fardeau pour ces unités : en utilisant une mesure du fardeau pendant le processus d’échantillonnage et en utilisant une méthode de coordination négative. Nous évaluons l’approche au moyen d’une simulation de Monte Carlo et examinons son utilisation aux fins de contrôle pour la sélection de « points chauds » dans les enquêtes-entreprises à Statistique Pays-Bas.Date de diffusion : 2024-01-03
- Précédent Go to previous page of Tout results
- 1 (actuel) Aller à la page 1 des résultats «!tag»
- 2 Aller à la page 2 des résultats «!tag»
- 3 Aller à la page 3 des résultats «!tag»
- 4 Aller à la page 4 des résultats «!tag»
- 5 Aller à la page 5 des résultats «!tag»
- 6 Aller à la page 6 des résultats «!tag»
- 7 Aller à la page 7 des résultats «!tag»
- ...
- 35 Aller à la page 35 des résultats «!tag»
- Suivant Go to next page of Tout results
Stats en bref (2)
Stats en bref (2) ((2 résultats))
- Stats en bref : 89-20-00062023001Description : Ce cours s’adresse aux employés du gouvernement du Canada qui veulent apprendre à évaluer la qualité des données pour un usage particulier. Que vous soyez un employé souhaitant apprendre les bases du sujet ou un spécialiste du domaine cherchant à perfectionner ses compétences, ce cours pourra vous être utile.Date de diffusion : 2023-07-17
- 2. Statistiques 101 : intervalles de confiance ArchivéStats en bref : 89-20-00062022003Description :
À la fin de cette vidéo, vous comprendrez ce que sont les intervalles de confiance, pourquoi nous les utilisons et quels facteurs ont un impact sur eux.
Date de diffusion : 2022-05-24
Articles et rapports (339)
Articles et rapports (339) (0 à 10 de 339 résultats)
- Articles et rapports : 12-001-X202400100006Description : Dans certains articles sur les échantillons non probabilistes, l’hypothèse de l’échangeabilité conditionnelle est jugée nécessaire pour une inférence statistique valide. Cette hypothèse repose sur une inférence causale, bien que son cadre de résultat potentiel diffère grandement de celui des échantillons non probabilistes. Nous décrivons les similitudes et les différences entre deux cadres et abordons les enjeux à prendre en considération lors de l’adoption de l’hypothèse d’échangeabilité conditionnelle dans les configurations d’échantillons non probabilistes. Nous examinons aussi le rôle de l’inférence de la population finie dans différentes approches de scores de propension et de modélisation de régression des résultats à l’égard des échantillons non probabilistes.Date de diffusion : 2024-06-25
- Articles et rapports : 12-001-X202400100010Description : La présente analyse résume les nouvelles constatations intéressantes de Kennedy, Mercer et Lau (KML) sur les erreurs de mesure dans les enquêtes à participation volontaire. Alors que KML éclairent les lecteurs au sujet des « fausses réponses » et des tendances qui peuvent s’y rattacher, cette analyse propose de combiner ces nouveaux résultats avec d’autres pistes de recherche sur l’échantillonnage non probabiliste, comme l’amélioration de la représentativité.Date de diffusion : 2024-06-25
- Articles et rapports : 11-522-X202200100001Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.Date de diffusion : 2024-03-25
- 4. Étude de cas de l’utilisation de Splink : couplage du recensement pour trouver des doublons ArchivéArticles et rapports : 11-522-X202200100002Description : Les auteures ont utilisé le progiciel de couplage probabiliste Splink mis au point par le ministère de la Justice du Royaume-Uni pour relier les données du recensement de l’Angleterre et du pays de Galles à elles-mêmes afin de trouver des réponses en double au recensement. Un grand ensemble étalon-or des doublons confirmés du recensement était disponible, ce qui signifiait que la qualité des résultats de la mise en œuvre de Splink pouvait être assurée. Le présent article décrit la mise en œuvre et les fonctionnalités de Splink, donne des détails sur les configurations et les paramètres que nous avons utilisés pour ajuster Splink à notre projet en particulier, et donne les résultats que nous avons obtenus.Date de diffusion : 2024-03-25
- Articles et rapports : 11-522-X202200100007Description : Dans le contexte de la disponibilité de sources de données plus vastes et plus diverses, les instituts statistiques en Europe sont enclins à publier des statistiques sur des groupes plus petits qu’auparavant. En outre, des épisodes mondiaux à forte incidence, comme la crise de la COVID-19 et la situation en Ukraine, peuvent également nécessiter des statistiques sur des sous-groupes particuliers de personnes. La publication de données concernant de petits groupes ciblés soulève non seulement des questions sur la qualité statistique des chiffres, mais aussi sur le risque de divulgation statistique. Le principe du contrôle de la divulgation statistique ne dépend pas de la taille des groupes sur lesquels les statistiques sont basées. Cependant, le risque de divulgation dépend de la taille du groupe : plus un groupe est petit, plus le risque est élevé. Les méthodes classiques de gestion du contrôle de la divulgation statistique lorsque la taille des groupes est réduite comprennent la suppression de données et le regroupement des catégories. Pour l’essentiel, ces méthodes consistent à augmenter la taille (moyenne) des groupes. Des approches plus récentes incluent des méthodes de perturbation des données visant à maintenir des groupes de petite taille pour préserver le plus d’information possible, tout en réduisant suffisamment le risque de divulgation. Dans le présent article, nous mentionnerons quelques exemples européens de statistiques sur des groupes types présentant un intérêt particulier et évoquerons les implications sur le contrôle de la divulgation statistique. Nous aborderons, en outre, certains problèmes liés à l’utilisation de méthodes de perturbation des données, à savoir leur incidence sur le risque de divulgation et sur l’utilité, ainsi que les défis liés à une bonne communication à ce sujet.Date de diffusion : 2024-03-25
- 6. Modélisation de la mesure intra-annuelle dans les données administratives et d’enquête couplées ArchivéArticles et rapports : 11-522-X202200100012Description : Au Bureau central de la statistique des Pays-Bas (CBS), pour certains secteurs économiques, deux séries d’indices de chiffre d’affaires intra-annuels partiellement indépendantes sont disponibles : une série mensuelle fondée sur des données d’enquête et une série trimestrielle fondée sur les données de la taxe sur la valeur ajoutée pour les petites unités et sur des données d’enquête réutilisées pour les autres unités. Le CBS vise à étalonner la série mensuelle d’indices de chiffre d’affaires aux données trimestrielles du recensement à une fréquence trimestrielle. Pour l’heure, cela n’est pas réalisable, car les données fiscales ont une distribution trimestrielle différente, le chiffre d’affaires étant relativement grand au quatrième trimestre de l’année et plus faible au premier trimestre. Dans la présente étude, nous cherchons à décrire cette tendance trimestrielle présentant un écart au niveau micro. Nous avons élaboré auparavant un modèle de mélange utilisant des niveaux de chiffre d’affaires absolus pouvant expliquer en partie les distributions trimestrielles. Étant donné que les niveaux de chiffre d’affaires absolus diffèrent entre les deux séries, nous utilisons dans la présente étude un modèle fondé sur les niveaux de chiffre d’affaires trimestriels relatifs au cours d’une année.Date de diffusion : 2024-03-25
- Articles et rapports : 11-522-X202200100016Description : Pour pallier les défauts classiques des méthodes par chainage, la méthode d'échantillonnage appelée « Network sampling with memory » a été développée. Sa particularité est de recréer, au fil du terrain, une base de sondage de la population cible composée des personnes citées par les répondants et de tirer aléatoirement les futurs enquêtés dans cette base, minimisant ainsi les biais de sélection. Expérimentée pour la première fois en France entre septembre 2020 et juin 2021 dans le cadre d'une enquête auprès des immigrés chinois en Ile-de-France (ChIPRe), cette présentation est une restitution des difficultés rencontrées lors de la collecte, parfois contextuelles, en raison de la pandémie, mais pour la plupart inhérentes à la méthode.Date de diffusion : 2024-03-25
- 8. Intégration des données existantes pour élaborer un indicateur d’ethnicité dans le cadre du PEDSL ArchivéArticles et rapports : 11-522-X202200100018Description : Le Programme d'élaboration de données sociales longitudinales (PEDSL) est une approche d'intégration des données sociales destinée à fournir des opportunités analytiques longitudinales sans imposer un fardeau de réponse supplémentaire aux répondants. Le PEDSL tire parti d'une multitude de signaux qui proviennent de différentes sources de données pour la même personne, ce qui permet de mieux comprendre leurs interactions et de suivre l'évolution dans le temps. Cet article traitera de la façon dont le statut d'ethnicité des personnes au Canada peut être estimé au niveau désagrégé le plus détaillé possible en utilisant les résultats d'une variété de règles opérationnelles appliquées aux données déjà appariées et au dénominateur du PEDSL puis montrera comment des améliorations ont pu être obtenues en utilisant des méthodes d'apprentissage automatique telles que des arbres de décision et des techniques de forêt aléatoire.Date de diffusion : 2024-03-25
- 9. Méthode d’estimation de l’effet des erreurs de classification sur les statistiques de deux domainesArticles et rapports : 12-001-X202300200002Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.Date de diffusion : 2024-01-03
- Articles et rapports : 12-001-X202300200010Description : Les méthodes de coordination d’échantillons visent à augmenter (dans une coordination positive) ou à diminuer (dans une coordination négative) la taille du chevauchement entre les échantillons. Les échantillons pris en compte peuvent être tirés à différentes périodes d’une enquête répétée ou de différentes enquêtes portant sur une population commune. La coordination négative est utilisée pour contrôler le fardeau de réponse au cours d’une période donnée, car certaines unités ne répondent pas aux questionnaires d’enquête si elles sont sélectionnées dans de nombreux échantillons. Habituellement, les méthodes de coordination d’échantillons ne tiennent pas compte des mesures du fardeau de réponse qu’une unité a déjà supporté pour répondre à des enquêtes précédentes. Nous ajoutons une telle mesure dans une nouvelle méthode en adaptant un schéma d’échantillonnage spatialement équilibré basé sur une généralisation de l’échantillonnage de Poisson, de concert avec une méthode de coordination négative. Le but est de créer un double contrôle du fardeau pour ces unités : en utilisant une mesure du fardeau pendant le processus d’échantillonnage et en utilisant une méthode de coordination négative. Nous évaluons l’approche au moyen d’une simulation de Monte Carlo et examinons son utilisation aux fins de contrôle pour la sélection de « points chauds » dans les enquêtes-entreprises à Statistique Pays-Bas.Date de diffusion : 2024-01-03
- Précédent Go to previous page of Articles et rapports results
- 1 (actuel) Aller à la page 1 des résultats «!tag»
- 2 Aller à la page 2 des résultats «!tag»
- 3 Aller à la page 3 des résultats «!tag»
- 4 Aller à la page 4 des résultats «!tag»
- 5 Aller à la page 5 des résultats «!tag»
- 6 Aller à la page 6 des résultats «!tag»
- 7 Aller à la page 7 des résultats «!tag»
- ...
- 34 Aller à la page 34 des résultats «!tag»
- Suivant Go to next page of Articles et rapports results
Revues et périodiques (3)
Revues et périodiques (3) ((3 résultats))
- Revues et périodiques : 12-605-XDescription :
Le Modèle du processus d'un projet de couplage d'enregistrements (MPPCE) a été développé par Statistique Canada pour identifier les processus et les activités mis en œuvres dans des projets de couplage d'enregistrements. Le MPPCE s'applique aux projets menés aux niveaux tant individuel que de l'entreprise en utilisant diverses sources de données pour créer des nouvelles sources de données.
Date de diffusion : 2017-06-05 - Revues et périodiques : 89-639-XGéographie : CanadaDescription :
Vers la fin de 2006, la Division de la statistique sociale et autochtone de Statistique Canada a amorcé le processus d'examen des questions utilisées dans le Recensement et dans les enquêtes pour produire des données sur les Autochtones (Indiens de l'Amérique du Nord, Métis et Inuits). Cet examen est essentiel si l'on veut garantir que les questions d'identification autochtone constituent, dans le contexte contemporain, des mesures valables de l'identité autochtone, dans toute sa complexité. Les questions suivantes ont été examinées (elles ont été tirées du questionnaire 2B du recensement) :- question sur l'origine ethnique / ascendance autochtone;- question sur l'identité autochtone;- question sur les Indiens des traités / Indiens inscrits;- question sur l'appartenance à une bande indienne / Première Nation.
On a effectué d'autres essais des questions du recensement avec diverses options de réponse : la question sur le groupe de population (qui désigne également les minorités visibles) et la question sur la religion. Jusqu'ici, le processus d'examen s'est déroulé en deux étapes : discussions régionales avec les utilisateurs des données et les intervenants, et essais qualitatifs. Au début de 2007, on a tenu des discussions régionales avec plus de 350 utilisateurs de données autochtones à l'étendue du Canada, afin d'examiner les quatre questions figurant dans le recensement et dans d'autres enquêtes de Statistique Canada. Les utilisateurs des données comprenaient des organisations autochtones nationales, des organisations autochtones provinciales et territoriales, des administrations fédérales, provinciales et locales, des chercheurs et d'autres organismes de services autochtones. Les commentaires des utilisateurs ont révélé que les aspects qui les préoccupaient le plus étaient la qualité des données, le sous-dénombrement, le libellé des questions, et l'importance de la comparabilité au fil du temps.
Date de diffusion : 2009-04-17 - 3. Rapport sur les discussions régionales à propos des questions d'identification autochtone ArchivéRevues et périodiques : 89-629-XGéographie : CanadaDescription :
Statistique Canada révise régulièrement les questions utilisées dans le recensement et dans d'autres enquêtes pour veiller à ce que les données obtenues soient représentatives de la population. À la première étape du processus d'examen des questions utilisées pour produire des données sur les membres des Premières Nations, les Inuits et les Métis, plus de 350 utilisateurs des données sur les Autochtones ont participé aux discussions régionales, à plus de 40 endroits dans l'ensemble du Canada, pendant l'hiver, le printemps et le début de l'été de 2007.
Le présent rapport résume les principaux problèmes soulevés lors de ces réunions. Au cours des discussions, on a examiné quatre questions utilisées pour identifier les Autochtones.
Date de diffusion : 2008-05-27
- Date de modification :