Analyses
Filtrer les résultats par
Search HelpMot(s)-clé(s)
Auteur(s)
Enquête ou programme statistique
Résultats
Tout (3)
Tout (3) ((3 results))
- Articles et rapports : 11-522-X202500100019Description : Le couplage d'enregistrements exact et efficace s'avère crucial pour veiller à ce que le Registre statistique des entreprises (RSE) de Statistique Canada soit exhaustif et actuel. Le couplage de listes externes d'entreprises au RSE selon le nom présente des défis sur le plan méthodologique et des calculs, surtout au fur et à mesure que les volumes de données augmentent. Le présent article décrit une méthodologie évolutive qui se fonde sur des techniques d'établissement de blocs pour limiter l'espace de recherche informatique, et intègre de multiples mesures de similarité, des distances d'édition et du chevauchement de n-grammes aux méthodes fondées sur la vectorisation utilisant Sentence-BERT (SBERT), afin de déceler les paires appariées probables. En jumelant des comparaisons simples au niveau des caractères à des méthodes de vectorisation sémantique plus avancées, l'approche peut s'adapter à diverses conventions nominales et différents degrés de complexité. Même si cela ne garantit pas une précision supérieure dans toutes les situations, cette méthode offre un équilibre pragmatique entre la faisabilité des calculs et la qualité du couplage.Date de diffusion : 2025-09-08
- Articles et rapports : 12-001-X201800254957Description :
Lorsqu’une méthode d’imputation linéaire est utilisée pour corriger la non-réponse, et sous certaines hypothèses, on peut attribuer au niveau des unités non-répondantes la variance totale. L’imputation linéaire n’est pas aussi restrictive qu’il n’y paraît car les méthodes les plus populaires comme l’imputation par ratio; donneur; moyenne et valeur auxiliaire sont toutes des méthodes d’imputation linéaires. Le cadre théorique ainsi que l’expression donnant la décomposition de la variance due à la non-réponse au niveau de l’unité seront présentés. Des résultats par simulation seront aussi présentés. Cette décomposition peut être utilisée pour prioriser le suivi de non-réponse, prioriser les corrections manuelles ou simplement orienter l’analyse des données.
Date de diffusion : 2018-12-20 - 3. Contourner une difference de concepts entre deux sources de données pour la production d'estimations ArchivéArticles et rapports : 11-522-X20050019481Description :
L'Enquête sur l'emploi, la rémunération et les heures est une enquête mensuelle utilisant deux sources de données, soit un recensement de dossiers administratifs et une enquête auprès d'établissements. Les données d'enquête permettent de construire des modèles qui servent à imputer massivement un éventail de variables dérivées sur la source administrative. Ce plan de sondage repose sur le fait que les concepts d'emploi et de paye mensuelle brute sont les mêmes sur les deux sources. Dans cette présentation, nous décrirons différentes solutions apportées au plan de sondage et au modèle d'imputation massive pour permettre de contourner cette différence de concepts et ainsi produire des estimations plus stables dans le temps. Des résultats sur l'estimation des gains hebdomadaires moyens à l'aide des différents scénarios complèteront l'exposé.
Date de diffusion : 2007-03-02
Articles et rapports (3)
Articles et rapports (3) ((3 results))
- Articles et rapports : 11-522-X202500100019Description : Le couplage d'enregistrements exact et efficace s'avère crucial pour veiller à ce que le Registre statistique des entreprises (RSE) de Statistique Canada soit exhaustif et actuel. Le couplage de listes externes d'entreprises au RSE selon le nom présente des défis sur le plan méthodologique et des calculs, surtout au fur et à mesure que les volumes de données augmentent. Le présent article décrit une méthodologie évolutive qui se fonde sur des techniques d'établissement de blocs pour limiter l'espace de recherche informatique, et intègre de multiples mesures de similarité, des distances d'édition et du chevauchement de n-grammes aux méthodes fondées sur la vectorisation utilisant Sentence-BERT (SBERT), afin de déceler les paires appariées probables. En jumelant des comparaisons simples au niveau des caractères à des méthodes de vectorisation sémantique plus avancées, l'approche peut s'adapter à diverses conventions nominales et différents degrés de complexité. Même si cela ne garantit pas une précision supérieure dans toutes les situations, cette méthode offre un équilibre pragmatique entre la faisabilité des calculs et la qualité du couplage.Date de diffusion : 2025-09-08
- Articles et rapports : 12-001-X201800254957Description :
Lorsqu’une méthode d’imputation linéaire est utilisée pour corriger la non-réponse, et sous certaines hypothèses, on peut attribuer au niveau des unités non-répondantes la variance totale. L’imputation linéaire n’est pas aussi restrictive qu’il n’y paraît car les méthodes les plus populaires comme l’imputation par ratio; donneur; moyenne et valeur auxiliaire sont toutes des méthodes d’imputation linéaires. Le cadre théorique ainsi que l’expression donnant la décomposition de la variance due à la non-réponse au niveau de l’unité seront présentés. Des résultats par simulation seront aussi présentés. Cette décomposition peut être utilisée pour prioriser le suivi de non-réponse, prioriser les corrections manuelles ou simplement orienter l’analyse des données.
Date de diffusion : 2018-12-20 - 3. Contourner une difference de concepts entre deux sources de données pour la production d'estimations ArchivéArticles et rapports : 11-522-X20050019481Description :
L'Enquête sur l'emploi, la rémunération et les heures est une enquête mensuelle utilisant deux sources de données, soit un recensement de dossiers administratifs et une enquête auprès d'établissements. Les données d'enquête permettent de construire des modèles qui servent à imputer massivement un éventail de variables dérivées sur la source administrative. Ce plan de sondage repose sur le fait que les concepts d'emploi et de paye mensuelle brute sont les mêmes sur les deux sources. Dans cette présentation, nous décrirons différentes solutions apportées au plan de sondage et au modèle d'imputation massive pour permettre de contourner cette différence de concepts et ainsi produire des estimations plus stables dans le temps. Des résultats sur l'estimation des gains hebdomadaires moyens à l'aide des différents scénarios complèteront l'exposé.
Date de diffusion : 2007-03-02