Aide à l'ordre
entrées

Résultats

Tout (53)

Tout (53) (0 à 10 de 53 résultats)

  • Stats en bref : 11-627-M2021092
    Description :

    Cette infographie donne un aperçu de haut niveau du plan d'action pour les données désagrégées de Statistique Canada. Grâce à ce plan, des renseignements statistiques détaillés sur des groupes de population spécifiques seront produits. Ce plan est essentiel afin de mettre en lumière les expériences vécues par des groupes de population particuliers au Canada, comme les femmes, les Autochtones, les populations racialisées et les personnes ayant une incapcité.

    Date de diffusion : 2021-12-08

  • Articles et rapports : 11-633-X2021008
    Description :

    La base de données longitudinales sur l’immigration (BDIM) est une source importante et complète de données contribuant à mieux comprendre le comportement économique des immigrants. Il s’agit du seul ensemble annuel de données canadiennes permettant d’étudier les caractéristiques des immigrants au Canada au moment de leur admission ainsi que leur situation économique et leur mobilité régionale (interprovinciale) sur plus de 35 ans. La BDIM comprend les dossiers administratifs d'Immigration, Réfugiés et Citoyenneté Canada (IRCC) qui contiennent des renseignements exhaustifs sur les immigrants admis au Canada depuis 1952. Elle comprend également des données sur les résidents non permanents à qui on a délivré des permis de séjour temporaire depuis 1980. Ce rapport traitera des sources de données, des concepts et des variables de la BDIM, du couplage d’enregistrements, du traitement des données, de la diffusion, de l’évaluation des données et des indicateurs de qualité, de la comparabilité avec d’autres ensembles de données relatives à l’immigration ainsi que des analyses que permet la BDIM.

    Date de diffusion : 2021-12-06

  • Articles et rapports : 11-633-X2021007
    Description :

    Statistique Canada continue d’utiliser diverses sources de données pour fournir des variables au niveau des quartiers dans un ensemble croissant de domaines, comme les caractéristiques sociodémographiques, le revenu, les services et les commodités, la criminalité et l’environnement. Pourtant, malgré ces progrès, les renseignements sur les aspects sociaux des quartiers ne sont toujours pas disponibles. Dans le présent article, les réponses à l’Enquête sur la santé dans les collectivités canadiennes concernant le sentiment d’appartenance des répondants à leur communauté locale ont été regroupées pour les quatre années d’enquête allant de 2016 à 2019. Les réponses individuelles ont été agrégées au niveau du secteur de recensement (SR).

    Date de diffusion : 2021-11-16

  • Articles et rapports : 75F0002M2021007
    Description :

    Ce document de travail décrit la méthodologie proposée pour une mesure du panier de consommation nordique (MPC-N) pour le Yukon et les Territoires du Nord-Ouest, et identifie certaines recherches qui pourraient être menées en préparation de l'examen de 2023. Le document présente les seuils initiaux de la MPC-N et fournit des estimations préliminaires de la pauvreté pour les années de référence 2018 et 2019. Une période d'examen suivra la publication de ce document, au cours de laquelle Statistique Canada et Emploi et Développement social Canada accueilleront les commentaires des parties intéressées et travailleront avec des experts, des intervenants, des organisations autochtones et des fonctionnaires fédéraux, provinciaux et territoriaux pour valider les résultats.

    Date de diffusion : 2021-11-12

  • Articles et rapports : 11-522-X202100100010
    Description :

    Dans le cadre du traitement du recensement canadien de 2021, les réponses en toutes lettres aux 31 questions du recensement doivent être codées. Jusqu’en 2016, il s’agissait d’un processus en trois étapes, dont une deuxième étape de « codage interactif (humain) ». Cette étape de codage humain est à la fois longue et coûteuse, s’étalant sur de nombreux mois et nécessitant le recrutement et la formation d’un grand nombre d’employés temporaires. Dans cette optique, pour 2021, cette étape sera soit complétée ou entièrement remplacée par des modèles d’apprentissage automatique à l’aide de l’algorithme « fastText ». Dans cette présentation, nous discuterons de la mise en place de cet algorithme ainsi que des défis et des décisions prises en cours de route.

    Mots clés : traitement du langage naturel, apprentissage automatique, fastText, codage

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100011
    Description : Les façons dont l’IA peut influer sur le monde des statistiques officielles sont multiples et le bureau central de la statistique des Pays-Bas (CBS) explore activement la façon dont il peut utiliser l’IA afin de remplir sa fonction sociétale. L’article décrit plusieurs domaines de l’IA sur lesquels CBS travaille actuellement : à savoir l’utilisation de l’IA aux fins de sa production de statistiques et de sa recherche et développement en statistique, la mise au point d’un outil national de surveillance de l’IA, le soutien d’autres organismes gouvernementaux ayant de l’expertise sur les données équitables et les algorithmes équitables, le partage de données dans des conditions sûres et sécurisées, et la participation à des collaborations liées à l’IA.

    Mots-clés : intelligence artificielle; statistiques officielles; partage de données; algorithmes équitables; surveillance de l’IA; collaboration.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100012
    Description : La modernisation des statistiques sur les prix par les organismes nationaux de statistique (ONS), comme Statistique Canada, met l’accent sur l’adoption d’autres sources de données qui comprennent presque la totalité de l’univers des produits vendus dans le pays, une échelle qui nécessite la classification des données par apprentissage automatique. Le processus d’évaluation des classificateurs permettant de sélectionner ceux qui conviennent à la production ainsi que de surveiller les classificateurs une fois qu’ils servent à la production doit être fondé sur des paramètres robustes pour que soit mesuré le taux de classification erronée. Étant donné que les mesures couramment utilisées, comme le score Fß, peuvent ne pas tenir compte des principaux aspects applicables aux statistiques de prix dans tous les cas, comme l’importance inégale des catégories, il faut examiner attentivement l’espace métrique pour choisir les méthodes appropriées d’évaluation des classificateurs. Le présent document de travail présente l’espace métrique applicable aux statistiques de prix et propose un cadre opérationnel d’évaluation et de surveillance des classificateurs, en portant un intérêt particulier aux besoins de l’Indice des prix à la consommation du Canada et en démontrant les paramètres étudiés au moyen d’un ensemble de données accessibles au public.

    Mots clés : indice des prix à la consommation; classification supervisée; mesures d’évaluation; taxonomie

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100013
    Description : L’Enquête sur la population active (EPA) de Statistique Canada joue un rôle fondamental dans le mandat de Statistique Canada. L’information sur le marché du travail fournie par l’EPA est l’une des mesures les plus actuelles et les plus importantes du rendement global de l’économie canadienne. Le codage de l'industrie du répondant selon le Système de classification des industries de l'Amérique du Nord (SCIAN), de la profession selon le Système de classification nationale des professions (CNP) et de la principale catégorie de travailleurs (PCDT) fait partie intégrante du traitement mensuel des données de l'EPA. Chaque mois, jusqu'à 20 000 enregistrements sont codés manuellement. En 2020, Statistique Canada a travaillé au développement de modèles d'apprentissage automatique utilisant fastText afin de coder les réponses au questionnaire de l'EPA selon les trois classifications mentionnées précédemment. Le présent article donnera un aperçu de la méthodologie développée et des résultats obtenus à partir d'une application potentielle de l'utilisation de fastText dans le processus de codage de l’EPA.

    Mots clés : apprentissage automatique; Enquête sur la population active; classification de texte; fastText.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100029
    Description :

    Parallèlement à l’orientation prise par le Système statistique européen, l’ISTAT investit dans des méthodes innovantes pour tirer profit de sources de mégadonnées et les utiliser dans la production de produits de statistiques officielles nouveaux et enrichis. Les sources de mégadonnées ne peuvent pas, en général, être suivies directement avec des techniques statistiques traditionnelles; il suffit de penser à des types de données particulières comme des images et du texte qui sont des exemples de la dimension de variété des mégadonnées. Cela motive et justifie l’intérêt croissant des instituts statistiques nationaux dans des techniques de science des données. L’ISTAT utilise actuellement de telles techniques, y compris des techniques d’apprentissage automatique, dans le cadre de projets d’innovation et la publication de statistiques expérimentales. Cette étude fournit un aperçu des principaux projets de l’ISTAT en cours et se concentre sur deux pipelines de production particuliers fondés sur des mégadonnées, liés respectivement au traitement de sources textuelles et de sources d’images. L’article souligne les principaux défis associés à ces deux pipelines et les solutions mises en place pour les résoudre.

    Mots-clés : apprentissage automatique; traitement de texte; traitement d’image; mégadonnées

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100008
    Description :

    Les organismes nationaux de statistique étudient de plus en plus la possibilité d'utiliser des échantillons non probabilistes en complément des échantillons probabilistes. Nous examinons le scénario où la variable d’intérêt et les variables auxiliaires sont observées à la fois dans un échantillon probabiliste et un échantillon non probabiliste. Nous cherchons à utiliser les données de l’échantillon non probabiliste pour améliorer l’efficacité des estimations pondérées par les poids d’enquête obtenues à partir de l’échantillon probabiliste. Récemment, Sakshaug, Wisniowski, Ruiz et Blom (2019) et Wisniowski, Sakshaug, Ruiz et Blom (2020) ont proposé une approche bayésienne visant à intégrer les données des deux échantillons aux fins de l’estimation des paramètres du modèle. Dans leur méthode, on utilise les données de l’échantillon non probabiliste pour déterminer la distribution a priori des paramètres du modèle et on obtient la distribution a posteriori en supposant que le plan de sondage probabiliste est ignorable (ou non informatif). Nous étendons cette approche bayésienne à la prédiction de paramètres d’une population finie dans le cadre d’un échantillonnage non ignorable (ou informatif) en nous appuyant sur des statistiques pondérées par des poids d’enquête appropriées. Nous illustrons les propriétés de notre prédicteur au moyen d’une étude par simulations.

    Mots clés : prédiction bayésienne; échantillonnage de Gibbs; échantillonnage non ignorable; intégration des données statistiques.

    Date de diffusion : 2021-10-29
Stats en bref (9)

Stats en bref (9) ((9 résultats))

  • Stats en bref : 11-627-M2021092
    Description :

    Cette infographie donne un aperçu de haut niveau du plan d'action pour les données désagrégées de Statistique Canada. Grâce à ce plan, des renseignements statistiques détaillés sur des groupes de population spécifiques seront produits. Ce plan est essentiel afin de mettre en lumière les expériences vécues par des groupes de population particuliers au Canada, comme les femmes, les Autochtones, les populations racialisées et les personnes ayant une incapcité.

    Date de diffusion : 2021-12-08

  • Stats en bref : 89-20-00062020002
    Description :

    Cette video est pour enseigner à une audience les différences entre trois concepts statistiques fondamentaux: d'abord, la moyenne; puis, la médiane; et enfin, le mode.

    Date de diffusion : 2021-05-03

  • Stats en bref : 89-20-00062020003
    Description :

    Dans ce module, nous explorerons le concept de dispersion, aussi appelé la variabilité. Ce concept inclus : l'étendue, l'écart interquartile, l'écart-type et la distribution normale.

    Date de diffusion : 2021-05-03

  • Stats en bref : 89-20-00062021001
    Description :

    En tant qu'organisme national de statistique du Canada, Statistique Canada s'est engagé à transmettre ses connaissances et son expertise afin d'aider tous les Canadiens et toutes les Canadiennes à développer leurs compétences en matière de littératie des données. Le but de la formation est de fournir aux apprenants et apprenantes de l'information sur les concepts et les compétences de base à l'égard d'un éventail de sujets liés à la littératie des données.

    La formation s'adresse aux personnes qui commencent à travailler avec les données et aux personnes qui ont une certaine expérience de travail avec les données, mais qui souhaitent mettre leurs connaissances à jour ou les approfondir. Nous vous invitons à consulter notre catalogue d'apprentissage pour en savoir plus sur nos offres, y compris une grande collection de courtes vidéos. Assurez-vous de revenir ponctuellement puisque nous allons continuer à diffuser de nouvelles formations.

    Date de diffusion : 2021-05-03

  • Stats en bref : 89-20-00062021002
    Description :

    La présente vidéo s’adresse aux personnes qui souhaitent acquérir une compréhension de base de la corrélation et de la causalité. Comme préalable, avant de commencer cette vidéo, nous vous conseillons vivement d’avoir déjà regardé nos vidéos intitulées « Que sont les données? Introduction à la terminologie et aux concepts relatifs aux données » et « Types de données : comprendre et explorer les données ».

    Date de diffusion : 2021-05-03

  • Stats en bref : 89-20-00062021003
    Description :

    Dans cette vidéo, les téléspectateurs apprendront les différences entre trois types de mesures : les proportions, les ratios et les taux. En outre, les téléspectateurs d’ici la fin de cette vidéo seront en mesure de déterminer comment chaque mesure est calculée et quand il est préférable d’utiliser une mesure plutôt que l’autre.

    Date de diffusion : 2021-05-03

  • Stats en bref : 89-20-00062021004
    Description :

    Une distinction importante que nous établirons dans cette vidéo, c'est la différence entre la science des données, l'intelligence artificielle et l'apprentissage automatique. Vous apprendrez à quoi peut servir l'apprentissage automatique, comment il fonctionne et différentes méthodes pour le mettre en œuvre. Vous apprendrez également à construire et à utiliser les processus d'apprentissage automatique de manière responsable.

    Cette vidéo est recommandée à ceux qui sont déjà familiers avec les concepts et techniques associés à la programmation informatique et à l'utilisation d'algorithmes pour analyser les données.

    Date de diffusion : 2021-05-03

  • Stats en bref : 89-20-00062021005
    Description :

    À la fin de cette vidéo, vous devriez mieux comprendre les principes fondamentaux de l'utilisation des données pour raconter une histoire. Nous examinerons certains des principaux éléments d'une histoire de données, y compris les données, le récit et la visualisation, et nous discuterons de la façon dont ils peuvent être utilisés pour construire des messages concis, informatifs et intéressants auxquels votre public peut se fier. Et ensuite, vous découvrirez l'importance de bien planifier une histoire de données, y compris de savoir qui sera votre public, ce qu'il devrait savoir et la meilleure façon de fournir ces renseignements.

    Date de diffusion : 2021-05-03

  • Stats en bref : 89-20-00062021006
    Description :

    Dans cette vidéo, vous apprendrez ce que nous pouvons faire aux données mêmes pour qu'il soit plus facile de les utiliser. Tel est le rôle des normes en matière de données. Et vous apprendrez quels sont les renseignements supplémentaires que nous pouvons fournir pour faciliter l'utilisation des données. Tel est le rôle des métadonnées.

    Date de diffusion : 2021-05-03
Articles et rapports (44)

Articles et rapports (44) (0 à 10 de 44 résultats)

  • Articles et rapports : 11-633-X2021008
    Description :

    La base de données longitudinales sur l’immigration (BDIM) est une source importante et complète de données contribuant à mieux comprendre le comportement économique des immigrants. Il s’agit du seul ensemble annuel de données canadiennes permettant d’étudier les caractéristiques des immigrants au Canada au moment de leur admission ainsi que leur situation économique et leur mobilité régionale (interprovinciale) sur plus de 35 ans. La BDIM comprend les dossiers administratifs d'Immigration, Réfugiés et Citoyenneté Canada (IRCC) qui contiennent des renseignements exhaustifs sur les immigrants admis au Canada depuis 1952. Elle comprend également des données sur les résidents non permanents à qui on a délivré des permis de séjour temporaire depuis 1980. Ce rapport traitera des sources de données, des concepts et des variables de la BDIM, du couplage d’enregistrements, du traitement des données, de la diffusion, de l’évaluation des données et des indicateurs de qualité, de la comparabilité avec d’autres ensembles de données relatives à l’immigration ainsi que des analyses que permet la BDIM.

    Date de diffusion : 2021-12-06

  • Articles et rapports : 11-633-X2021007
    Description :

    Statistique Canada continue d’utiliser diverses sources de données pour fournir des variables au niveau des quartiers dans un ensemble croissant de domaines, comme les caractéristiques sociodémographiques, le revenu, les services et les commodités, la criminalité et l’environnement. Pourtant, malgré ces progrès, les renseignements sur les aspects sociaux des quartiers ne sont toujours pas disponibles. Dans le présent article, les réponses à l’Enquête sur la santé dans les collectivités canadiennes concernant le sentiment d’appartenance des répondants à leur communauté locale ont été regroupées pour les quatre années d’enquête allant de 2016 à 2019. Les réponses individuelles ont été agrégées au niveau du secteur de recensement (SR).

    Date de diffusion : 2021-11-16

  • Articles et rapports : 75F0002M2021007
    Description :

    Ce document de travail décrit la méthodologie proposée pour une mesure du panier de consommation nordique (MPC-N) pour le Yukon et les Territoires du Nord-Ouest, et identifie certaines recherches qui pourraient être menées en préparation de l'examen de 2023. Le document présente les seuils initiaux de la MPC-N et fournit des estimations préliminaires de la pauvreté pour les années de référence 2018 et 2019. Une période d'examen suivra la publication de ce document, au cours de laquelle Statistique Canada et Emploi et Développement social Canada accueilleront les commentaires des parties intéressées et travailleront avec des experts, des intervenants, des organisations autochtones et des fonctionnaires fédéraux, provinciaux et territoriaux pour valider les résultats.

    Date de diffusion : 2021-11-12

  • Articles et rapports : 11-522-X202100100010
    Description :

    Dans le cadre du traitement du recensement canadien de 2021, les réponses en toutes lettres aux 31 questions du recensement doivent être codées. Jusqu’en 2016, il s’agissait d’un processus en trois étapes, dont une deuxième étape de « codage interactif (humain) ». Cette étape de codage humain est à la fois longue et coûteuse, s’étalant sur de nombreux mois et nécessitant le recrutement et la formation d’un grand nombre d’employés temporaires. Dans cette optique, pour 2021, cette étape sera soit complétée ou entièrement remplacée par des modèles d’apprentissage automatique à l’aide de l’algorithme « fastText ». Dans cette présentation, nous discuterons de la mise en place de cet algorithme ainsi que des défis et des décisions prises en cours de route.

    Mots clés : traitement du langage naturel, apprentissage automatique, fastText, codage

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100011
    Description : Les façons dont l’IA peut influer sur le monde des statistiques officielles sont multiples et le bureau central de la statistique des Pays-Bas (CBS) explore activement la façon dont il peut utiliser l’IA afin de remplir sa fonction sociétale. L’article décrit plusieurs domaines de l’IA sur lesquels CBS travaille actuellement : à savoir l’utilisation de l’IA aux fins de sa production de statistiques et de sa recherche et développement en statistique, la mise au point d’un outil national de surveillance de l’IA, le soutien d’autres organismes gouvernementaux ayant de l’expertise sur les données équitables et les algorithmes équitables, le partage de données dans des conditions sûres et sécurisées, et la participation à des collaborations liées à l’IA.

    Mots-clés : intelligence artificielle; statistiques officielles; partage de données; algorithmes équitables; surveillance de l’IA; collaboration.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100012
    Description : La modernisation des statistiques sur les prix par les organismes nationaux de statistique (ONS), comme Statistique Canada, met l’accent sur l’adoption d’autres sources de données qui comprennent presque la totalité de l’univers des produits vendus dans le pays, une échelle qui nécessite la classification des données par apprentissage automatique. Le processus d’évaluation des classificateurs permettant de sélectionner ceux qui conviennent à la production ainsi que de surveiller les classificateurs une fois qu’ils servent à la production doit être fondé sur des paramètres robustes pour que soit mesuré le taux de classification erronée. Étant donné que les mesures couramment utilisées, comme le score Fß, peuvent ne pas tenir compte des principaux aspects applicables aux statistiques de prix dans tous les cas, comme l’importance inégale des catégories, il faut examiner attentivement l’espace métrique pour choisir les méthodes appropriées d’évaluation des classificateurs. Le présent document de travail présente l’espace métrique applicable aux statistiques de prix et propose un cadre opérationnel d’évaluation et de surveillance des classificateurs, en portant un intérêt particulier aux besoins de l’Indice des prix à la consommation du Canada et en démontrant les paramètres étudiés au moyen d’un ensemble de données accessibles au public.

    Mots clés : indice des prix à la consommation; classification supervisée; mesures d’évaluation; taxonomie

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100013
    Description : L’Enquête sur la population active (EPA) de Statistique Canada joue un rôle fondamental dans le mandat de Statistique Canada. L’information sur le marché du travail fournie par l’EPA est l’une des mesures les plus actuelles et les plus importantes du rendement global de l’économie canadienne. Le codage de l'industrie du répondant selon le Système de classification des industries de l'Amérique du Nord (SCIAN), de la profession selon le Système de classification nationale des professions (CNP) et de la principale catégorie de travailleurs (PCDT) fait partie intégrante du traitement mensuel des données de l'EPA. Chaque mois, jusqu'à 20 000 enregistrements sont codés manuellement. En 2020, Statistique Canada a travaillé au développement de modèles d'apprentissage automatique utilisant fastText afin de coder les réponses au questionnaire de l'EPA selon les trois classifications mentionnées précédemment. Le présent article donnera un aperçu de la méthodologie développée et des résultats obtenus à partir d'une application potentielle de l'utilisation de fastText dans le processus de codage de l’EPA.

    Mots clés : apprentissage automatique; Enquête sur la population active; classification de texte; fastText.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100029
    Description :

    Parallèlement à l’orientation prise par le Système statistique européen, l’ISTAT investit dans des méthodes innovantes pour tirer profit de sources de mégadonnées et les utiliser dans la production de produits de statistiques officielles nouveaux et enrichis. Les sources de mégadonnées ne peuvent pas, en général, être suivies directement avec des techniques statistiques traditionnelles; il suffit de penser à des types de données particulières comme des images et du texte qui sont des exemples de la dimension de variété des mégadonnées. Cela motive et justifie l’intérêt croissant des instituts statistiques nationaux dans des techniques de science des données. L’ISTAT utilise actuellement de telles techniques, y compris des techniques d’apprentissage automatique, dans le cadre de projets d’innovation et la publication de statistiques expérimentales. Cette étude fournit un aperçu des principaux projets de l’ISTAT en cours et se concentre sur deux pipelines de production particuliers fondés sur des mégadonnées, liés respectivement au traitement de sources textuelles et de sources d’images. L’article souligne les principaux défis associés à ces deux pipelines et les solutions mises en place pour les résoudre.

    Mots-clés : apprentissage automatique; traitement de texte; traitement d’image; mégadonnées

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100008
    Description :

    Les organismes nationaux de statistique étudient de plus en plus la possibilité d'utiliser des échantillons non probabilistes en complément des échantillons probabilistes. Nous examinons le scénario où la variable d’intérêt et les variables auxiliaires sont observées à la fois dans un échantillon probabiliste et un échantillon non probabiliste. Nous cherchons à utiliser les données de l’échantillon non probabiliste pour améliorer l’efficacité des estimations pondérées par les poids d’enquête obtenues à partir de l’échantillon probabiliste. Récemment, Sakshaug, Wisniowski, Ruiz et Blom (2019) et Wisniowski, Sakshaug, Ruiz et Blom (2020) ont proposé une approche bayésienne visant à intégrer les données des deux échantillons aux fins de l’estimation des paramètres du modèle. Dans leur méthode, on utilise les données de l’échantillon non probabiliste pour déterminer la distribution a priori des paramètres du modèle et on obtient la distribution a posteriori en supposant que le plan de sondage probabiliste est ignorable (ou non informatif). Nous étendons cette approche bayésienne à la prédiction de paramètres d’une population finie dans le cadre d’un échantillonnage non ignorable (ou informatif) en nous appuyant sur des statistiques pondérées par des poids d’enquête appropriées. Nous illustrons les propriétés de notre prédicteur au moyen d’une étude par simulations.

    Mots clés : prédiction bayésienne; échantillonnage de Gibbs; échantillonnage non ignorable; intégration des données statistiques.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100009
    Description :

    Le recours à des données auxiliaires pour améliorer l’efficacité d’estimateurs de totaux et de moyennes au moyen d’une procédure d’estimation d’enquête assistée par un modèle de régression a reçu une attention considérable ces dernières années. Des estimateurs par la régression généralisée (GREG), fondés sur un modèle de régression linéaire, sont actuellement utilisés dans le cadre d’enquêtes auprès d’établissements, à Statistique Canada et au sein de plusieurs autres organismes de statistiques. Les estimateurs GREG utilisent des poids d’enquête communs à toutes les variables d’étude et un calage aux totaux de population de variables auxiliaires. De plus en plus de variables auxiliaires sont disponibles et certaines peuvent être superflues. Cela mène à des poids GREG instables lorsque toutes les variables auxiliaires disponibles, y compris les interactions parmi les variables catégoriques, sont utilisées dans le modèle de régression linéaire. En revanche, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et la méthode LASSO, sélectionnent automatiquement des variables auxiliaires significatives et mènent à des poids non négatifs stables et à d’éventuels gains d’efficacité par rapport à la méthode GREG. Dans cet article, une étude par simulations, fondée sur un ensemble de données-échantillon d’une enquête-entreprise réelle traité comme la population cible, est menée afin d’examiner le rendement relatif de la méthode GREG, d’arbres de régression et de la méthode LASSO sur le plan de l’efficacité des estimateurs.

    Mots-clés : inférence assistée par modèle; estimation par calage; sélection du modèle; estimateur par la régression généralisée.

    Date de diffusion : 2021-10-29
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :