Recherche par mot-clé

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Enquête ou programme statistique

24 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (473)

Tout (473) (40 à 50 de 473 résultats)

  • Articles et rapports : 12-001-X201500114173
    Description :

    La non-réponse est présente dans presque toutes les enquêtes et peut fortement biaiser les estimations. On distingue habituellement la non-réponse totale et la non-réponse partielle. En notant que pour une variable d’enquête en particulier, nous avons uniquement des valeurs observées et des valeurs inobservées, nous exploitons dans la présente étude le lien entre la non-réponse totale et la non-réponse partielle. En particulier, nous supposons que les facteurs qui sous-tendent la réponse totale sont les mêmes que ceux qui sous-tendent la réponse partielle pour les variables d’intérêt choisies. Nous estimons alors les probabilités de réponse en utilisant une covariable latente qui mesure la volonté de répondre à l’enquête et qui peut expliquer, en partie, le comportement inconnu d’une unité en ce qui concerne la participation à l’enquête. Nous estimons cette covariable latente en nous servant de modèles à traits latents. Cette approche convient particulièrement bien pour les questions sensibles et, par conséquent, permet de traiter la non-réponse non ignorable. L’information auxiliaire connue pour les répondants et les non-répondants peut être incluse dans le modèle à variables latentes ou dans le processus d’estimation de la probabilité de réponse. L’approche peut également être utilisée quand on ne dispose pas d’information auxiliaire, et nous nous concentrons ici sur ce cas. Nous proposons une estimation au moyen d’un système de repondération basé sur la covariable latente précédente quand aucune autre information auxiliaire observée n’est disponible. Les résultats d’études par simulation en vue d’évaluer sa performance en se servant de données réelles ainsi que simulées sont encourageants.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114192
    Description :

    Nous nous intéressons à l’estimation linéaire optimale des moyennes pour des éditions subséquentes d’une enquête sous renouvellement de l’échantillon, où l’évolution temporelle des échantillons est conçue selon un schéma en cascade. Depuis la publication de l’article fondamental de Patterson (1950), on sait que, si les unités n’ont pas le droit de revenir dans l’échantillon après en être sorties pendant une certaine période (pas d’intervalles dans les schémas de renouvellement), la récursion en une étape tient pour l’estimateur optimal. Cependant, dans certaines enquêtes réelles importantes, par exemple, la Current Population Survey aux États-Unis ou l’Enquête sur la population active dans de nombreux pays européens, les unités reviennent dans l’échantillon après en avoir été absentes pendant plusieurs éditions de l’enquête (existence d’intervalles dans les schémas de renouvellement). Le cas échéant, la question de la forme de la récurrence pour l’estimateur optimal devient considérablement plus difficile. Ce problème n’a pas encore été résolu. On a plutôt élaboré des approches sous-optimales de rechange, comme l’estimation composite K (voir, par exemple, Hansen, Hurwitz, Nisselson et Steinberg (1955)), l’estimation composite AK (voir, par exemple, Gurney et Daly (1965)) ou l’approche des séries chronologiques (voir, par exemple, Binder et Hidiroglou (1988)).

    Dans le présent article, nous surmontons cette difficulté de longue date, autrement dit, nous présentons des formules de récurrence analytiques pour l’estimateur linéaire optimal de la moyenne pour des schémas de renouvellement contenant des intervalles. Ces formules sont obtenues sous certaines conditions techniques, à savoir l’HYPOTHÈSE I et l’HYPOTHÈSE II (des expériences numériques donnent à penser que ces hypothèses pourraient être universellement satisfaites). Pour atteindre l’objectif, nous élaborons une approche par opérateurs algébriques qui permet de réduire le problème de récursion pour l’estimateur linéaire optimal à deux questions : 1) la localisation des racines (éventuellement complexes) d’un polynôme Qp défini en fonction du schéma de renouvellement (le polynôme Qp s’exprime de façon pratique au moyen de polynômes de Tchebychev de la première espèce) et 2) le rang d’une matrice définie en fonction du schéma de renouvellement et des racines du polynôme Qp. En particulier, nous montrons que l’ordre de la récurrence est égal à un plus la taille de l’intervalle le plus grand dans le schéma de renouvellement. Nous donnons les formules exactes de calcul des coefficients de récurrence – naturellement, pour les utiliser il faut confirmer (dans de nombreux cas, numériquement) que les HYPOTHÈSES I et II sont satisfaites. Nous illustrons la solution à l’aide de plusieurs exemples de schémas de renouvellement tirés d’enquêtes réelles.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201500114200
    Description :

    Nous considérons la méthode de la meilleure prédiction observée (MPO; Jiang, Nguyen et Rao 2011) pour l’estimation sur petits domaines sous le modèle de régression à erreurs emboîtées, où les fonctions moyenne et variance peuvent toutes deux être spécifiées inexactement. Nous montrons au moyen d’une étude par simulation que la MPO peut donner de nettement meilleurs résultats que la méthode du meilleur prédicteur linéaire sans biais empirique (MPLSBE) non seulement en ce qui concerne l’erreur quadratique moyenne de prédiction (EQMP) globale, mais aussi l’EQMP au niveau du domaine pour chacun des petits domaines. Nous proposons, pour estimer l’EQMP au niveau du domaine basée sur le plan de sondage, une méthode du bootstrap simple qui produit toujours des estimations positives de l’EQMP. Nous évaluons les propriétés de l’estimateur de l’EQMP proposé au moyen d’une étude par simulation. Nous examinons une application à la Television School and Family Smoking Prevention and Cessation study.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201400114002
    Description :

    Nous proposons une approche d’imputation multiple des réponses manquant aléatoirement dans les enquêtes à grande échelle qui ne portent que sur des variables catégoriques présentant des zéros structurels. Notre approche consiste à utiliser des mélanges de lois multinomiales comme outils d’imputation et à tenir compte des zéros structurels en concevant les données observées comme un échantillon tronqué issu d’une population hypothétique ne contenant pas de zéros structurels. Cette approche possède plusieurs caractéristiques intéressantes : les imputations sont générées à partir de modèles bayésiens conjoints cohérents qui tiennent compte automatiquement des dépendances complexes et s’adaptent facilement à de grands nombres de variables. Nous décrivons un algorithme d’échantillonnage de Gibbs pour mettre en œuvre l’approche et illustrons son potentiel au moyen d’une étude par échantillonnage répété en utilisant des microdonnées de recensement à grande diffusion provenant de l’État de New York, aux États Unis.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114004
    Description :

    En 2009, deux enquêtes importantes réalisées par la division des administrations publiques du U.S. Census Bureau ont été remaniées afin de réduire la taille de l’échantillon, d’économiser des ressources et d’améliorer la précision des estimations (Cheng, Corcoran, Barth et Hogue 2009). Sous le nouveau plan de sondage, chaque strate habituelle, définie par l’État et le type d’administration publique, qui contient un nombre suffisant d’unités (administrations publiques) est divisée en deux sous strates en fonction de la masse salariale totale de chaque unité afin de tirer un plus petit échantillon de la sous strate des unités de petite taille. L’approche assistée par modèle est adoptée pour estimer les totaux de population. Des estimateurs par la régression utilisant des variables auxiliaires sont obtenus soit pour chaque sous strate ainsi créée soit pour la strate originale en regroupant des deux sous strates. Cheng, Slud et Hogue (2010) ont proposé une méthode fondée sur un test de décision qui consiste à appliquer un test d’hypothèse pour décider quel estimateur par la régression sera utilisé pour chaque strate originale. La convergence et la normalité asymptotique de ces estimateurs assistés par modèle sont établies ici sous un cadre asymptotique fondé sur le plan de sondage ou assisté par modèle. Nos résultats asymptotiques suggèrent aussi deux types d’estimateurs de variance convergents, l’un obtenu par substitution des quantités inconnues dans les variances asymptotiques et l’autre en appliquant la méthode du bootstrap. La performance de tous les estimateurs des totaux et des estimateurs de leur variance est examinée au moyen d’études empiriques. L’Annual Survey of Public Employment and Payroll (ASPEP) des États Unis est utilisé pour motiver et illustrer notre étude.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114030
    Description :

    L’article décrit les résultats d’une étude par simulation Monte Carlo réalisée en vue de comparer l’efficacité de quatre modèles hiérarchiques bayésiens d’estimation sur petits domaines pour estimer des proportions au niveau de l’État au moyen de données provenant d’échantillons aléatoires simples stratifiés tirés d’une population finie fixe. Deux des modèles reposent sur les hypothèses fréquentes selon lesquelles, pour chaque petit domaine échantillonné, la proportion pondérée par les poids de sondage estimée suit une loi normale et sa variance d’échantillonnage est connue. L’un de ces modèles comprend un modèle de lien linéaire et l’autre, un modèle de lien logistique. Les deux autres modèles utilisent tous deux un modèle de lien logistique et reposent sur l’hypothèse que la variance d’échantillonnage est inconnue. L’un de ces deux modèles suppose que le modèle d’échantillonnage obéit à une loi normale et l’autre, qu’il obéit à une loi bêta. L’étude montre que, pour chacun des quatre modèles, la couverture sous le plan de sondage de l’intervalle de crédibilité des proportions au niveau de l’État en population finie s’écarte considérablement du niveau nominal de 95 % utilisé pour construire les intervalles.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300211883
    Description :

    L'histoire de l'échantillonnage, qui remonte aux écrits de A.N. Kiaer, a été marquée par d'importantes controverses. Avant tout, Kiaer lui-même a dû lutter pour convaincre ses contemporains que l'échantillonnage était, en soi, une procédure légitime. Il s'y est efforcé pendant plusieurs décennies et étaient un vieillard avant que l'échantillonnage devienne une activité honorable. A.L. Bowley a été le premier à fournir à la fois une justification théorique de l'échantillonnage (en 1906) et une démonstration pratique de sa faisabilité (dans un sondage réalisé à Reading, qui a été publié en 1912). En 1925, les membres de l'IIS réunis à Rome ont adopté une résolution témoignant de leur acceptation de l'utilisation de l'échantillonnage par randomisation ainsi que par choix raisonné. Bowley a utilisé les deux approches. Cependant, au cours des deux décennies suivantes, on a assisté à une tendance croissante à rendre la randomisation obligatoire. En 1934, Jerzy Neyman a profité de l'échec relativement récent d'un grand sondage par choix raisonné pour préconiser que les sondages subséquents fassent appel uniquement à l'échantillonnage aléatoire. Il a trouvé en M. H. Hansen, W.N. Hurwitz et W.G. Madow des disciples doués qui, ensemble, ont publié en 1953 un traité d'échantillonnage faisant autorité. Cet ouvrage est demeuré incontesté pendant près de deux décennies. Toutefois, dans les années 1970, R.M. Royall et ses coauteurs ont remis en cause le recours à l'inférence fondée sur l'échantillonnage aléatoire et recommandé d'utiliser plutôt l'échantillonnage fondé sur un modèle. Ce plaidoyer a, à son tour, déclenché la troisième controverses importante en un peu moins d'un siècle. Néanmoins, le présent auteur, comme plusieurs autres, est convaincu que l'inférence fondée sur le plan de sondage et celle fondée sur un modèle ont toutes deux un rôle utile à jouer.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300211887
    Description :

    Les modèles multiniveaux sont d'usage très répandu pour analyser les données d'enquête en faisant concorder la hiérarchie du plan de sondage avec la hiérarchie du modèle. Nous proposons une approche unifiée, basée sur une log-vraisemblance composite pondérée par les poids de sondage pour des modèles à deux niveaux, qui mène à des estimateurs des paramètres du modèle convergents sous le plan et sous le modèle, même si les tailles d'échantillon dans les grappes sont petites, à condition que le nombre de grappes échantillonnées soit grand. Cette méthode permet de traiter les modèles à deux niveaux linéaires ainsi que linéaires généralisés et requiert les probabilités d'inclusion de niveau 2 et de niveau 1, ainsi que les probabilités d'inclusion conjointe de niveau 1, où le niveau 2 représente une grappe et le niveau 1, un élément dans une grappe. Nous présentons aussi les résultats d'une étude en simulation qui donnent la preuve que la méthode proposée est supérieure aux méthodes existantes sous échantillonnage informatif.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X201300111830
    Description :

    Nous considérons deux méthodes distinctes d'autocalage pour l'estimation des moyennes de petit domaine fondée sur le modèle au niveau du domaine de Fay-Herriot (FH), à savoir la méthode de You et Rao (2002) appliquée au modèle FH et la méthode de Wang, Fuller et Qu (2008) basée sur des modèles augmentés. Nous établissons un estimateur de l'erreur quadratique moyenne de prédiction (EQMP) de l'estimateur de You-Rao (YR) d'une moyenne de petit domaine qui, sous le modèle vrai, est correct jusqu'aux termes de deuxième ordre. Nous présentons les résultats d'une étude en simulation du biais relatif de l'estimateur de l'EQMP de l'estimateur YR et de l'estimateur de l'EQMP de l'estimateur de Wang, Fuller et Qu (WFQ) obtenu sous un modèle augmenté. Nous étudions aussi l'EQMP et les estimateurs de l'EQMP des estimateurs YR et WFQ obtenus sous un modèle mal spécifié.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 82-003-X201300611796
    Géographie : Canada
    Description :

    La présente étude évalue la faisabilité d'utiliser des techniques de modélisation statistique pour combler les lacunes dans les données liées aux facteurs de risque, et plus particulièrement l'usage du tabac, dans les données de recensement couplées.

    Date de diffusion : 2013-06-19
Données (4)

Données (4) ((4 résultats))

  • Microdonnées à grande diffusion : 89F0002X
    Description : La BD/MSPS est un modèle de microsimulation statique qui sert à l'analyse des interactions financières entre les gouvernements et les particuliers au Canada. Elle permet de calculer les impôts payés aux gouvernements et les transferts monétaires reçus de ceux-ci. Elle est formée d'une base de données, d'une série d'algorithmes et de modèles relatifs aux impôts et aux transferts, d'un logiciel d'analyse et de la documentation de l'utilisateur.
    Date de diffusion : 2024-08-26

  • Tableau : 89-26-0006
    Description : PASSAGES est un modèle de microsimulation dynamique de source ouverte qui vise à étayer les analyses de politiques et les recherches sur les résultats du régime de revenu de retraite canadien au niveau individuel et familial. La version accessible au public comprend une base de données synthétiques initiale, un modèle et des documents. Une base de données confidentielles initiale est également disponible.
    Date de diffusion : 2024-04-23

  • Microdonnées à grande diffusion : 12M0014X
    Géographie : Province ou territoire
    Description : Ce rapport présente un bref aperçu de l'information recueillie dans le cycle 14 de l'Enquête sociale générale (ESG). Le cycle 14 est le premier cycle à avoir recueilli des renseignements détaillés sur l'accès aux technologies de l'information et des communications au Canada et leur utilisation. Les sujets abordés comprennent l'utilisation générale de la technologie et des ordinateurs, la technologie en milieu de travail, le développement des compétences en informatique, la fréquence de l'utilisation d'Internet et du courriel, ainsi que les non-utilisateurs et la sécurité et l'information sur Internet. La population cible de l'ESG se composait de toutes les personnes de 15 ans et plus vivant dans un ménage privé dans l'une des dix provinces.
    Date de diffusion : 2001-06-29

  • Microdonnées à grande diffusion : 82M0009X
    Description :

    On utilise la base de sondage de l'Enquête sur la population active afin de tirer un échantillon pour l'Enquête nationale sur la santé de la population (ENSP). En 1994, environ 20 000 ménages ont sélectionnés et pour ce troisième cycle, un échantillon additionnel a été constitué de la même façon. L'enquête est conduite tous les deux ans. L'échantillon est distribué entre quatre périodes trimestrielles de collecte pour une durée totale d'un an.

    Dans chacun des ménages, certains renseignements sommaires sont réunis auprès de tous les membres du ménage puis un membre du ménage choisi au hasard répond en plus à une interview en profondeur. Le premier cycle de collecte de données a commencé en 1994 et se poursuit tous les deux ans. L'enquête procure des données transversales et longitudinales. Les questionnaires portent sur l'état de santé, l'utilisation des services de santé, les déterminants de la santé, l'indice de l'état de santé, les affections chroniques et les restrictions d'activités. L'utilisation des services de santé est évaluée les visites aux prestateurs de soins de santé, traditionnels et non traditionnels, et de questions sur les médicaments et drogues. Parmi les déterminants de la santé, on retrouve l'usage du tabac, la consommation d'alcool et l'activité physique. On insistera plus particulièrement, pour ce troisième cycle de l'enquête sur les antécédents médicaaux familiaux, certaines affections chroniques dans la famille immédiate à un moment donné et les soins personnels. Les renseignements démographiques et économiques comprennent l'âge, le sexe, la scolarité, l'origine ethnique, le revenu du ménage et la situation au niveau du travail.

    Date de diffusion : 2000-12-19
Analyses (435)

Analyses (435) (0 à 10 de 435 résultats)

  • Articles et rapports : 11-522-X202100100009
    Description :

    Le recours à des données auxiliaires pour améliorer l’efficacité d’estimateurs de totaux et de moyennes au moyen d’une procédure d’estimation d’enquête assistée par un modèle de régression a reçu une attention considérable ces dernières années. Des estimateurs par la régression généralisée (GREG), fondés sur un modèle de régression linéaire, sont actuellement utilisés dans le cadre d’enquêtes auprès d’établissements, à Statistique Canada et au sein de plusieurs autres organismes de statistiques. Les estimateurs GREG utilisent des poids d’enquête communs à toutes les variables d’étude et un calage aux totaux de population de variables auxiliaires. De plus en plus de variables auxiliaires sont disponibles et certaines peuvent être superflues. Cela mène à des poids GREG instables lorsque toutes les variables auxiliaires disponibles, y compris les interactions parmi les variables catégoriques, sont utilisées dans le modèle de régression linéaire. En revanche, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et la méthode LASSO, sélectionnent automatiquement des variables auxiliaires significatives et mènent à des poids non négatifs stables et à d’éventuels gains d’efficacité par rapport à la méthode GREG. Dans cet article, une étude par simulations, fondée sur un ensemble de données-échantillon d’une enquête-entreprise réelle traité comme la population cible, est menée afin d’examiner le rendement relatif de la méthode GREG, d’arbres de régression et de la méthode LASSO sur le plan de l’efficacité des estimateurs.

    Mots-clés : inférence assistée par modèle; estimation par calage; sélection du modèle; estimateur par la régression généralisée.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100001
    Description :

    Nous envisageons ici l’analyse de régression dans le contexte de l’intégration de données. Pour combiner des renseignements partiels de sources externes, nous utilisons l’idée de calage de modèle qui introduit un modèle « de travail » réduit fondé sur les covariables observées. Ce modèle de travail réduit n’est pas nécessairement spécifié correctement, mais il peut être un outil utile pour intégrer les renseignements partiels provenant de données externes. La mise en œuvre en tant que telle se fonde sur une application nouvelle de la méthode de vraisemblance empirique. La méthode proposée est particulièrement attractive pour combiner des renseignements de plusieurs sources présentant différentes tendances d’information manquante. La méthode est appliquée à un exemple de données réelles combinant les données d’enquête de la Korean National Health and Nutrition Examination Survey (KNHANES, Enquête nationale coréenne sur la santé et la nutrition) et les mégadonnées du National Health Insurance Sharing Service (NHISS, Service national coréen de partage de l’assurance maladie).

    Mots clés : mégadonnées; probabilité empirique; modèles d’erreur de mesure; covariables manquantes.

    Date de diffusion : 2021-10-15

  • Articles et rapports : 62F0026M2020001
    Description :

    Depuis le remaniement de l'Enquête sur les dépenses des ménages de 2010, les statistiques sur la proportion annuelle des ménages déclarant des dépenses et les dépenses moyennes annuelles par ménage déclarant ne sont pas disponibles pour plusieurs catégories de biens et services. Pour aider à combler ce manque de données pour les utilisateurs, un modèle statistique a été développé afin de produire des approximations de ces statistiques. Ce produit comprend des tableaux de données et un guide de l'utilisateur.

    Date de diffusion : 2021-01-07

  • Articles et rapports : 82-003-X202001100002
    Description :

    Fondée sur les données des cycles de 2003 à 2013 de l’Enquête sur la santé dans les collectivités canadiennes, cette étude vise à caractériser les antécédents d’usage du tabac selon le sexe à l’aide des cohortes de naissance à compter de 1920. Les antécédents d’usage du tabac pour chaque cohorte de naissance comprennent l’âge auquel les personnes ont commencé à fumer et celui auquel elles ont cessé. Ces renseignements ont servi à établir la prévalence de l’usage du tabac pour chaque année civile de 1971 à 2041. L’étude vise également à caractériser les antécédents d’usage du tabac selon le statut socioéconomique.

    Date de diffusion : 2020-11-18

  • Articles et rapports : 12-001-X201800154928
    Description :

    Un processus à deux phases a été utilisé par la Substance Abuse and Mental Health Services Administration pour estimer la proportion d’Américains adultes atteints d’une maladie mentale grave (MMG). La première phase correspondait à la National Survey on Drug Use and Health (NSDUH) réalisée annuellement, tandis que la seconde phase consistait en un sous-échantillon aléatoire d’adultes ayant répondu à la NSDUH. Les personnes qui ont répondu à la deuxième phase d’échantillonnage ont été soumises à une évaluation clinique visant à déceler les maladies mentales graves. Un modèle de prédiction logistique a été ajusté à ce sous-échantillon en prenant la situation de MMG (oui ou non) déterminée au moyen de l’instrument de deuxième phase comme variable dépendante, et les variables connexes recueillies dans la NSDUH auprès de tous les adultes comme variables explicatives du modèle. Des estimations de la prévalence de la MMG chez l’ensemble des adultes et au sein de sous-populations d’adultes ont ensuite été calculées en attribuant à chaque participant à la NSDUH une situation de MMG établie en comparant sa probabilité estimée d’avoir une MMG avec un seuil diagnostique choisi sur la distribution des probabilités prédites. Nous étudions d’autres options que cet estimateur par seuil diagnostique classique, dont l’estimateur par probabilité. Ce dernier attribue une probabilité estimée d’avoir une MMG à chaque participant à la NSDUH. La prévalence estimée de la MMG est la moyenne pondérée de ces probabilités estimées. Au moyen des données de la NSDUH et de son sous-échantillon, nous montrons que, même si l’estimateur par probabilité donne une plus petite erreur quadratique moyenne quand on estime la prévalence de la MMG parmi l’ensemble des adultes, il a une plus grande tendance que l’estimateur par seuil diagnostique classique à présenter un biais au niveau de la sous-population.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201800154963
    Description :

    Le cadre fondé sur l’échantillonnage probabiliste a joué un rôle dominant en recherche par sondage, parce qu’il fournit des outils mathématiques précis pour évaluer la variabilité d’échantillonnage. Toutefois, en raison de la hausse des coûts et de la baisse des taux de réponse, l’usage d’échantillons non probabilistes s’accroît, particulièrement dans le cas de populations générales, pour lesquelles le tirage d’échantillons à partir d’enquêtes en ligne devient de plus en plus économique et facile. Cependant, les échantillons non probabilistes posent un risque de biais de sélection dû à des différences d’accès et de degrés d’intérêt, ainsi qu’à d’autres facteurs. Le calage sur des totaux statistiques connus dans la population offre un moyen de réduire éventuellement l’effet du biais de sélection dans les échantillons non probabilistes. Ici, nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif peut donner un estimateur convergent d’un total de population à condition qu’un sous-ensemble des variables explicatives réelles soit inclus dans le modèle de prédiction, permettant ainsi qu’un grand nombre de covariables possibles soit incluses sans risque de surajustement. Nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif produit une meilleure estimation, pour ce qui est de l’erreur quadratique moyenne, que les méthodes concurrentes classiques, tels les estimateurs par la régression généralisée (GREG), quand un grand nombre de covariables sont nécessaires pour déterminer le modèle réel, sans vraiment qu’il y ait perte d’efficacité par rapport à la méthode GREG quand de plus petits modèles suffisent. Nous obtenons aussi des formules analytiques pour les estimateurs de variance des totaux de population, et comparons le comportement de ces estimateurs aux estimateurs bootstrap. Nous concluons par un exemple réel en utilisant des données provenant de la National Health Interview Survey.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 11-633-X2017008
    Description :

    La plateforme de modélisation de microsimulation DYSEM propose un noyau de données démographiques et socioéconomiques qu’on peut utiliser avec facilité pour créer des modèles ou des applications de microsimulation dynamiques personnalisés. Le présent document décrit la plateforme DYSEM et donne un aperçu de ses usages prévus ainsi que des méthodes et données utilisées pour sa conception.

    Date de diffusion : 2017-07-28

  • Articles et rapports : 13-604-M2017083
    Description :

    Statistique Canada publie régulièrement des indicateurs macroéconomiques sur les actifs, les passifs et la valeur nette des ménages dans le cadre des comptes du bilan national (CBN) trimestriels. Ces comptes correspondent aux plus récentes normes internationales et constituent la source des estimations du patrimoine national pour tous les secteurs de l’économie, y compris les ménages, les institutions sans but lucratif, les administrations publiques et les sociétés, de même que la position du Canada en matière de richesse par rapport au reste du monde. Bien que les CBN fournissent des renseignements de grande qualité sur la position globale des ménages relativement aux autres secteurs économiques, ils ne possèdent pas la granularité requise pour comprendre les vulnérabilités de certains groupes particuliers et les conséquences qui en résultent sur le plan du bien-être économique et de la stabilité financière.

    Date de diffusion : 2017-03-15

  • Revues et périodiques : 91-621-X
    Description :

    Ce document décrit succinctement le fonctionnement général ainsi que les méthodes et sources de données du modèle de projections démographiques par microsimulation Demosim. Il constitue un complément méthodologique aux produits analytiques issus de Demosim.

    Date de diffusion : 2017-01-25

  • Articles et rapports : 12-001-X201600114538
    Description :

    La vérification automatique consiste en l’utilisation d’un ordinateur pour déceler et corriger sans intervention humaine les valeurs erronées dans un ensemble de données. La plupart des méthodes de vérification automatique actuellement employées aux fins de la statistique officielle sont fondées sur les travaux fondamentaux de Fellegi et Holt (1976). La mise en application de cette méthode dans la pratique révèle des différences systématiques entre les données vérifiées manuellement et celles qui sont vérifiées de façon automatisée, car l’humain est en mesure d’effectuer des opérations de vérification complexes. L’auteur du présent article propose une généralisation du paradigme de Fellegi-Holt qui permet d’intégrer de façon naturelle une grande catégorie d’opérations de vérification. Il présente aussi un algorithme qui résout le problème généralisé de localisation des erreurs qui en découle. Il est à espérer que cette généralisation puisse améliorer la pertinence des vérifications automatiques dans la pratique et ainsi accroître l’efficience des processus de vérification des données. Certains des premiers résultats obtenus à l’aide de données synthétiques sont prometteurs à cet égard.

    Date de diffusion : 2016-06-22
Références (32)

Références (32) (0 à 10 de 32 résultats)

  • Enquêtes et programmes statistiques — Documentation : 11-633-X2021005
    Description :

    La Direction des études analytiques et de la modélisation (DEAM) est le volet de recherche de Statistique Canada ayant pour mandat de produire des renseignements actuels, pertinents et de grande qualité sur des questions économiques, sociales et de santé qui importent aux Canadiens. La Direction fait usage stratégique de connaissances spécialisées et d’un éventail de sources de données et de techniques de modélisation pour répondre aux besoins en renseignements d’une vaste gamme de partenaires et d’intervenants du gouvernement, du milieu universitaire et du secteur public au moyen de l’analyse et de la recherche, de la modélisation et de l’analyse prédictive, et de l’élaboration de données. La Direction s’efforce de produire des recherches pertinentes, de grande qualité, actuelles, exhaustives, horizontales et intégrées, et de rendre possible l’utilisation de ses recherches grâce au renforcement des capacités et à la diffusion stratégique pour répondre aux besoins des décideurs, du milieu universitaire et du public en général.

    Ce Plan intégré pluriannuel pour la recherche, la modélisation et l’élaboration de données présente les priorités de la Direction pour les deux prochaines années.

    Date de diffusion : 2021-08-12

  • Enquêtes et programmes statistiques — Documentation : 12-539-X
    Description :

    Ce document réunit des lignes directrices et des listes de contrôles liées à de nombreuses questions dont on doit tenir compte dans la poursuite des objectifs de qualité que sous-tend l'exécution des activités statistiques. Le document s'attarde principalement à la façon d'assurer la qualité grâce à la conception ou à la restructuration efficace et adéquate d'un projet ou d'un programme statistique, des débuts jusqu'à l'évaluation, la diffusion et la documentation des données. Ces lignes directrices sont fondées sur les connaissances et l'expérience collective d'un grand nombre d'employés de Statistique Canada. On espère que les Lignes directrices concernant la qualité seront utiles au personnel chargé de la planification et de la conception des enquêtes et d'autres projets statistiques, ainsi qu'à ceux qui évaluent et analysent les résultats de ces projets.

    Date de diffusion : 2019-12-04

  • Enquêtes et programmes statistiques — Documentation : 15F0004X
    Description :

    On utilise généralement les modèles des entrées-sorties pour simuler l'incidence économique, d'une dépense sur un panier donné de biens et de services ou sur la production d'une ou de plusieurs industries. Les résultats de la simulation obtenus par suite d'un « choc » subi par un modèle d'entrées-sorties montreront les effets directs, indirects et induits de ce choc sur le PIB, les industries qui en tirent le plus d'avantages, le nombre d'emplois créés, les estimations brutes des impôts indirects et des subventions accordées, etc. Pour de plus amples renseignements, consultez le Guide d'utilisation du modèle d'entrées-sorties, qui est gratuit et disponible sur demande.

    À diverses occasions, des clients ont demandé s'ils pouvaient utiliser les modèles des prix des entrées-sorties ou de l'énergie, des modèles fiscaux ou des modèles de marchés. Sous réserve de leur disponibilité, des arrangements peuvent être pris pour l'utilisation de ces modèles sur demande.

    Le modèle d’entrées-sorties national n’était pas diffusé en 2015 ou 2016.

    Date de diffusion : 2019-04-04

  • Enquêtes et programmes statistiques — Documentation : 15F0009X
    Description :

    On utilise généralement les modèles des entrées-sorties pour simuler l'incidence économique, d'une dépense sur un panier donné de biens et de services ou sur la production d'une ou de plusieurs industries. Les résultats de la simulation obtenus par suite d'un « choc » subi par un modèle d'entrées-sorties montreront les effets directs, indirects et induits de ce choc sur le PIB, les industries qui en tirent le plus d'avantages, le nombre d'emplois créés, les estimations brutes des impôts indirects et des subventions accordées, etc. Pour de plus amples renseignements, consultez le Guide d'utilisation du modèle d'entrées-sorties, qui est gratuit et disponible sur demande.

    À diverses occasions, des clients ont demandé s'ils pouvaient utiliser les modèles des prix des entrées-sorties ou de l'énergie, des modèles fiscaux ou des modèles de marchés. Sous réserve de leur disponibilité, des arrangements peuvent être pris pour l'utilisation de ces modèles sur demande.

    Le modèle d’entrées-sorties interprovincial n’était pas diffusé en 2015 ou 2016.

    Date de diffusion : 2019-04-04

  • Enquêtes et programmes statistiques — Documentation : 71-526-X
    Description :

    L'Enquête sur la population active du Canada (EPA) est la source officielle d'estimations mensuelles de l'emploi total et du chômage. Suite au recensement de 2011, l'EPA a connu un remaniement pour tenir compte de l’évolution des caractéristiques de la population et du marché du travail, pour s’adapter aux besoins actuels et prévus des utilisateurs de données et pour mettre à jour l’information géographique requise pour mener l’enquête. Le programme de remaniement qui a suivi le recensement de 2011 a mené à l'introduction d'un nouvel échantillon au début de l'année 2015. Cette publication est un ouvrage de référence sur les aspects méthodologiques de l'EPA, y compris la stratification, l'échantillonnage, la collecte, le traitement, la pondération, l'estimation, l'estimation de la variance et la qualité des données.

    Date de diffusion : 2017-12-21

  • Avis et consultations : 92-140-X2016001
    Description :

    Le Test du contenu du Programme du Recensement de 2016 a été mené du 2 mai au 30 juin 2014. Le Test avait comme objectifs d’évaluer les changements proposés au contenu du Programme du Recensement de 2016 et de mesurer l’impact de l’inclusion d’une question relative au numéro d’assurance sociale (NAS) sur la qualité des données.

    Ce test quantitatif à panel fractionné s’appuie sur un échantillon de 55 000 logements, répartis en 11 panels de 5 000 logements chacun : cinq panels étaient consacrés au Test du contenu alors que les six panels restants étaient voués au Test du NAS. Deux modèles de questionnaires de test ont été développés pour répondre aux objectifs : un modèle avec tous les changements proposés SANS la question du NAS et un modèle avec tous les changements proposés INCLUANT la question du NAS. Un troisième modèle de questionnaire, dit « de contrôle », et présentant le contenu de 2011 a aussi été élaboré. La population ciblée était celle des ménages vivant dans les logements privés des secteurs d’envoi par la poste dans l’une des dix provinces. Les modes de collecte au format papier et électronique ont également fait partie du Test.

    Le présent rapport présente les objectifs du Test, le design et une synthèse de l’analyse pour la détermination du contenu potentiel pour le Programme du Recensement de 2016. Les résultats de l’analyse des données du Test ne sont pas les seuls éléments qui ont permis de déterminer le contenu pour 2016. D’autres éléments ont aussi été considérés, tels que le fardeau de réponse, la comparaison au fil du temps et les besoins des utilisateurs.

    Date de diffusion : 2016-04-01

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2005006
    Description :

    Dans ce rapport, on présente les indicateurs de qualité produits pour l'Enquête sur les dépenses des ménages de 2003. Ces indicateurs de qualité, tels que les coefficients de variation, les taux de non-réponse, les taux de glissement et les taux d'imputation, permettent aux utilisateurs d'interpréter les données.

    Date de diffusion : 2005-10-06

  • Enquêtes et programmes statistiques — Documentation : 15-002-M2001001
    Description :

    Dans ce document, on décrit les sources, les méthodes et les concepts utilisés par les Comptes canadiens de productivité et on les compare aux sources, aux méthodes et aux concepts américains.

    Date de diffusion : 2004-12-24

  • Avis et consultations : 13-605-X20020038512
    Description :

    À compter du 30 septembre 2002, les estimations du PIB mensuel par industrie s'appuieront sur la formule en chaîne Fisher. Ce changement s'appliquera aux données remontant jusqu'à janvier 1997 et jusqu'à janvier 1961 d'ici l'an prochain.

    Date de diffusion : 2002-09-30

  • Avis et consultations : 13-605-X20010018529
    Description :

    À partir du 31 mai 2001, les Comptes trimestriels des revenus et dépenses refléteront le changement : La formule en chaîne Fisher.

    Date de diffusion : 2001-05-31
Date de modification :