Inférence et fondements

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (82)

Tout (82) (0 à 10 de 82 résultats)

  • Articles et rapports : 12-001-X201800254956
    Description :

    En Italie, l’Institut statistique national (ISTAT) mène tous les trimestres l’enquête sur la population active (EPA) et en tire des estimations de la situation d’activité de la population à différents niveaux géographiques. Il estime en particulier le nombre de salariés et de chômeurs en s’appuyant sur cette enquête pour les zones locales de marché du travail (ZLMT). En tant que ZLMT, on compte 611 grappes infrarégionales de municipalités. Ce sont là des domaines non planifiés pour lesquels les estimations directes sont entachées de trop grandes erreurs d’échantillonnage, d’où la nécessité de recourir aux méthodes d’estimation sur petits domaines (EPD). Nous exposerons ici une nouvelle méthode EPD à niveaux de zones avec un modèle latent ou caché de Markov (MLM) comme modèle de couplage. Dans de tels modèles, la caractéristique d’intérêt et son évolution dans le temps sont représentées par un processus caché en chaîne de Markov, habituellement du premier ordre. Ainsi, les zones en question sont à même de changer leur état latent dans le temps. Nous appliquons le modèle proposé aux données trimestrielles de l’EPA de 2004 à 2014 et l’ajustons dans un cadre bayésien hiérarchique au moyen d’un échantillonneur de Gibbs à augmentation de données. Nous comparons nos estimations à celles du modèle classique de Fay-Herriot, à un modèle EPD à niveaux de zones et en séries chronologiques et enfin aux données du recensement de la population de 2011.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800154928
    Description :

    Un processus à deux phases a été utilisé par la Substance Abuse and Mental Health Services Administration pour estimer la proportion d’Américains adultes atteints d’une maladie mentale grave (MMG). La première phase correspondait à la National Survey on Drug Use and Health (NSDUH) réalisée annuellement, tandis que la seconde phase consistait en un sous-échantillon aléatoire d’adultes ayant répondu à la NSDUH. Les personnes qui ont répondu à la deuxième phase d’échantillonnage ont été soumises à une évaluation clinique visant à déceler les maladies mentales graves. Un modèle de prédiction logistique a été ajusté à ce sous-échantillon en prenant la situation de MMG (oui ou non) déterminée au moyen de l’instrument de deuxième phase comme variable dépendante, et les variables connexes recueillies dans la NSDUH auprès de tous les adultes comme variables explicatives du modèle. Des estimations de la prévalence de la MMG chez l’ensemble des adultes et au sein de sous-populations d’adultes ont ensuite été calculées en attribuant à chaque participant à la NSDUH une situation de MMG établie en comparant sa probabilité estimée d’avoir une MMG avec un seuil diagnostique choisi sur la distribution des probabilités prédites. Nous étudions d’autres options que cet estimateur par seuil diagnostique classique, dont l’estimateur par probabilité. Ce dernier attribue une probabilité estimée d’avoir une MMG à chaque participant à la NSDUH. La prévalence estimée de la MMG est la moyenne pondérée de ces probabilités estimées. Au moyen des données de la NSDUH et de son sous-échantillon, nous montrons que, même si l’estimateur par probabilité donne une plus petite erreur quadratique moyenne quand on estime la prévalence de la MMG parmi l’ensemble des adultes, il a une plus grande tendance que l’estimateur par seuil diagnostique classique à présenter un biais au niveau de la sous-population.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201700254872
    Description :

    La présente note expose les fondements théoriques de l’extension de l’intervalle de couverture bilatéral de Wilson à une proportion estimée à partir de données d’enquêtes complexes. Il est démontré que l’intervalle est asymptotiquement équivalent à un intervalle calculé en partant d’une transformation logistique. Une légèrement meilleure version est examinée, mais les utilisateurs pourraient préférer construire un intervalle unilatéral déjà décrit dans la littérature.

    Date de diffusion : 2017-12-21

  • Articles et rapports : 12-001-X201700114822
    Description :

    Nous utilisons une méthode bayésienne pour inférer sur une proportion dans une population finie quand des données binaires sont recueillies selon un plan d’échantillonnage double sur des petits domaines. Le plan d’échantillonnage double correspond à un plan d’échantillonnage en grappes à deux degrés dans chaque domaine. Un modèle bayésien hiérarchique établi antérieurement suppose que, pour chaque domaine, les réponses binaires de premier degré suivent des lois de Bernoulli indépendantes et que les probabilités suivent des lois bêta paramétrisées par une moyenne et un coefficient de corrélation. La moyenne varie selon le domaine, tandis que la corrélation est la même dans tous les domaines. En vue d’accroître la flexibilité de ce modèle, nous l’avons étendu afin de permettre aux corrélations de varier. Les moyennes et les corrélations suivent des lois bêta indépendantes. Nous donnons à l’ancien modèle le nom de modèle homogène et au nouveau, celui de modèle hétérogène. Tous les hyperparamètres possèdent des distributions a priori non informatives appropriées. Une complication supplémentaire tient au fait que certains paramètres sont faiblement identifiés, ce qui rend difficile l’utilisation d’un échantillonneur de Gibbs classique pour les calculs. Donc, nous avons imposé des contraintes unimodales sur les distributions bêta a priori et utilisé un échantillonneur de Gibbs par blocs pour effectuer les calculs. Nous avons comparé les modèles hétérogène et homogène au moyen d’un exemple et d’une étude en simulation. Comme il fallait s’y attendre, le modèle double avec corrélations hétérogènes est celui qui est privilégié.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114545
    Description :

    L’estimation des quantiles est une question d’intérêt dans le contexte non seulement de la régression, mais aussi de la théorie de l’échantillonnage. Les expectiles constituent une solution de rechange naturelle ou un complément aux quantiles. En tant que généralisation de la moyenne, les expectiles ont gagné en popularité ces dernières années parce qu’en plus d’offrir un portrait plus détaillé des données que la moyenne ordinaire, ils peuvent servir à calculer les quantiles grâce aux liens étroits qui les associent à ceux-ci. Nous expliquons comment estimer les expectiles en vertu d’un échantillonnage à probabilités inégales et comment les utiliser pour estimer la fonction de répartition. L’estimateur ajusté de la fonction de répartition obtenu peut être inversé pour établir les estimations des quantiles. Nous réalisons une étude par simulations pour examiner et comparer l’efficacité de l’estimateur fondé sur des expectiles.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 11-522-X201700014704
    Description :

    Il existe plusieurs domaines et sujets de recherche méthodologique en statistiques officielles. Nous expliquons pourquoi ils sont importants, et pourquoi il s’agit des plus importants pour les statistiques officielles. Nous décrivons les principaux sujets dans ces domaines de recherche et nous donnons un aperçu de ce qui semble le plus prometteur pour les aborder. Nous nous penchons ici sur: (i) la qualité des comptes nationaux, et plus particulièrement le taux de croissance du revenu national brut; (ii) les mégadonnées, et plus particulièrement la façon de créer des estimations représentatives et de tirer le meilleur parti possible des mégadonnées, lorsque cela semble difficile ou impossible; Nous abordons aussi : (i) l’amélioration de l’actualité des estimations statistiques provisoires et finales; (ii) l’analyse statistique, plus particulièrement des phénomènes complexes et cohérents. Ces sujets font partie de l’actuel programme de recherche méthodologique stratégique qui a été adopté récemment à Statistique Pays-Bas.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201700014713
    Description :

    Le terme mégadonnées peut signifier différentes choses pour différentes personnes. Pour certaines, il s’agit d’ensembles de données que nos systèmes classiques de traitement et d’analyse ne peuvent plus traiter. Pour d’autres, cela veut simplement dire tirer parti des ensembles de données existants de toutes tailles et trouver des façons de les fusionner, avec comme objectif de produire de nouveaux éléments de connaissance. La première perspective présente un certain nombre de défis importants pour les études traditionnelles de marché, recherches sur l’opinion et recherches sociales. Dans l’un ou l’autre cas, il existe des répercussions pour l’avenir des enquêtes, qu’on commence à peine à explorer.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201700014727
    Description :

    "Des échantillons probabilistes tirés de bases de sondage quasi-universelles de ménages et de personnes, des mesures normalisées, qui donnent lieu à des enregistrements de données multivariées, analysés au moyen de procédures statistiques reflétant le plan de sondage – c’est-ce qui a constitué le fondement des sciences sociales empiriques pendant 75 ans. C’est cette structure de mesure qui a donné au monde développé la grande majorité de nos connaissances actuelles sur nos sociétés et leurs économies. Les données d’enquête conservées actuellement constituent un dossier historique unique. Cependant, nous vivons maintenant dans un monde de données bien différent de celui dans lequel les dirigeants des organismes statistiques et des sciences sociales ont grandi. Nous produisons maintenant des données multidimensionnelles à partir de recherches sur Internet, de dispositifs mobiles connectés à Internet, des médias sociaux, de différents capteurs, de lecteurs optiques de magasins de détails et d’autres dispositifs. Certains estiment que la taille de ces sources de données augmente de 40 % par année. La taille totale de ces nouvelles sources de données éclipse celle des enquêtes fondées sur un échantillon probabiliste. De plus, les enquêtes fondées sur des échantillons ne se portent pas très bien dans le monde développé. La baisse des taux de participation aux enquêtes est liée aux coûts de plus en plus élevés de la collecte des données. Malgré des besoins en information croissants, la création de nouveaux instruments d’enquête est entravée par les restrictions budgétaires imposées aux organismes de statistique officielle et aux sources de financement de la recherche en sciences sociales. Toutes ces observations représentent des défis sans précédent pour le paradigme de base de l’inférence dans les sciences sociales et économiques. L’article propose de nouvelles approches à mettre en œuvre pour ce moment charnière historique. "

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201700014738
    Description :

    Sous l’approche classique de traitement des observations manquantes fondée sur le plan de sondage, la construction de classes de pondération et le calage sont utilisés pour ajuster les poids de sondage pour les répondants présents dans l’échantillon. Ici, nous utilisons ces poids ajustés pour définir une loi de Dirichlet qui peut servir à faire des inférences au sujet de la population. Des exemples montrent que les procédures résultantes possèdent de meilleures propriétés de performance que les méthodes classiques quand la population est asymétrique.

    Date de diffusion : 2016-03-24
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (69)

Analyses (69) (50 à 60 de 69 résultats)

  • Articles et rapports : 11-522-X19990015654
    Description :

    On a recouru à la méta-analyse pour estimer la proportion de carcinogènes hépatiques, la proportion de substances chimiques carcinogènes à n'importe quel siège et la proportion correspondante d'anticarcinogènes parmi les produits chimiques évalués au cours de 397 essais biologiques de la cancérogénicité à long terme réalisés dans le cadre du programme national de toxicologie des États-Unis [U.S. National Toxicology program (NTP)]. Bien que l'estimateur utilisé soit biaisé négativement, l'étude fournit des preuves convaincantes que la proportion de carcinogènes hépatiques (0,43,IC90 % : 0,35,0,51) est plus forte que ne l'a déterminé le NTP (0,28). Selon l'étude, la proportion estimée de produits chimiques carcinogènes à n'importe quel siège est également plus forte (0,59,IC 90 % : 0,49, 0,69) que celle déterminée que par le NTP (0,51) mais l'écart n'est pas statistiquement significatif. On observe une proportion plus forte d'anticarcinogènes (0,66) que de carcinogènes (0,59). Malgré le biais négatif, on estime que 85 % des produits chimiques sont soit carcinogènes soit anticarcinogènes à certains sièges pour certains groupes sexe-espèce. Ces résultats donnent à penser qu'à une concentration suffisamment forte, la plupart des produits chimiques évalués modifient dans une certaine mesure le taux de tumeurs.

    Date de diffusion : 2000-03-02

  • Articles et rapports : 92F0138M2000003
    Description :

    L'intérêt de Statistique Canada pour une délimitation commune du Nord pour ses besoins d'analyse statistique a évolué à partir d'une recherche visant à identifier une classification permettant de différencier davantage les régions rurales et éloignées qui représentent 96 % du territoire canadien. Cette recherche a amené la création du concept des zones d'influence des régions métropolitaines de recensement et des agglomérations de recensement (ZIM). Toutefois, une fois appliquées aux subdivisions de recensement, les catégories de ZIM n'étaient pas aussi efficaces dans les régions du nord que dans les régions du sud. Par conséquent, la Division de la géographie s'est attardée à délimiter une division nord-sud qui pourrait différencier le Nord du Sud, indépendamment de toute autre limite géographique normalisée.

    Le présent document de travail décrit la méthodologie utilisée pour définir une ligne continue d'un bout à l'autre du Canada qui sépare le Nord et le Sud, ainsi que les lignes de démarcation des zones de transition de chaque côté de cette ligne nord-sud. Le document décrit également les indicateurs sélectionnés pour dériver cette ligne nord-sud et établit des comparaisons à d'autres définitions du concept de Nord. La classification du Nord qui en résulte est un complément à la classification des ZIM. Ensembles, les régions métropolitaines de recensement, les agglomérations de recensement, les ZIM et le Nord forment une nouvelle Classification des secteurs statistiques (CSS) du Canada.

    Deux autres documents de travail de la géographie (no 92F0138MPF au catalogue) reliés au sujet offrent plus de détails sur la classification des ZIM. Le document de travail no 2000-1 (92F0138MPF00001) décrit brièvement les ZIM et offre des tableaux de caractéristiques socio-économiques sélectionnées d'après le Recensement de 1991, totalisés selon les catégories de ZIM. Le document de travail no 2000-2 (92F0138MPF00002) décrit de son côté la méthodologie utilisée pour définir la classification des ZIM.

    Date de diffusion : 2000-02-03

  • Articles et rapports : 62F0014M1998013
    Géographie : Canada
    Description :

    La population de référence de l'indice des prix à la consommation (IPC) est représentée, depuis la mise à jour du panier de biens et services de 1992, par les familles et personnes seules vivant dans des ménages privés, urbains ou ruraux. L'IPC officiel est une mesure du taux de variation moyen dans le temps du coût d'achat d'un panier fixe de biens et services achetés par les consommateurs canadiens.

    Étant donné l'étendue de la population cible de l'IPC, on a reproché à cette mesure de négliger les expériences inflationistes de certains groupes socio-démographiques. La présente étude s'intéresse à cette question pour trois sous-groupes de la population de référence de l'IPC. Elle est une prolongation des recherches antérieures sur le sujet réalisées à Statistique Canada.

    Dans le présent document, les indices analytiques de prix à la consommation des sous-groupes sont comparés à l'indice analytique pour l'ensemble de la population de référence, au niveau géographique national.

    Les conclusions s'inscrivent dans la même lignée que celles des études précédentes de Statistique Canada portant sur des sous-groupes de la population de référence de l'IPC. Ces études ont toujours conclu qu'un indice des prix à la consommation établi pour un sous-groupe quelconque, ne diffère pas sensiblement de l'indice pour l'ensemble de la population de référence.

    Date de diffusion : 1999-05-13

  • Enquêtes et programmes statistiques — Documentation : 12-001-X19970013101
    Description :

    Dans le travail ordinaire en statistique, l'échantillonnage est souvent exécuté en fonction d'un processus qui choisit des variables aléatoires telles sont indépendantes et distribuées de façon identique (IDI), de sorte qu'il faut avoir recours à des rajustements pour les utiliser dans le contexte d'une enquête complexe. Toutefois, au lieu de rajuster l'analyse, les auteurs ont adopté une formulation qui a ceci de nouveau qu'elle prélève un second échantillon dans l'échantillon original. Dans ce second échantillon, le premier ensemble de sélections est inversé de façon à fournir à terme un échantillon aléatoire simple. Bien entendu, il serait inefficace d'utiliser ce processus en deux étapes pour tirer un échantillon aléatoire simple unique d'une enquête complexe normalement beaucoup plus grande, et c'est pourquoi des échantillons aléatoires simples multiples sont prélevés, les auteurs ayant élaboré une façon de fonder sur eux des inférences. Les échantillons originaux ne peuvent pas tous être inversés, mais les auteurs abordent de nombreux cas spéciaux qui couvrent tout un éventail de possibilités.

    Date de diffusion : 1997-08-18

  • Enquêtes et programmes statistiques — Documentation : 12-001-X19970013102
    Description :

    Les auteurs examinent la sélection des variables auxiliaires pour l'estimation par régression des paramètres des populations finies dans le cas d'un plan de sondage aléatoire simple. Ce problème fondamental que posent les méthodes d'échantillonnage fondé sur un modèle ou assisté par un modèle prend une importance d'ordre pratique quand le nombre de variables disponibles est grand. Les auteurs élaborent une méthode consistant à minimiser un estimateur de l'erreur quadratique moyenne, puis, la comparent à d'autres en utilisant un ensemble fixe de variables auxiliaires, un test de signification classique, une méthode de réduction du nombre de conditions et une méthode de régression ridge. Selon les résultats de l'étude, la méthode proposée est efficace. Les auteurs soulignent que la méthode de sélection des variables influe sur les propriétés des estimateurs types de la variance, ce qui entraîne par conséquent un problème d'estimation de la variance.

    Date de diffusion : 1997-08-18

  • Enquêtes et programmes statistiques — Documentation : 12-001-X19960022980
    Description :

    Dans le présent article, nous présentons une méthode qui permet d'estimer l'intervalle de confiance de la moyenne d'une population finie quand on dispose de certaines données auxiliaires. Comme l'ont montré Royall et Cumberland grâce à une série d'études empiriques, l'application naïve des méthodes existantes de construction des intervalles de confiance de la moyenne d'une population aboutit parfois à de très médiocres probabilités conditionnelles de couverture subordonnées à la moyenne d'échantillon de la covariable. Le cas échéant, nous proposons de transformer les données pour améliorer la précision de l'approximation normale. Puis, d'après les données transformées, nous faisons une inférence quant à la moyenne de la population originale et intégrons les données auxiliaires à l'inférence soit directement, soit par calage au moyen d'une fonction empirique de vraisemblance. Nous appliquons notre méthode, qui est basée sur le plan de sondage, à six populations réelles et constatons que, dans les cas où la transformation est nécessaire, elle donne de bons résultats comparativement à la méthode de régression habituelle.

    Date de diffusion : 1997-01-30

  • Articles et rapports : 91F0015M1996001
    Géographie : Canada
    Description :

    Cette publication décrit la méthode employée pour projeter la fécondité lors de la préparation des projections de population de 1993 à 2016, par âge et sexe, pour le Canada, les provinces et les territoires. Une nouvelle version du modèle paramétrique basée sur la courbe III de Pearson a été utilisée pour projeter la distribution par âge de la fécondité. Dans ce cas l'utilisation de la courbe de type III présente une amélioration par rapport à celle de la courbe de type I utilisée jusqu'à présent, parce que la courbe de type III, à la fois reflète mieux la distribution par âge des taux de fécondité et les estimés des naissances. Comme les projections appuyées sur la population de 1993 sont les premières à tenir compte du sous dénombrement net du recensement pour estimer la population de base, on a dû recalculer les taux de fécondité par âge avec des dénominateurs corrigés. Il en est résulté, pour toute la série de 1971 à 1993, des taux plus faibles et par conséquent des indices synthétiques également plus faibles. Les trois jeux d'hypothèses et de projections ont pris en considération les nouveaux taux.

    On souhaite que cette publication procure une information valide en ce qui concerne les aspects techniques et analytiques du modèle de projection utilisé actuellement. Des discussions sur les niveaux actuels et futurs des schémas de fécondité pour le pays, les provinces et les territoires sont également offerts au lecteur.

    Date de diffusion : 1996-08-02

  • Articles et rapports : 12-001-X199600114385
    Description :

    Les auteurs examinent le recensement par saisie-resaisie multiples en assouplissant l’hypothèse classique d’un appariement parfait. Ils proposent des modèles avec erreur d’appariement permettant de caractériser les méthodes d’appariement sujettes à des erreurs. Les données observées prennent la forme d’un tableau de contingence 2^k auquel manque une cellule et suivent une distribution multinomiale. Les auteurs proposent une méthode pour estimer la population. Cette approche s’applique à la fois aux modèles log-linéaires habituels pour les tableaux de contingence et aux modèles log-linéaires de l’hétérogénéité du potentiel de saisie. Enfin, les auteurs illustrent leur méthode et procèdent à une estimation en recourant à une répétition générale du recensement de 1990, effectuée en 1988 par le U.S. Bureau of the Census.

    Date de diffusion : 1996-06-14

  • Articles et rapports : 12-001-X199500214398
    Description :

    En nous fondant sur 14 enquêtes menées dans six pays, nous présentons la constatation empirique de l’existence et de l’ampleur des effets du plan de sondage (eps) pour cinq plans appartenant à deux types principaux. Le premier type a trait à eps (p_i – p_j), la différence de deux proportions d’une variable polytomique de trois catégories ou plus. Le deuxième type utilise les tests de chi carré pour l’analyse des différences entre deux échantillons. Nous montrons que pour toutes les variables et pour tous les plans, eps (p_i – p_j) \cong [eps (p_i) + eps (p_j)] / 2 constituent de bonnes approximations. Ces résultats sont empiriques, et les exceptions prouvent qu’il ne peut s’agir de simples inégalités analytiques. Il convient de signaler que ces résultats restent valables malgré les grandes variations des valeurs d’eps entre les variables et entre les catégories d’une même variable. Ils montrent en outre la nécessité d’utiliser des méthodes de traitement adaptées aux échantillons d’enquêtes pour l’analyse des données d’enquête, même lorsqu’on a affaire à des statistiques analytiques. En outre, ils permettent d’utiliser des approximations d’eps (p_i – p_j) tirées des valeurs plus facilement accessibles d’eps (p_i).

    Date de diffusion : 1995-12-15

  • Articles et rapports : 12-001-X199500114408
    Description :

    On étudie le problème de l’estimation de la médiane d’une population finie quand une variable auxiliaire est présente. On propose des estimateurs ponctuels et des estimateurs par intervalle fondés sur une approche bayesienne non informative. L’estimateur ponctuel est comparé à d’autres estimateurs possibles et l’on constate qu’il donne de bons résultats dans diverses situations.

    Date de diffusion : 1995-06-15
Références (16)

Références (16) (0 à 10 de 16 résultats)

  • Enquêtes et programmes statistiques — Documentation : 11-522-X201300014259
    Description :

    Dans l’optique de réduire le fardeau de réponse des exploitants agricoles, Statistique Canada étudie d’autres approches que les enquêtes par téléphone pour produire des estimations des grandes cultures. Une option consiste à publier des estimations de la superficie récoltée et du rendement en septembre, comme cela se fait actuellement, mais de les calculer au moyen de modèles fondés sur des données par satellite et des données météorologiques, ainsi que les données de l’enquête téléphonique de juillet. Toutefois, avant d’adopter une telle approche, on doit trouver une méthode pour produire des estimations comportant un niveau d’exactitude suffisant. Des recherches sont en cours pour examiner différentes possibilités. Les résultats de la recherche initiale et les enjeux à prendre en compte sont abordés dans ce document.

    Date de diffusion : 2014-10-31

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201300211887
    Description :

    Les modèles multiniveaux sont d'usage très répandu pour analyser les données d'enquête en faisant concorder la hiérarchie du plan de sondage avec la hiérarchie du modèle. Nous proposons une approche unifiée, basée sur une log-vraisemblance composite pondérée par les poids de sondage pour des modèles à deux niveaux, qui mène à des estimateurs des paramètres du modèle convergents sous le plan et sous le modèle, même si les tailles d'échantillon dans les grappes sont petites, à condition que le nombre de grappes échantillonnées soit grand. Cette méthode permet de traiter les modèles à deux niveaux linéaires ainsi que linéaires généralisés et requiert les probabilités d'inclusion de niveau 2 et de niveau 1, ainsi que les probabilités d'inclusion conjointe de niveau 1, où le niveau 2 représente une grappe et le niveau 1, un élément dans une grappe. Nous présentons aussi les résultats d'une étude en simulation qui donnent la preuve que la méthode proposée est supérieure aux méthodes existantes sous échantillonnage informatif.

    Date de diffusion : 2014-01-15

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201200211758
    Description :

    Le présent article décrit l'élaboration de deux méthodes bayésiennes d'inférence au sujet des quantiles de variables d'intérêt continues d'une population finie sous échantillonnage avec probabilités inégales. La première de ces méthodes consiste à estimer les fonctions de répartition des variables étudiées continues en ajustant un certain nombre de modèles de régression probit avec splines pénalisées sur les probabilités d'inclusion. Les quantiles de population finie sont alors obtenus par inversion des fonctions de répartition estimées. Cette méthode demande considérablement de calculs. La deuxième méthode consiste à prédire les valeurs pour les unités non échantillonnées en supposant qu'il existe une relation variant de façon lisse entre la variable étudiée continue et la probabilité d'inclusion, en modélisant la fonction moyenne ainsi que de la fonction de variance en se servant de splines. Les deux estimateurs bayésiens fondés sur un modèle avec splines donnent un compromis désirable entre la robustesse et l'efficacité. Des études par simulation montrent que les deux méthodes produisent une racine carrée de l'erreur quadratique moyenne plus faible que l'estimateur pondéré par les poids de sondage et que les estimateurs par le ratio et par différence décrits dans Rao, Kovar et Mantel (RKM 1990), et qu'ils sont plus robustes à la spécification incorrecte du modèle que l'estimateur fondé sur un modèle de régression passant par l'origine décrit dans Chambers et Dunstan (1986). Lorsque la taille de l'échantillon est petite, les intervalles de crédibilité à 95 % des deux nouvelles méthodes ont une couverture plus proche du niveau nominal que l'estimateur pondéré par les poids de sondage.

    Date de diffusion : 2012-12-19

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201200111688
    Description :

    Nous étudions le problème de la non-réponse non ignorable dans un tableau de contingence bidimensionnel qui peut être créé individuellement pour plusieurs petits domaines en présence de non-réponse partielle ainsi que totale. En général, le fait de prendre en considération les deux types de non-réponse dans les données sur les petits domaines accroît considérablement la complexité de l'estimation des paramètres du modèle. Dans le présent article, nous conceptualisons le tableau complet des données pour chaque domaine comme étant constitué d'un tableau contenant les données complètes et de trois tableaux supplémentaires pour les données de ligne manquantes, les données de colonne manquantes et les données de ligne et de colonne manquantes, respectivement. Dans des conditions de non-réponse non ignorable, les probabilités totales de cellule peuvent varier en fonction du domaine, de la cellule et de ces trois types de « données manquantes ». Les probabilités de cellule sous-jacentes (c'est-à-dire celles qui s'appliqueraient s'il était toujours possible d'obtenir une classification complète) sont produites pour chaque domaine à partir d'une loi commune et leur similarité entre les domaines est quantifiée paramétriquement. Notre approche est une extension de l'approche de sélection sous non-réponse non ignorable étudiée par Nandram et Choi (2002a, b) pour les données binaires ; cette extension crée une complexité supplémentaire qui découle de la nature multivariée des données et de la structure des petits domaines. Comme dans les travaux antérieurs, nous utilisons un modèle d'extension centré sur un modèle de non-réponse ignorable de sorte que la probabilité totale de cellule dépend de la catégorie qui représente la réponse. Notre étude s'appuie sur des modèles hiérarchiques bayésiens et des méthodes Monte Carlo par chaîne de Markov pour l'inférence a posteriori. Nous nous servons de données provenant de la troisième édition de la National Health and Nutrition Examination Survey pour illustrer les modèles et les méthodes.

    Date de diffusion : 2012-06-27

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201100211603
    Description :

    De nombreuses enquêtes par sondage comprennent des questions suscitant une réponse binaire (par exemple, obèse, non obèse) pour un certain nombre de petits domaines. Une inférence est requise au sujet de la probabilité d'une réponse positive (par exemple obèse) dans chaque domaine, la probabilité étant la même pour tous les individus dans chaque domaine et différente entre les domaines. Étant donné le peu de données dans les domaines, les estimateurs directs ne sont pas fiables et il est nécessaire d'utiliser des données provenant d'autres domaines pour améliorer l'inférence pour un domaine particulier. Essentiellement, il est supposé a priori que les domaines sont similaires, si bien que le choix d'un modèle hiérarchique bayésien, le modèle bêta-binomial standard, est naturel. L'innovation tient au fait qu'un praticien peut disposer d'information a priori supplémentaire qui est nécessaire au sujet d'une combinaison linéaire des probabilités. Par exemple, une moyenne pondérée des probabilités est un paramètre, et l'information peut être obtenue au sujet de ce paramètre, ce qui rend le paradigme bayésien approprié. Nous avons modifié le modèle bêta-binomial standard pour petits domaines afin d'y intégrer l'information a priori sur la combinaison linéraire des probabilités, que nous appelons une contrainte. Donc, il existe trois cas. Le practicien a) ne spécifie pas de contrainte, b) spécifie une contrainte et le paramètre entièrement et c) spécifie une contrainte et l'information qui peut être utilisée pour construire une loi a priori pour le paramètre. L'échantillonneur de Gibbs « griddy » est utilisé pour ajuster les modèles. Pour illustrer notre méthode, nous prenons l'exemple de l'obésité chez les enfants dans la National Health and Nutrition Examination Survey dans laquelle les petits domaines sont formés par croisement de l'école (cycle secondaire inférieur ou supérieur), de l'etnicité (blanche, noire, mexicaine) et du sexe (masculin, féminin). Nous procédons à une étude en simulation pour évaluer certaines caractéristiques statistiques de notre méthode. Nous avons montré que le gain de précision au-delà de (a) est dans l'ordre où (b) est plus grand que (c).

    Date de diffusion : 2011-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201000111250
    Description :

    Nous proposons un estimateur de prédiction bayésien avec splines pénalisées (PBSP pour Bayesian Penalized Spline Predictive) pour une proportion de population finie sous échantillonnage avec probabilités inégales. Cette nouvelle méthode permet d'intégrer directement les probabilités d'inclusion dans l'estimation d'une proportion de population, en effectuant une régression probit du résultat binaire sur la fonction spline pénalisée des probabilités d'inclusion. La loi prédictive a posteriori de la proportion de population est obtenue en utilisant l'échantillonnage de Gibbs. Nous démontrons les avantages de l'estimateur PBSP comparativement à l'estimateur de Hájek (HK), à l'estimateur par la régression généralisée (RG) et aux estimateurs de prédiction fondés sur un modèle paramétrique au moyen d'études en simulation et d'un exemple réel de vérification fiscale. Les études en simulation montrent que l'estimateur PBSP est plus efficace et donne un intervalle de crédibilité à 95 % dont la probabilité de couverture est meilleure et dont la largeur moyenne est plus étroite que les estimateurs HK et RG, surtout quand la proportion de population est proche de zéro ou de un, ou que l'échantillon est petit. Comparativement aux estimateurs de prédiction fondés sur un modèle linéaire, les estimateurs PBSP sont robustes à l'erreur de spécification du modèle et à la présence d'observations influentes dans l'échantillon.

    Date de diffusion : 2010-06-29

  • Enquêtes et programmes statistiques — Documentation : 12-002-X20040027035
    Description :

    Lors du traitement des données du cycle 4 de l'Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ), des révisions historiques ont été apportées au trois premiers cycles de l'enquête afin de corriger des erreurs et faire une mise à jour des données. Au cours du traitement, une attention particulière a été portée à la variable PERSRUK (l'identificateur au niveau de la personne) et à la variable FIELDRUK (l'identificateur au niveau du ménage). Le même niveau d'attention n'a pas été accordé aux autres identificateurs incluent dans la base de données, soit, la variable CHILDID (un identificateur au niveau de l'enfant) et la variable _IDHD01 (un identificateur au niveau du ménage). Ces identificateurs ont été créés pour les fichiers publics et ils se retrouvent par défaut dans les fichiers maîtres. Lorsque les fichiers maîtres sont utilisés, la variable PERSRUK devrait être utilisée pour lier les différents fichiers de données de l'enquête entre eux et la variable FIELDRUK pour déterminer le ménage.

    Date de diffusion : 2004-10-05

  • Enquêtes et programmes statistiques — Documentation : 13F0026M2001003
    Description :

    Les premiers résultats de l'Enquête sur la sécurité financière (ESF), qui fournit de l'information sur la valeur nette du patrimoine des Canadiens, ont été publiés le 15 mars 2001 dans Le quotidien. L'enquête a recueilli des renseignements sur la valeur des avoirs financiers et non financiers de chaque unité familiale et sur le montant de sa dette.

    Statistique Canada travaille actuellement à préciser cette première estimation de la valeur nette en y ajoutant une estimation de la valeur des droits à pension constitués dans les régimes de retraite d'employeur. Il s'agit d'un volet essentiel pour toute enquête sur l'avoir et la dette étant donné que, pour la plupart des unités familiales, c'est probablement l'un des avoirs les plus importants. Le vieillissement de la population rend l'information sur la constitution des droits à pension nécessaire afin de mieux comprendre la situation financière des personnes qui approchent de la retraite. Ces estimations mises à jour seront publiées à la fin de l'automne 2001.

    Le processus utilisé pour obtenir une estimation de la valeur des droits à pension constitués dans les régimes de pension agréés d'employeur (RPA) est complexe. Le présent document décrit la méthodologie utilisée pour estimer cette valeur en ce qui concerne les groupes suivants : a) Les personnes qui faisaient partie d'un RPA au moment de l'enquête (appelées membres actuels d'un régime de retraite); b) Les personnes qui ont déjà fait partie d'un RPA et qui ont laissé l'argent dans le régime de retraite ou qui l'ont transféré dans un nouveau régime de retraite; c) Les personnes qui touchent des prestations d'un RPA.

    Cette méthodologie a été proposée par Hubert Frenken et Michael Cohen. Hubert Frenken compte de nombreuses années d'expérience avec Statistique Canada où il a travaillé avec des données sur les régimes de retraite d'employeur. Michael Cohen fait partie de la direction de la firme d'actuariat-conseil William M. Mercer. Plus tôt cette année, Statistique Canada a organisé une consultation publique sur la méthodologie proposée. Le présent rapport inclut des mises à jour faites après avoir reçu les rétroactions des utilisateurs des données.

    Date de diffusion : 2001-09-05

  • Enquêtes et programmes statistiques — Documentation : 13F0026M2001002
    Description :

    L'Enquête sur la sécurité financière (ESF) fournira des renseignements sur la situation nette des Canadiens. C'est pourquoi elle a recueilli, en mai et juin 1999, des données sur la valeur de l'avoir et de la dette de chacune des familles ou personnes seules comprises dans l'échantillon. Il s'est avéré difficile de calculer ou d'estimer la valeur d'un avoir en particulier, à savoir la valeur actualisée du montant que les répondants ont constitué dans leur régime de retraite d'employeur. On appelle souvent ces régimes des régimes de pension agréés (RPA), car ils doivent être agréés par l'Agence des douanes et du revenu du Canada (ARDC) (c'est-à-dire enregistrés auprès de l'ADRC). Bien qu'on communique à certains participants à un RPA une estimation de la valeur de leurs droits constitués, ils l'ignorent dans la plupart des cas. Pourtant, il s'agit sans doute d'un des avoirs les plus importants pour bon nombre d'unités familiales. De plus, à mesure que la génération du baby boom se rapproche de la retraite, le besoin d'information sur ses rentes constituées se fait très pressant si l'on veut mieux comprendre sa capacité financière à négocier ce nouveau virage.

    La présente étude vise deux objectifs : décrire, pour stimuler des discussions, la méthodologie proposée en vue d'estimer la valeur actualisée des droits à pension pour les besoins de l'Enquête sur la sécurité financière; et recueillir des réactions à la méthodologie proposée. Le présent document propose une méthodologie pour estimer la valeur des droits constitués dans un régime d'employeur pour les groupes suivants : a) les personnes qui adhéraient à un RPA au moment de l'enquête (les «participants actuels»); b) les personnes qui ont déjà adhéré à un RPA et qui ont soit laissé leurs fonds dans le régime ou les ont transférés dans un nouveau régime; et c) les personnes qui touchent une rente prévue par un RPA.

    Date de diffusion : 2001-02-07

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015642
    Description :

    La Base de données longitudinale sur l'immigration (BDIM) établit un lien entre les dossiers administratifs de l'immigration et de l'impôt en une source exhaustive de données sur le comportement sur le marché du travail de la population des immigrants ayant obtenu le droit d'établissement au Canada. Elle porte sur la période de 1980 à 1995 et sera mise à jour en 1999 pour l'année d'imposition 1996. Statistique Canada gère la base de données pour le compte d'un consortium fédéral-provincial dirigé par Citoyenneté et Immigration Canada. Le présent document examine les enjeux du développement d'une base de données longitudinale combinant des dossiers administratifs, à l'appui de la recherche et de l'analyse en matière de politiques. L'accent est plus particulièrement mis sur les questions de méthodologie, de concepts, d'analyse et de protection des renseignements personnels découlant de la création et du développement continu de cette base de données. Le présent document aborde en outre brièvement les résultats des recherches, qui illustrent les liens en matière de résultats des politiques que la BDIM permet aux décideurs d'examiner.

    Date de diffusion : 2000-03-02
Date de modification :