Inférence et fondements

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (105)

Tout (105) (0 à 10 de 105 résultats)

  • Articles et rapports : 12-001-X202400100001
    Description : Inspirés par les deux excellentes discussions de notre article, nous offrons un regard nouveau et présentons de nouvelles avancées sur le problème de l’estimation des probabilités de participation pour des échantillons non probabilistes. Tout d’abord, nous proposons une amélioration de la méthode de Chen, Li et Wu (2020), fondée sur la théorie de la meilleure estimation linéaire sans biais, qui tire plus efficacement parti des données disponibles des échantillons probabiliste et non probabiliste. De plus, nous élaborons une méthode de vraisemblance de l’échantillon, dont l’idée est semblable à la méthode d’Elliott (2009), qui tient adéquatement compte du chevauchement entre les deux échantillons quand il est possible de l’identifier dans au moins un des échantillons. Nous utilisons la théorie de la meilleure prédiction linéaire sans biais pour traiter le scénario où le chevauchement est inconnu. Il est intéressant de constater que les deux méthodes que nous proposons coïncident quand le chevauchement est inconnu. Ensuite, nous montrons que de nombreuses méthodes existantes peuvent être obtenues comme cas particulier d’une fonction d’estimation sans biais générale. Enfin, nous concluons en formulant quelques commentaires sur l’estimation non paramétrique des probabilités de participation.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100002
    Description : Nous proposons des comparaisons entre trois méthodes paramétriques d’estimation des probabilités de participation ainsi que de brefs commentaires à propos des groupes homogènes et de la poststratification.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100003
    Description : Beaumont, Bosa, Brennan, Charlebois et Chu (2024) proposent des méthodes novatrices de sélection de modèles aux fins d’estimation des probabilités de participation pour des unités d’échantillonnage non probabiliste. Notre examen portera principalement sur le choix de la vraisemblance et du paramétrage du modèle, qui sont essentiels à l’efficacité des techniques proposées dans l’article. Nous examinons d’autres méthodes fondées sur la vraisemblance et la pseudo-vraisemblance pour estimer les probabilités de participation et nous présentons des simulations mettant en œuvre et comparant la sélection de variables fondée sur le critère d’information d’Akaike (AIC). Nous démontrons que, dans des scénarios pratiques importants, la méthode fondée sur une vraisemblance formulée sur les échantillons non probabiliste et probabiliste groupés qui sont observés offre un meilleur rendement que les autres solutions fondées sur la pseudo-vraisemblance. La différence de sensibilité du AIC est particulièrement grande en cas de petites tailles de l’échantillon probabiliste et de petit chevauchement dans les domaines de covariables.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100004
    Description : Les organismes nationaux de statistique étudient de plus en plus la possibilité d’utiliser des échantillons non probabilistes comme solution de rechange aux échantillons probabilistes. Toutefois, il est bien connu que l’utilisation d’un échantillon non probabiliste seul peut produire des estimations présentant un biais important en raison de la nature inconnue du mécanisme de sélection sous-jacent. Il est possible de réduire le biais en intégrant les données de l’échantillon non probabiliste aux données d’un échantillon probabiliste, à condition que les deux échantillons contiennent des variables auxiliaires communes. Nous nous concentrons sur les méthodes de pondération par l’inverse de la probabilité, lesquelles consistent à modéliser la probabilité de participation à l’échantillon non probabiliste. Premièrement, nous examinons le modèle logistique ainsi que l’estimation par la méthode du pseudo maximum de vraisemblance. Nous proposons une procédure de sélection de variables en fonction d’un critère d’information d’Akaike (AIC) modifié qui tient compte de la structure des données et du plan d’échantillonnage probabiliste. Nous proposons également une méthode simple fondée sur le rang pour former des strates a posteriori homogènes. Ensuite, nous adaptons l’algorithme des arbres de classification et de régression (CART) à ce scénario d’intégration de données, tout en tenant compte, encore une fois, du plan d’échantillonnage probabiliste. Nous proposons un estimateur de la variance bootstrap qui tient compte de deux sources de variabilité : le plan d’échantillonnage probabiliste et le modèle de participation. Nos méthodes sont illustrées au moyen de données recueillies par approche participative et de données d’enquête de Statistique Canada.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100014
    Description : Cet article est une introduction au numéro spécial sur l’utilisation d’échantillons non probabilistes comprenant trois articles présentés lors de la 29e conférence Morris Hansen par Courtney Kennedy, Yan Li et Jean-François Beaumont.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202300200005
    Description : Le sous-dénombrement de la population est un des principaux obstacles avec lesquels il faut composer lors de l’analyse statistique d’échantillons d’enquête non probabilistes. Nous considérons dans le présent article deux scénarios types de sous-dénombrement, à savoir le sous-dénombrement stochastique et le sous-dénombrement déterministe. Nous soutenons que l’on peut appliquer directement les méthodes d’estimation existantes selon l’hypothèse de positivité sur les scores de propension (c’est-à-dire les probabilités de participation) pour traiter le scénario de sous-dénombrement stochastique. Nous étudions des stratégies visant à atténuer les biais lors de l’estimation de la moyenne de la population cible selon le sous-dénombrement déterministe. Plus précisément, nous examinons une méthode de population fractionnée (split-population method) fondée sur une formulation d’enveloppe convexe et nous construisons des estimateurs menant à des biais réduits. Un estimateur doublement robuste peut être construit si un sous-échantillon de suivi de l’enquête probabiliste de référence comportant des mesures sur la variable étudiée devient réalisable. Le rendement de six estimateurs concurrents est examiné au moyen d’une étude par simulations, et des questions nécessitant un examen plus approfondi sont brièvement abordées.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200018
    Description : En tant qu’instrument d’élaboration et d’évaluation des politiques et de recherche scientifique, sociale et économique, les enquêtes par sondage sont employées depuis plus d’un siècle. Au cours de cette période, elles ont surtout servi à recueillir des données à des fins de dénombrement. L’estimation de leurs caractéristiques a normalement reposé sur la pondération et l’échantillonnage répété ou sur une inférence fondée sur le plan de sondage. Les données-échantillons ont toutefois aussi permis de modéliser les processus inobservables qui sont source de données de population finie. Ce genre d’utilisation qualifié d’analytique consiste souvent à intégrer les données-échantillons à des données de sources secondaires.

    Dans ce cas, des solutions de rechange à l’inférence, tirant leur inspiration du grand courant de la modélisation statistique, ont largement été mises de l’avant. Le but principal était alors de permettre un échantillonnage informatif. Les enquêtes modernes par sondage visent cependant davantage les situations où les données-échantillons font en réalité partie d’un ensemble plus complexe de sources de données, toutes contenant des informations pertinentes sur le processus d’intérêt. Lorsqu’on privilégie une méthode efficace de modélisation comme celle du maximum de vraisemblance, la question consiste alors à déterminer les modifications qui devraient être apportées en fonction tant de plans de sondage complexes que de sources multiples de données. C’est là que l’emploi du principe de l’information manquante trace nettement la voie à suivre.

    Le présent document permettra de faire le point sur la façon dont ce principe a servi à résoudre les problèmes d’analyse de données « désordonnées » liés à l’échantillonnage. Il sera aussi question d’un scénario qui est une conséquence de la croissance rapide des sources de données auxiliaires aux fins de l’analyse des données d’enquête. C’est le cas où les enregistrements échantillonnés d’une source ou d’un registre accessible sont couplés aux enregistrements d’une autre source moins accessible, avec des valeurs de la variable réponse d’intérêt tirées de cette seconde source et où un résultat clé obtenu consiste en estimations sur petits domaines de cette variable de réponse pour des domaines définis sur la première source.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200200001
    Description :

    Des arguments conceptuels et des exemples sont présentés qui suggèrent que l’approche d’inférence bayésienne pour les enquêtes permet de répondre aux défis nombreux et variés de l’analyse d’une enquête. Les modèles bayésiens qui intègrent des caractéristiques du plan de sondage complexe peuvent donner lieu à des inférences pertinentes pour l’ensemble de données observé, tout en ayant de bonnes propriétés d’échantillonnage répété. Les exemples portent essentiellement sur le rôle des variables auxiliaires et des poids d’échantillonnage, et les méthodes utilisées pour gérer lanon-réponse. Le présent article propose 10 raisons principales de favoriser l’approche d’inférence bayésienne pour les enquêtes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200002
    Description :

    Nous offrons un examen critique et quelques discussions approfondies sur des questions théoriques et pratiques à l’aide d’une analyse des échantillons non probabilistes. Nous tentons de présenter des cadres inférentiels rigoureux et des procédures statistiques valides dans le cadre d’hypothèses couramment utilisées et d’aborder les questions relatives à la justification et à la vérification d’hypothèses sur des applications pratiques. Certains progrès méthodologiques actuels sont présentés et nous mentionnons des problèmes qui nécessitent un examen plus approfondi. Alors que l’article porte sur des échantillons non probabilistes, le rôle essentiel des échantillons d’enquête probabilistes comportant des renseignements riches et pertinents sur des variables auxiliaires est mis en évidence.

    Date de diffusion : 2022-12-15
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (97)

Analyses (97) (40 à 50 de 97 résultats)

  • Articles et rapports : 12-001-X201200111688
    Description :

    Nous étudions le problème de la non-réponse non ignorable dans un tableau de contingence bidimensionnel qui peut être créé individuellement pour plusieurs petits domaines en présence de non-réponse partielle ainsi que totale. En général, le fait de prendre en considération les deux types de non-réponse dans les données sur les petits domaines accroît considérablement la complexité de l'estimation des paramètres du modèle. Dans le présent article, nous conceptualisons le tableau complet des données pour chaque domaine comme étant constitué d'un tableau contenant les données complètes et de trois tableaux supplémentaires pour les données de ligne manquantes, les données de colonne manquantes et les données de ligne et de colonne manquantes, respectivement. Dans des conditions de non-réponse non ignorable, les probabilités totales de cellule peuvent varier en fonction du domaine, de la cellule et de ces trois types de « données manquantes ». Les probabilités de cellule sous-jacentes (c'est-à-dire celles qui s'appliqueraient s'il était toujours possible d'obtenir une classification complète) sont produites pour chaque domaine à partir d'une loi commune et leur similarité entre les domaines est quantifiée paramétriquement. Notre approche est une extension de l'approche de sélection sous non-réponse non ignorable étudiée par Nandram et Choi (2002a, b) pour les données binaires ; cette extension crée une complexité supplémentaire qui découle de la nature multivariée des données et de la structure des petits domaines. Comme dans les travaux antérieurs, nous utilisons un modèle d'extension centré sur un modèle de non-réponse ignorable de sorte que la probabilité totale de cellule dépend de la catégorie qui représente la réponse. Notre étude s'appuie sur des modèles hiérarchiques bayésiens et des méthodes Monte Carlo par chaîne de Markov pour l'inférence a posteriori. Nous nous servons de données provenant de la troisième édition de la National Health and Nutrition Examination Survey pour illustrer les modèles et les méthodes.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201100211602
    Description :

    Cet article tente de répondre aux trois questions énoncées dans le titre. Il commence par une discussion des caractéristiques uniques des données d'enquêtes complexes qui diffèrent de celles des autres ensembles de données ; ces caractéristiques requièrent une attention spéciale, mais suggèrent une vaste gamme de procédures d'inférence. Ensuite, un certain nombre d'approches proposées dans la documentation pour traiter ces caractéristiques sont passées en revue en discutant de leurs mérites et de leurs limites. Ces approches diffèrent en ce qui a trait aux conditions qui sous-tendent leur utilisation, aux données additionnelles requises pour leur application, aux tests d'adéquation de l'ajustement du modèle, aux objectifs d'inférence qu'elles permettent de satisfaire, à l'efficacité statistique, aux demandes de ressources informatiques et aux compétences que doivent posséder les analystes qui ajustent les modèles. La dernière partie de l'article présente les résultats de simulations conçues pour comparer le biais, la variance et les taux de couverture des diverses approches dans le cas de l'estimation des coefficients de régression linéaire en partant d'un échantillon stratifié. Enfin, l'article se termine par une brève discussion des questions en suspens.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100211603
    Description :

    De nombreuses enquêtes par sondage comprennent des questions suscitant une réponse binaire (par exemple, obèse, non obèse) pour un certain nombre de petits domaines. Une inférence est requise au sujet de la probabilité d'une réponse positive (par exemple obèse) dans chaque domaine, la probabilité étant la même pour tous les individus dans chaque domaine et différente entre les domaines. Étant donné le peu de données dans les domaines, les estimateurs directs ne sont pas fiables et il est nécessaire d'utiliser des données provenant d'autres domaines pour améliorer l'inférence pour un domaine particulier. Essentiellement, il est supposé a priori que les domaines sont similaires, si bien que le choix d'un modèle hiérarchique bayésien, le modèle bêta-binomial standard, est naturel. L'innovation tient au fait qu'un praticien peut disposer d'information a priori supplémentaire qui est nécessaire au sujet d'une combinaison linéaire des probabilités. Par exemple, une moyenne pondérée des probabilités est un paramètre, et l'information peut être obtenue au sujet de ce paramètre, ce qui rend le paradigme bayésien approprié. Nous avons modifié le modèle bêta-binomial standard pour petits domaines afin d'y intégrer l'information a priori sur la combinaison linéraire des probabilités, que nous appelons une contrainte. Donc, il existe trois cas. Le practicien a) ne spécifie pas de contrainte, b) spécifie une contrainte et le paramètre entièrement et c) spécifie une contrainte et l'information qui peut être utilisée pour construire une loi a priori pour le paramètre. L'échantillonneur de Gibbs « griddy » est utilisé pour ajuster les modèles. Pour illustrer notre méthode, nous prenons l'exemple de l'obésité chez les enfants dans la National Health and Nutrition Examination Survey dans laquelle les petits domaines sont formés par croisement de l'école (cycle secondaire inférieur ou supérieur), de l'etnicité (blanche, noire, mexicaine) et du sexe (masculin, féminin). Nous procédons à une étude en simulation pour évaluer certaines caractéristiques statistiques de notre méthode. Nous avons montré que le gain de précision au-delà de (a) est dans l'ordre où (b) est plus grand que (c).

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100111446
    Description :

    L'estimation sur petits domaines fondée sur des modèles linéaires mixtes est parfois inefficace quand les relations sous-jacentes ne sont pas linéaires. Nous présentons des techniques d'estimation sur petits domaines pour des variables qui peuvent être modélisées linéairement après une transformation non linéaire. En particulier, nous étendons l'estimateur direct fondé sur un modèle de Chandra et Chambers (2005, 2009) à des données qui concordent avec un modèle linéaire mixte sur l'échelle logarithmique, en utilisant le calage sur un modèle pour définir des poids pouvant être utilisés dans cet estimateur. Nos résultats montrent que l'estimateur fondé sur la transformation que nous obtenons est à la fois efficace et robuste à la distribution des effets aléatoires dans le modèle. Une application à des données d'enquêtes auprès des entreprises démontre la performance satisfaisante de la méthode.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201100111451
    Description :

    Dans la méthode du calage de Deville et Särndal (1992), les équations de calage ne prennent en compte que les estimations exactes de totaux des variables auxiliaires. L'objectif de cet article est de s'intéresser à d'autres paramètres que le total pour caler. Ces paramètres que l'on qualifie de complexes sont par exemple le ratio, la médiane ou la variance de variables auxiliaires.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201000111250
    Description :

    Nous proposons un estimateur de prédiction bayésien avec splines pénalisées (PBSP pour Bayesian Penalized Spline Predictive) pour une proportion de population finie sous échantillonnage avec probabilités inégales. Cette nouvelle méthode permet d'intégrer directement les probabilités d'inclusion dans l'estimation d'une proportion de population, en effectuant une régression probit du résultat binaire sur la fonction spline pénalisée des probabilités d'inclusion. La loi prédictive a posteriori de la proportion de population est obtenue en utilisant l'échantillonnage de Gibbs. Nous démontrons les avantages de l'estimateur PBSP comparativement à l'estimateur de Hájek (HK), à l'estimateur par la régression généralisée (RG) et aux estimateurs de prédiction fondés sur un modèle paramétrique au moyen d'études en simulation et d'un exemple réel de vérification fiscale. Les études en simulation montrent que l'estimateur PBSP est plus efficace et donne un intervalle de crédibilité à 95 % dont la probabilité de couverture est meilleure et dont la largeur moyenne est plus étroite que les estimateurs HK et RG, surtout quand la proportion de population est proche de zéro ou de un, ou que l'échantillon est petit. Comparativement aux estimateurs de prédiction fondés sur un modèle linéaire, les estimateurs PBSP sont robustes à l'erreur de spécification du modèle et à la présence d'observations influentes dans l'échantillon.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 11-536-X200900110806
    Description :

    Les travaux récents qui utilisent la méthode du maximum de vraisemblance pseudo-empirique pour des inférences pour populations finies avec données d'enquêtes complexes se sont d'abord concentrées sur un échantillon d'enquête simple, non stratifié ou stratifié, avec de considérables efforts sur les procédures de calcul. Dans cet exposé, nous présentons une approche d'inférence par maximum de vraisemblance pseudo-empirique pour des enquêtes multiples et des enquêtes à bases multiples, deux problèmes souvent rencontrés en pratique dans les enquêtes. Nous montrons qu'il est possible de faire l'inférence à propos du paramètre d'intérêt commum et d'utiliser efficacement les divers types d'information auxiliaire de façon pratique par la maximisation sous contrainte de la fonction du maximum de vraisemblance pseudo-empirique. Nous obtenons les résultats asymptotiques qui sont utilisés pour construire des intervalles de confiance de ratio de maximum de vraisemblance pseudo-empiriques, soit en utilisant une approximation du chi-deux, soit en utilisant une calibration bootstrap. Tous les problèmes de calcul reliés peuvent être résolus en utilisant des algorithmes d'échantillonnage stratifié existants après avoir reformulé le problème de façon appropriée.

    Date de diffusion : 2009-08-11

  • Articles et rapports : 12-001-X200800110606
    Description :

    Aux États Unis, les données provenant des sondages électoraux sont habituellement présentées dans des tableaux de contingence à double entrée et de nombreux sondages sont réalisés avant qu'ait lieu l'élection réelle en novembre. Par exemple, pour l'élection du gouverneur de l'État de l'Ohio en 1998, trois sondages (Buckeye State Poll) ont eu lieu, un en janvier, un en avril et un en octobre; la première catégorie des tableaux représente les candidats (par exemple Fisher, Taft et autre) et la deuxième représente l'intention courante de vote (votera vraisemblablement ou ne votera vraisemblablement pas pour le gouverneur de l'Ohio). Le nombre d'électeurs indécis est important dans l'une ou dans les deux catégories pour les trois sondages et nous utilisons une méthode bayésienne pour les répartir entre les trois candidats. Nous pouvons ainsi modéliser divers scénarios de données manquantes sous les hypothèses d'ignorabilité et de non ignorabilité, et nous utilisons un modèle Dirichlet Multinomial pour estimer les probabilités de cellule qui nous aideront à prédire le gagnant. Nous proposons un modèle de non réponse non ignorable variable en fonction du temps pour les trois tableaux. Ici, un modèle de non réponse non ignorable est centré sur un modèle de non réponse ignorable afin d'induire une certaine souplesse et une certaine incertitude au sujet de l'ignorabilité ou de la non ignorabilité. Nous considérons également deux autres modèles concurrents, à savoir un modèle de non réponse ignorable et un modèle de non réponse non ignorable. Ces deux derniers modèles reposent sur l'hypothèse d'un processus stochastique commun pour obtenir un renforcement par emprunt de données au cours du temps. Nous utilisons des méthodes de Monte Carlo par chaîne de Markov pour ajuster les modèles. Nous construisons aussi un paramètre qui peut éventuellement être utilisé pour prédire le gagnant parmi les candidats à l'élection de novembre.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 11-522-X200600110392
    Description :

    Nous suivons une méthode bayésienne robuste pour analyser des données pouvant présenter un biais de non-réponse et un biais de sélection non ignorables. Nous utilisons un modèle de régression logistique robuste pour établir le lien entre les indicateurs de réponse (variable aléatoire de Bernoulli) et les covariables, dont nous disposons pour tous les membres de la population finie. Ce lien permet d'expliquer l'écart entre les répondants et les non-répondants de l'échantillon. Nous obtenons ce modèle robuste en élargissant le modèle de régression logistique conventionnel à un mélange de lois de Student, ce qui nous fournit des scores de propension (probabilité de sélection) que nous utilisons pour construire des cellules d'ajustement. Nous introduisons les valeurs des non-répondants en tirant un échantillon aléatoire à partir d'un estimateur à noyau de la densité, formé d'après les valeurs des répondants à l'intérieur des cellules d'ajustement. La prédiction fait appel à une régression linéaire spline, fondée sur les rangs, de la variable de réponse sur les covariables selon le domaine, en échantillonnant les erreurs à partir d'un autre estimateur à noyau de la densité, ce qui rend notre méthode encore plus robuste. Nous utilisons des méthodes de Monte-Carlo par chaînes de Markov (MCMC) pour ajuster notre modèle. Dans chaque sous-domaine, nous obtenons la loi a posteriori d'un quantile de la variable de réponse à l'intérieur de chaque sous-domaine en utilisant les statistiques d'ordre sur l'ensemble des individus (échantillonnés et non échantillonnés). Nous comparons notre méthode robuste à des méthodes paramétriques proposées récemment.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X200600110398
    Description :

    L'étude de données longitudinales est essentielle si l'on veut observer correctement l'évolution des variables d'intérêt chez les personnes, les collectivités et les populations plus importantes au cours du temps. Les modèles linéaires à effets mixtes (pour les réponses continues observées au fil du temps), ainsi que les modèles linéaires généralisés à effets mixtes et les équations d'estimation généralisées (pour les réponses plus générales, telles que les données binaires ou les dénombrements observés au fil du temps) sont les méthodes les plus répandues pour analyser les données longitudinales provenant d'études sur la santé, même si, comme toute méthode de modélisation, elles ont leurs limites, dues en partie aux hypothèses sous jacentes. Dans le présent article, nous discutons de certains progrès, dont l'utilisation de méthodes fondées sur des courbes, qui rendent la modélisation des données longitudinales plus souple. Nous présentons trois exemples d'utilisation de ces méthodes plus souples tirés de la littérature sur la santé, dans le but de démontrer que certaines questions par ailleurs difficiles peuvent être résolues raisonnablement lors de l'analyse de données longitudinales complexes dans les études sur la santé des populations.

    Date de diffusion : 2008-03-17
Références (8)

Références (8) ((8 résultats))

  • Enquêtes et programmes statistiques — Documentation : 11-522-X201300014259
    Description :

    Dans l’optique de réduire le fardeau de réponse des exploitants agricoles, Statistique Canada étudie d’autres approches que les enquêtes par téléphone pour produire des estimations des grandes cultures. Une option consiste à publier des estimations de la superficie récoltée et du rendement en septembre, comme cela se fait actuellement, mais de les calculer au moyen de modèles fondés sur des données par satellite et des données météorologiques, ainsi que les données de l’enquête téléphonique de juillet. Toutefois, avant d’adopter une telle approche, on doit trouver une méthode pour produire des estimations comportant un niveau d’exactitude suffisant. Des recherches sont en cours pour examiner différentes possibilités. Les résultats de la recherche initiale et les enjeux à prendre en compte sont abordés dans ce document.

    Date de diffusion : 2014-10-31

  • Enquêtes et programmes statistiques — Documentation : 12-002-X20040027035
    Description :

    Lors du traitement des données du cycle 4 de l'Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ), des révisions historiques ont été apportées au trois premiers cycles de l'enquête afin de corriger des erreurs et faire une mise à jour des données. Au cours du traitement, une attention particulière a été portée à la variable PERSRUK (l'identificateur au niveau de la personne) et à la variable FIELDRUK (l'identificateur au niveau du ménage). Le même niveau d'attention n'a pas été accordé aux autres identificateurs incluent dans la base de données, soit, la variable CHILDID (un identificateur au niveau de l'enfant) et la variable _IDHD01 (un identificateur au niveau du ménage). Ces identificateurs ont été créés pour les fichiers publics et ils se retrouvent par défaut dans les fichiers maîtres. Lorsque les fichiers maîtres sont utilisés, la variable PERSRUK devrait être utilisée pour lier les différents fichiers de données de l'enquête entre eux et la variable FIELDRUK pour déterminer le ménage.

    Date de diffusion : 2004-10-05

  • Enquêtes et programmes statistiques — Documentation : 13F0026M2001003
    Description :

    Les premiers résultats de l'Enquête sur la sécurité financière (ESF), qui fournit de l'information sur la valeur nette du patrimoine des Canadiens, ont été publiés le 15 mars 2001 dans Le quotidien. L'enquête a recueilli des renseignements sur la valeur des avoirs financiers et non financiers de chaque unité familiale et sur le montant de sa dette.

    Statistique Canada travaille actuellement à préciser cette première estimation de la valeur nette en y ajoutant une estimation de la valeur des droits à pension constitués dans les régimes de retraite d'employeur. Il s'agit d'un volet essentiel pour toute enquête sur l'avoir et la dette étant donné que, pour la plupart des unités familiales, c'est probablement l'un des avoirs les plus importants. Le vieillissement de la population rend l'information sur la constitution des droits à pension nécessaire afin de mieux comprendre la situation financière des personnes qui approchent de la retraite. Ces estimations mises à jour seront publiées à la fin de l'automne 2001.

    Le processus utilisé pour obtenir une estimation de la valeur des droits à pension constitués dans les régimes de pension agréés d'employeur (RPA) est complexe. Le présent document décrit la méthodologie utilisée pour estimer cette valeur en ce qui concerne les groupes suivants : a) Les personnes qui faisaient partie d'un RPA au moment de l'enquête (appelées membres actuels d'un régime de retraite); b) Les personnes qui ont déjà fait partie d'un RPA et qui ont laissé l'argent dans le régime de retraite ou qui l'ont transféré dans un nouveau régime de retraite; c) Les personnes qui touchent des prestations d'un RPA.

    Cette méthodologie a été proposée par Hubert Frenken et Michael Cohen. Hubert Frenken compte de nombreuses années d'expérience avec Statistique Canada où il a travaillé avec des données sur les régimes de retraite d'employeur. Michael Cohen fait partie de la direction de la firme d'actuariat-conseil William M. Mercer. Plus tôt cette année, Statistique Canada a organisé une consultation publique sur la méthodologie proposée. Le présent rapport inclut des mises à jour faites après avoir reçu les rétroactions des utilisateurs des données.

    Date de diffusion : 2001-09-05

  • Enquêtes et programmes statistiques — Documentation : 13F0026M2001002
    Description :

    L'Enquête sur la sécurité financière (ESF) fournira des renseignements sur la situation nette des Canadiens. C'est pourquoi elle a recueilli, en mai et juin 1999, des données sur la valeur de l'avoir et de la dette de chacune des familles ou personnes seules comprises dans l'échantillon. Il s'est avéré difficile de calculer ou d'estimer la valeur d'un avoir en particulier, à savoir la valeur actualisée du montant que les répondants ont constitué dans leur régime de retraite d'employeur. On appelle souvent ces régimes des régimes de pension agréés (RPA), car ils doivent être agréés par l'Agence des douanes et du revenu du Canada (ARDC) (c'est-à-dire enregistrés auprès de l'ADRC). Bien qu'on communique à certains participants à un RPA une estimation de la valeur de leurs droits constitués, ils l'ignorent dans la plupart des cas. Pourtant, il s'agit sans doute d'un des avoirs les plus importants pour bon nombre d'unités familiales. De plus, à mesure que la génération du baby boom se rapproche de la retraite, le besoin d'information sur ses rentes constituées se fait très pressant si l'on veut mieux comprendre sa capacité financière à négocier ce nouveau virage.

    La présente étude vise deux objectifs : décrire, pour stimuler des discussions, la méthodologie proposée en vue d'estimer la valeur actualisée des droits à pension pour les besoins de l'Enquête sur la sécurité financière; et recueillir des réactions à la méthodologie proposée. Le présent document propose une méthodologie pour estimer la valeur des droits constitués dans un régime d'employeur pour les groupes suivants : a) les personnes qui adhéraient à un RPA au moment de l'enquête (les «participants actuels»); b) les personnes qui ont déjà adhéré à un RPA et qui ont soit laissé leurs fonds dans le régime ou les ont transférés dans un nouveau régime; et c) les personnes qui touchent une rente prévue par un RPA.

    Date de diffusion : 2001-02-07

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015642
    Description :

    La Base de données longitudinale sur l'immigration (BDIM) établit un lien entre les dossiers administratifs de l'immigration et de l'impôt en une source exhaustive de données sur le comportement sur le marché du travail de la population des immigrants ayant obtenu le droit d'établissement au Canada. Elle porte sur la période de 1980 à 1995 et sera mise à jour en 1999 pour l'année d'imposition 1996. Statistique Canada gère la base de données pour le compte d'un consortium fédéral-provincial dirigé par Citoyenneté et Immigration Canada. Le présent document examine les enjeux du développement d'une base de données longitudinale combinant des dossiers administratifs, à l'appui de la recherche et de l'analyse en matière de politiques. L'accent est plus particulièrement mis sur les questions de méthodologie, de concepts, d'analyse et de protection des renseignements personnels découlant de la création et du développement continu de cette base de données. Le présent document aborde en outre brièvement les résultats des recherches, qui illustrent les liens en matière de résultats des politiques que la BDIM permet aux décideurs d'examiner.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015650
    Description :

    La U.S. Manufacturing Plant Ownership Change Database (OCD) a été créée d'après des données sur les usines extraites de la Longitudinal Research Database (LRD) du Census Bureau. Elle contient des données sur toutes les usines de fabrication qui ont changé de propriétaire au moins une fois entre 1963 et 1992. L'auteur fait le point sur l'OCD et examine les possibilités de recherche. Pour utiliser empiriquement ces possibilités, il se sert de données extraites de la base de données pour étudier le lien entre les changements de propriété et les fermetures d'usines.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015658
    Description :

    Le radon, qui est un gaz dont la présence est observée naturellement dans la plupart des maisons, est un facteur de risque confirmé pour le cancer du poumon chez les humains. Le National Research Council des États-Unis (1999) vient de terminer une évaluation approfondie du risque pour la santé de l'exposition résidentielle au radon, tout en élaborant des modèles de projection du risque de cancer pulmonaire dû au radon pour l'ensemble de la population. Cette analyse indique que le radon joue possiblement un rôle dans l'étiologie de 10-15 % des cas de cancer du poumon aux États-Unis, bien que ces estimations comportent une part appréciable d'incertitude. Les auteurs présentent une analyse partielle de l'incertidude et de la variabilité des estimations du risque de cancer pulmonaire dû à l'exposition résidentielle au radon, aux États-Unis, à l'aide d'un cadre général d'analyse de l'incertitude et de la variabilité établi antérieurement par ces mêmes auteurs. Plus particulièrement, il est question des estimations de l'excès de risque relatif (EFF) par âge et du risque relatif à vie (RRV), qui varient tous deux considérablement d'une personne à l'autre.

    Date de diffusion : 2000-03-02

  • Fichiers et documentation sur la géographie : 92F0138M1993001
    Géographie : Canada
    Description :

    Dans une perspective d'amélioration et de développement, les divisions de la géographie de Statistique Canada et du U.S. Bureau of the Census ont entrepris conjointement un programme de recherche pour étudier les régions géographiques, et la pertinence de ces dernières. Un des principaux objectifs poursuivis est la définition d'une région géographique commune qui servira de base géostatistique aux travaux transfrontaliers de recherche, d'analyse et de cartographie.

    Le présent rapport, première étape du programme de recherche, dresse la liste des régions géographiques normalisées canadiennes et américaines comparables d'après les définitions actuelles. Statistique Canada et l'U.S. Bureau of the Census ont deux grandes catégories d'entités géographiques normalisées: les régions administratives ou législatives (appelées entités "légales" aux États-Unis) et les régions statistiques.

    Ce premier appariement de régions géographiques s'est fait uniquement à partir des définitions établies pour le Recensement de la population et du logement du Canada du 4 juin 1991 et du Recensement de la population et du logement des États- Unis du 1er avril 1990. La comparabilité globale des concepts est l'aspect important d'un tel appariement, non pas les seuils numériques utilisés pour les délimitations des régions.

    Les utilisateurs doivent se servir du présent rapport comme d'un guide général pour comparer les régions géographiques de recensement du Canada et des États- Unis. Ils doivent garder à l'esprit que les types de peuplement et les niveaux de population présentent des différences qui font qu'une correspondance parfaite ne peut être établie entre des régions conceptuellement semblables. Les régions géographiques comparées dans le présent rapport peuvent servir de cadre pour d'autres recherches et d'autres analyses empiriques.

    Date de diffusion : 1999-03-05
Date de modification :