Inférence et fondements

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 1 facets selected.

Géographie

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (92)

Tout (92) (40 à 50 de 92 résultats)

  • Articles et rapports : 12-001-X201000111250
    Description :

    Nous proposons un estimateur de prédiction bayésien avec splines pénalisées (PBSP pour Bayesian Penalized Spline Predictive) pour une proportion de population finie sous échantillonnage avec probabilités inégales. Cette nouvelle méthode permet d'intégrer directement les probabilités d'inclusion dans l'estimation d'une proportion de population, en effectuant une régression probit du résultat binaire sur la fonction spline pénalisée des probabilités d'inclusion. La loi prédictive a posteriori de la proportion de population est obtenue en utilisant l'échantillonnage de Gibbs. Nous démontrons les avantages de l'estimateur PBSP comparativement à l'estimateur de Hájek (HK), à l'estimateur par la régression généralisée (RG) et aux estimateurs de prédiction fondés sur un modèle paramétrique au moyen d'études en simulation et d'un exemple réel de vérification fiscale. Les études en simulation montrent que l'estimateur PBSP est plus efficace et donne un intervalle de crédibilité à 95 % dont la probabilité de couverture est meilleure et dont la largeur moyenne est plus étroite que les estimateurs HK et RG, surtout quand la proportion de population est proche de zéro ou de un, ou que l'échantillon est petit. Comparativement aux estimateurs de prédiction fondés sur un modèle linéaire, les estimateurs PBSP sont robustes à l'erreur de spécification du modèle et à la présence d'observations influentes dans l'échantillon.

    Date de diffusion : 2010-06-29

  • Articles et rapports : 11-536-X200900110806
    Description :

    Les travaux récents qui utilisent la méthode du maximum de vraisemblance pseudo-empirique pour des inférences pour populations finies avec données d'enquêtes complexes se sont d'abord concentrées sur un échantillon d'enquête simple, non stratifié ou stratifié, avec de considérables efforts sur les procédures de calcul. Dans cet exposé, nous présentons une approche d'inférence par maximum de vraisemblance pseudo-empirique pour des enquêtes multiples et des enquêtes à bases multiples, deux problèmes souvent rencontrés en pratique dans les enquêtes. Nous montrons qu'il est possible de faire l'inférence à propos du paramètre d'intérêt commum et d'utiliser efficacement les divers types d'information auxiliaire de façon pratique par la maximisation sous contrainte de la fonction du maximum de vraisemblance pseudo-empirique. Nous obtenons les résultats asymptotiques qui sont utilisés pour construire des intervalles de confiance de ratio de maximum de vraisemblance pseudo-empiriques, soit en utilisant une approximation du chi-deux, soit en utilisant une calibration bootstrap. Tous les problèmes de calcul reliés peuvent être résolus en utilisant des algorithmes d'échantillonnage stratifié existants après avoir reformulé le problème de façon appropriée.

    Date de diffusion : 2009-08-11

  • Articles et rapports : 12-001-X200800110606
    Description :

    Aux États Unis, les données provenant des sondages électoraux sont habituellement présentées dans des tableaux de contingence à double entrée et de nombreux sondages sont réalisés avant qu'ait lieu l'élection réelle en novembre. Par exemple, pour l'élection du gouverneur de l'État de l'Ohio en 1998, trois sondages (Buckeye State Poll) ont eu lieu, un en janvier, un en avril et un en octobre; la première catégorie des tableaux représente les candidats (par exemple Fisher, Taft et autre) et la deuxième représente l'intention courante de vote (votera vraisemblablement ou ne votera vraisemblablement pas pour le gouverneur de l'Ohio). Le nombre d'électeurs indécis est important dans l'une ou dans les deux catégories pour les trois sondages et nous utilisons une méthode bayésienne pour les répartir entre les trois candidats. Nous pouvons ainsi modéliser divers scénarios de données manquantes sous les hypothèses d'ignorabilité et de non ignorabilité, et nous utilisons un modèle Dirichlet Multinomial pour estimer les probabilités de cellule qui nous aideront à prédire le gagnant. Nous proposons un modèle de non réponse non ignorable variable en fonction du temps pour les trois tableaux. Ici, un modèle de non réponse non ignorable est centré sur un modèle de non réponse ignorable afin d'induire une certaine souplesse et une certaine incertitude au sujet de l'ignorabilité ou de la non ignorabilité. Nous considérons également deux autres modèles concurrents, à savoir un modèle de non réponse ignorable et un modèle de non réponse non ignorable. Ces deux derniers modèles reposent sur l'hypothèse d'un processus stochastique commun pour obtenir un renforcement par emprunt de données au cours du temps. Nous utilisons des méthodes de Monte Carlo par chaîne de Markov pour ajuster les modèles. Nous construisons aussi un paramètre qui peut éventuellement être utilisé pour prédire le gagnant parmi les candidats à l'élection de novembre.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 11-522-X200600110392
    Description :

    Nous suivons une méthode bayésienne robuste pour analyser des données pouvant présenter un biais de non-réponse et un biais de sélection non ignorables. Nous utilisons un modèle de régression logistique robuste pour établir le lien entre les indicateurs de réponse (variable aléatoire de Bernoulli) et les covariables, dont nous disposons pour tous les membres de la population finie. Ce lien permet d'expliquer l'écart entre les répondants et les non-répondants de l'échantillon. Nous obtenons ce modèle robuste en élargissant le modèle de régression logistique conventionnel à un mélange de lois de Student, ce qui nous fournit des scores de propension (probabilité de sélection) que nous utilisons pour construire des cellules d'ajustement. Nous introduisons les valeurs des non-répondants en tirant un échantillon aléatoire à partir d'un estimateur à noyau de la densité, formé d'après les valeurs des répondants à l'intérieur des cellules d'ajustement. La prédiction fait appel à une régression linéaire spline, fondée sur les rangs, de la variable de réponse sur les covariables selon le domaine, en échantillonnant les erreurs à partir d'un autre estimateur à noyau de la densité, ce qui rend notre méthode encore plus robuste. Nous utilisons des méthodes de Monte-Carlo par chaînes de Markov (MCMC) pour ajuster notre modèle. Dans chaque sous-domaine, nous obtenons la loi a posteriori d'un quantile de la variable de réponse à l'intérieur de chaque sous-domaine en utilisant les statistiques d'ordre sur l'ensemble des individus (échantillonnés et non échantillonnés). Nous comparons notre méthode robuste à des méthodes paramétriques proposées récemment.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X200600110398
    Description :

    L'étude de données longitudinales est essentielle si l'on veut observer correctement l'évolution des variables d'intérêt chez les personnes, les collectivités et les populations plus importantes au cours du temps. Les modèles linéaires à effets mixtes (pour les réponses continues observées au fil du temps), ainsi que les modèles linéaires généralisés à effets mixtes et les équations d'estimation généralisées (pour les réponses plus générales, telles que les données binaires ou les dénombrements observés au fil du temps) sont les méthodes les plus répandues pour analyser les données longitudinales provenant d'études sur la santé, même si, comme toute méthode de modélisation, elles ont leurs limites, dues en partie aux hypothèses sous jacentes. Dans le présent article, nous discutons de certains progrès, dont l'utilisation de méthodes fondées sur des courbes, qui rendent la modélisation des données longitudinales plus souple. Nous présentons trois exemples d'utilisation de ces méthodes plus souples tirés de la littérature sur la santé, dans le but de démontrer que certaines questions par ailleurs difficiles peuvent être résolues raisonnablement lors de l'analyse de données longitudinales complexes dans les études sur la santé des populations.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X200600110419
    Description :

    La recherche sur les services de santé s'appuie habituellement sur des données d'observation afin de comparer les résultats chez des patients recevant des traitements différents. La comparaison de groupes de patients participant à des études par observation peut être biaisée, car les résultats diffèrent à la fois en raison des effets du traitement et de ceux liés au pronostic fait sur le patient. Dans certains cas, particulièrement lorsque les données recueillies ont trait à des facteurs de risque cliniques précis, il est possible de tenir compte de ces différences en utilisant des méthodes statistiques ou épidémiologiques. Dans d'autres cas, où des caractéristiques non mesurées de la population de patients ont une incidence sur la décision de prodiguer le traitement ainsi que sur le résultat, il est impossible d'éliminer ces différences par des techniques courantes. L'utilisation de données administratives sur la santé pour entreprendre des études par observation demande des précautions particulières, puisque d'importants renseignements cliniques font défaut. Nous discutons de plusieurs méthodes statistiques et épidémiologiques visant à éliminer le biais manifeste (mesurable) et caché (non mesurable) dans les études par observation. Ces méthodes comprennent l'ajustement de la composition des groupes de cas, l'appariement fondé sur la propension, la redéfinition des variables d'exposition d'intérêt et la technique économétrique d'analyse avec variables instrumentales (VI). Nous illustrons ces méthodes à l'aide d'exemples extraits de publications médicales, dont la prédiction de la mortalité un an après une crise cardiaque, le rendement des dépenses en soins de santé, en ce qui a trait aux avantages cliniques et financiers, dans les régions des États-Unis où les dépenses sont élevées, ainsi que les avantages du traitement effractif des patients ayant fait une crise cardiaque liés à la survie à long terme. Il est possible d'utiliser des données administratives sur la santé pour réaliser des études par observation à condition de veiller soigneusement à résoudre les problèmes liés à la causalité inverse et au facteur de confusion non mesuré.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 92F0138M2008002
    Description :

    Le 26 novembre 2006, l'Organisation de coopération et de développement économiques (OCDE) a été l'hôte d'un atelier international sur la définition et la mesure des régions métropolitaines. Les raisons ayant amené l'OCDE à organiser cet atelier sont les suivantes :

    1. Dans le monde hautement intégré que nous connaissons aujourd'hui, les régions métropolitaines sont devenues des agents économiques clés. Outre leur rôle traditionnel de pôles de croissance au niveau national, les régions métropolitaines constituent des centres essentiels de l'économie mondiale.2. Les décideurs politiques, les organismes internationaux et les réseaux de recherche sont de plus en plus fréquemment amenés à comparer les résultats économiques et sociaux des régions métropolitaines d'un pays à l'autre. Entre autres exemples de travaux menés par des réseaux et des organismes internationaux, mentionnons Habitat ONU, l'initiative Urban Audit de l'UE, ESPON et les travaux de l'OCDE sur la compétitivité des villes.3. Toutefois, la portée des enseignements que l'on peut tirer de ces comparaisons internationales est limitée en raison de l'absence d'une définition comparable du concept de région métropolitaine. La plupart des pays ont leur propre définition, et celle-ci varie sensiblement d'un pays à l'autre. De plus, les initiatives internationales visant à améliorer la comparabilité entre pays ont conduit, un peu paradoxalement, à une prolifération de définitions.4. Il n'y a en principe aucune raison particulière de préconiser une définition plutôt qu'une autre. Chaque définition a été formulée pour des fins analytiques particulières et, de ce fait, rend compte de certaines caractéristiques des régions métropolitaines tout en ayant tendance à en passer certaines autres sous silence. Le fait est que nous ne connaissons pas les points forts et les points faibles des différentes définitions; plus important encore, nous ne savons pas quelle incidence l'utilisation d'une définition donnée plutôt que d'une autre peut avoir sur l'analyse. 5. C'est dans le but de répondre à ces questions que l'OCDE a organisé un atelier international sur la définition et la mesure des régions métropolitaines (« Defining and Measuring Metropolitan Regions »). Cet atelier a rassemblé de grandes organisations internationales (ONU, Eurostat, Banque mondiale et OCDE), des bureaux de statistique nationaux et des chercheurs qui s'intéressent à ce domaine. L'objectif était d'élaborer certains « principes directeurs » auxquels les participants pourraient souscrire et qui constitueraient en bout de ligne l'assise d'une « orientation internationale » permettant de comparer les régions métropolitaines d'un pays à l'autre.

    Ce document de travail a été présenté lors de l'atelier en question. Il expose le fondement conceptuel et méthodologique qui sous tend la définition des régions métropolitaines au Canada; également, on y compare de façon détaillée la méthodologie utilisée au Canada et celle employée aux États-Unis. L'objet du document était d'alimenter les débats sur l'approche adoptée par le Canada pour la définition des régions métropolitaines, dans le contexte des travaux destinés à mettre de l'avant les « principes directeurs » mentionnés précédemment. Si cette étude est offerte sous forme de document de travail, c'est pour faire progresser les discussions sur le sujet et pour fournir des données de base à la collectivité des utilisateurs afin de favoriser le dialogue et la formulation de commentaires à propos de la méthodologie canadienne relative aux régions métropolitaines.

    Date de diffusion : 2008-02-20

  • Articles et rapports : 92F0138M2007001
    Description :

    Statistique Canada crée des fichiers qui fournissent le couplage entre les codes postaux et les régions géographiques selon lesquelles les données statistiques sont diffusées. En couplant les codes postaux et ses régions géographiques, Statistique Canada facilite l'extraction et l'agrégation subséquente de données pour certaines régions géographiques de fichiers mis à la disposition des utilisateurs. Les utilisateurs peuvent alors totaliser les données de Statistique Canada pour leurs régions et d'autres données pour ces mêmes régions de manière à établir un profil statistique combiné de ces régions.

    La méthodologie utilisée par Statistique Canada pour le couplage des codes postaux et des régions géographiques a été questionnée. Pour régler la situation, Statistique Canada a décidé de créer un cadre conceptuel pour l'élaboration des règles régissant le couplage des codes postaux et des régions géographiques de Statistique Canada. Le présent document de travail expose le cadre conceptuel et les règles de géocodage. La méthodologie qui y est décrite servira de fondement pour le couplage des codes postaux aux régions géographiques du Recensement de 2006. Les utilisateurs des produits de Statistique Canada qui font appel aux codes postaux sont invités à formuler des commentaires sur le présent document.

    Date de diffusion : 2007-02-12

  • Articles et rapports : 12-001-X20060019257
    Description :

    En présence de non réponse partielle, deux approches sont généralement utilisées à des fins d'inférence des paramètres d'intérêt. La première repose sur l'hypothèse que la réponse est uniforme dans les classes d'imputation, tandis que la seconde s'appuie sur l'hypothèse que la réponse est ignorable, mais utilise un modèle pour la variable d'intérêt comme fondement de l'inférence. Dans le présent article, nous proposons une troisième approche qui se fonde sur l'hypothèse d'un mécanisme de réponse précisé ignorable sans que doive être spécifié un modèle de la variable d'intérêt. Dans ce cas, nous montrons comment obtenir des valeurs imputées qui mènent à des estimateurs d'un total approximativement sans biais sous l'approche proposée, ainsi que sous la deuxième des approches susmentionnées. Nous obtenons aussi des estimateurs de la variance des estimateurs imputés qui sont approximativement sans biais en suivant une approche proposée par Fay (1991) dans laquelle sont inversés l'ordre de l'échantillonnage et de la réponse. Enfin, nous effectuons des études par simulation afin d'étudier les propriétés des méthodes dans le cas d'échantillons finis, en termes de biais et d'erreur quadratique moyenne.

    Date de diffusion : 2006-07-20

  • Articles et rapports : 11F0024M20050008805
    Description :

    Le présent document fait état de l'élaboration possible d'indicateurs infra-annuels concernant des industries de services sélectionnées à l'aide des données sur la taxe sur les produits et services (TPS). Le secteur des services revêt maintenant une importance capitale pour les économies avancées; toutefois, notre connaissance de ce secteur demeure incomplète, notamment en raison d'un manque de données. Depuis presque vingt ans, le Groupe de Voorburg sur les statistiques des services poursuit ses travaux pour élaborer et intégrer de meilleures mesures relativement à ce secteur. Malgré cela, on continue de compter sur les données du secteur de production des biens et, à l'exception du secteur du commerce, sur les données relatives à l'emploi dans le secteur des industries de services pour établir de nombreuses mesures économiques infra-annuelles.

    L'établissement d'indicateurs infra-annuels concernant les industries de services soulève deux questions relativement au programme national de la statistique. Tout d'abord, avons nous besoin d'indicateurs sur la production de services pour compléter les mesures infra-annuelles existantes? Deuxièmement, quelles sont les industries de services qui se prêtent le plus à cet exercice? Les auteurs du présent document examinent premièrement l'importance des industries de services et leur comportement dans les périodes de récession. Leur attention se porte ensuite sur les points à prendre en considération pour déterminer quelles industries de services choisir pour établir des indicateurs infra-annuels fondés sur la TPS. Une étude de cas utilisant le secteur des services d'hébergement est présentée afin d'illustrer dans quelle mesure l'actualité et l'exactitude des données sont améliorées. Nous terminons en examinant les possibilités et les limites de ces indicateurs.

    Date de diffusion : 2005-10-20
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (92)

Analyses (92) (20 à 30 de 92 résultats)

  • Articles et rapports : 12-001-X201700114822
    Description :

    Nous utilisons une méthode bayésienne pour inférer sur une proportion dans une population finie quand des données binaires sont recueillies selon un plan d’échantillonnage double sur des petits domaines. Le plan d’échantillonnage double correspond à un plan d’échantillonnage en grappes à deux degrés dans chaque domaine. Un modèle bayésien hiérarchique établi antérieurement suppose que, pour chaque domaine, les réponses binaires de premier degré suivent des lois de Bernoulli indépendantes et que les probabilités suivent des lois bêta paramétrisées par une moyenne et un coefficient de corrélation. La moyenne varie selon le domaine, tandis que la corrélation est la même dans tous les domaines. En vue d’accroître la flexibilité de ce modèle, nous l’avons étendu afin de permettre aux corrélations de varier. Les moyennes et les corrélations suivent des lois bêta indépendantes. Nous donnons à l’ancien modèle le nom de modèle homogène et au nouveau, celui de modèle hétérogène. Tous les hyperparamètres possèdent des distributions a priori non informatives appropriées. Une complication supplémentaire tient au fait que certains paramètres sont faiblement identifiés, ce qui rend difficile l’utilisation d’un échantillonneur de Gibbs classique pour les calculs. Donc, nous avons imposé des contraintes unimodales sur les distributions bêta a priori et utilisé un échantillonneur de Gibbs par blocs pour effectuer les calculs. Nous avons comparé les modèles hétérogène et homogène au moyen d’un exemple et d’une étude en simulation. Comme il fallait s’y attendre, le modèle double avec corrélations hétérogènes est celui qui est privilégié.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114545
    Description :

    L’estimation des quantiles est une question d’intérêt dans le contexte non seulement de la régression, mais aussi de la théorie de l’échantillonnage. Les expectiles constituent une solution de rechange naturelle ou un complément aux quantiles. En tant que généralisation de la moyenne, les expectiles ont gagné en popularité ces dernières années parce qu’en plus d’offrir un portrait plus détaillé des données que la moyenne ordinaire, ils peuvent servir à calculer les quantiles grâce aux liens étroits qui les associent à ceux-ci. Nous expliquons comment estimer les expectiles en vertu d’un échantillonnage à probabilités inégales et comment les utiliser pour estimer la fonction de répartition. L’estimateur ajusté de la fonction de répartition obtenu peut être inversé pour établir les estimations des quantiles. Nous réalisons une étude par simulations pour examiner et comparer l’efficacité de l’estimateur fondé sur des expectiles.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 11-522-X201700014704
    Description :

    Il existe plusieurs domaines et sujets de recherche méthodologique en statistiques officielles. Nous expliquons pourquoi ils sont importants, et pourquoi il s’agit des plus importants pour les statistiques officielles. Nous décrivons les principaux sujets dans ces domaines de recherche et nous donnons un aperçu de ce qui semble le plus prometteur pour les aborder. Nous nous penchons ici sur: (i) la qualité des comptes nationaux, et plus particulièrement le taux de croissance du revenu national brut; (ii) les mégadonnées, et plus particulièrement la façon de créer des estimations représentatives et de tirer le meilleur parti possible des mégadonnées, lorsque cela semble difficile ou impossible; Nous abordons aussi : (i) l’amélioration de l’actualité des estimations statistiques provisoires et finales; (ii) l’analyse statistique, plus particulièrement des phénomènes complexes et cohérents. Ces sujets font partie de l’actuel programme de recherche méthodologique stratégique qui a été adopté récemment à Statistique Pays-Bas.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201700014713
    Description :

    Le terme mégadonnées peut signifier différentes choses pour différentes personnes. Pour certaines, il s’agit d’ensembles de données que nos systèmes classiques de traitement et d’analyse ne peuvent plus traiter. Pour d’autres, cela veut simplement dire tirer parti des ensembles de données existants de toutes tailles et trouver des façons de les fusionner, avec comme objectif de produire de nouveaux éléments de connaissance. La première perspective présente un certain nombre de défis importants pour les études traditionnelles de marché, recherches sur l’opinion et recherches sociales. Dans l’un ou l’autre cas, il existe des répercussions pour l’avenir des enquêtes, qu’on commence à peine à explorer.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201700014727
    Description :

    "Des échantillons probabilistes tirés de bases de sondage quasi-universelles de ménages et de personnes, des mesures normalisées, qui donnent lieu à des enregistrements de données multivariées, analysés au moyen de procédures statistiques reflétant le plan de sondage – c’est-ce qui a constitué le fondement des sciences sociales empiriques pendant 75 ans. C’est cette structure de mesure qui a donné au monde développé la grande majorité de nos connaissances actuelles sur nos sociétés et leurs économies. Les données d’enquête conservées actuellement constituent un dossier historique unique. Cependant, nous vivons maintenant dans un monde de données bien différent de celui dans lequel les dirigeants des organismes statistiques et des sciences sociales ont grandi. Nous produisons maintenant des données multidimensionnelles à partir de recherches sur Internet, de dispositifs mobiles connectés à Internet, des médias sociaux, de différents capteurs, de lecteurs optiques de magasins de détails et d’autres dispositifs. Certains estiment que la taille de ces sources de données augmente de 40 % par année. La taille totale de ces nouvelles sources de données éclipse celle des enquêtes fondées sur un échantillon probabiliste. De plus, les enquêtes fondées sur des échantillons ne se portent pas très bien dans le monde développé. La baisse des taux de participation aux enquêtes est liée aux coûts de plus en plus élevés de la collecte des données. Malgré des besoins en information croissants, la création de nouveaux instruments d’enquête est entravée par les restrictions budgétaires imposées aux organismes de statistique officielle et aux sources de financement de la recherche en sciences sociales. Toutes ces observations représentent des défis sans précédent pour le paradigme de base de l’inférence dans les sciences sociales et économiques. L’article propose de nouvelles approches à mettre en œuvre pour ce moment charnière historique. "

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201700014738
    Description :

    Sous l’approche classique de traitement des observations manquantes fondée sur le plan de sondage, la construction de classes de pondération et le calage sont utilisés pour ajuster les poids de sondage pour les répondants présents dans l’échantillon. Ici, nous utilisons ces poids ajustés pour définir une loi de Dirichlet qui peut servir à faire des inférences au sujet de la population. Des exemples montrent que les procédures résultantes possèdent de meilleures propriétés de performance que les méthodes classiques quand la population est asymétrique.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201700014759
    Description :

    Nombre des possibilités et des défis de la science des données moderne découlent d’éléments dynamiques, dont l’évolution des populations, la croissance du volume de données administratives et commerciales sur les particuliers et les établissements, les flux continus de données et la capacité de les analyser et de les résumer en temps réel, ainsi que la détérioration des données faute de ressources pour les tenir à jour. Le domaine de la statistique officielle, qui met l’accent sur la qualité des données et l’obtention de résultats défendables, se prête parfaitement à la mise en relief des questions statistiques et liées à la science des données dans divers contextes. L’exposé souligne l’importance des bases de sondage de population et de leur tenue à jour, la possibilité d’utiliser des méthodes à bases de sondage multiples et des couplages d’enregistrements, la façon dont l’utilisation de données à grande échelle non issues d’enquêtes comme information auxiliaire façonne les objets de l’inférence, la complexité des modèles pour les grands ensembles de données, l’importance des méthodes récursives et de la régularisation, et les avantages des outils évolués de visualisation des données en ce qui concerne la détection des changements.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 11-522-X201300014251
    Description :

    Dans la perspective d’un modélisateur, je décris la situation actuelle en matière d’inférence fondée sur les enquêtes pour la production de statistiques officielles. Ce faisant, je tente de dégager les forces et les faiblesses des approches inférentielles fondées sur le plan de sondage, d’une part, et sur un modèle, d’autre part, appliquées aujourd’hui à l’échantillonnage, du moins en ce qui concerne les statistiques officielles. Je termine par un exemple tiré d’un plan de collecte adaptatif qui illustre pourquoi l’adoption d’une perspective fondée sur un modèle (fréquentiste ou bayésien) représente le meilleur moyen pour les statistiques officielles d’éviter la « schizophrénie inférentielle » débilitante qui semble inévitable si l’on applique les méthodes actuelles pour répondre aux nouvelles demandes d’information du monde d’aujourd’hui (et peut-être même de demain).

    Date de diffusion : 2014-10-31

  • Articles et rapports : 11-522-X201300014252
    Description :

    Même si l’estimation de caractéristiques de populations finies à partir d’échantillons probabilistes a obtenu beaucoup de succès pour les grands échantillons, des inférences à partir d’échantillons non probabilistes sont également possibles. Les échantillons non probabilistes ont été critiqués en raison du biais d’auto-sélection et de l’absence de méthodes pour estimer la précision des estimations. L’accès plus vaste à Internet et la capacité de procéder à des collectes de données très peu coûteuses en ligne ont ravivé l’intérêt pour ce sujet. Nous passons en revue des stratégies d’échantillonnage non probabiliste et nous résumons certains des enjeux clés. Nous proposons ensuite des conditions à respecter pour que l’échantillonnage non probabiliste puisse constituer une approche raisonnable. Nous concluons par des idées de recherches futures.

    Date de diffusion : 2014-10-31
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :