Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (81)

Tout (81) (0 à 10 de 81 résultats)

  • Articles et rapports : 12-001-X202300200004
    Description : Nous présentons une nouvelle méthodologie pour réconcilier des estimations des totaux des superficies cultivées au niveau du comté à un total prédéfini au niveau de l’État soumis à des contraintes d’inégalité et à des variances aléatoires dans le modèle de Fay-Herriot. Pour la superficie ensemencée du National Agricultural Statistics Service (NASS), un organisme du ministère de l’Agriculture des États-Unis (USDA), il est nécessaire d’intégrer la contrainte selon laquelle les totaux estimés, dérivés de données d’enquête et d’autres données auxiliaires, ne sont pas inférieurs aux totaux administratifs de la superficie ensemencée préenregistrés par d’autres organismes du USDA, à l’exception de NASS. Ces totaux administratifs sont considérés comme fixes et connus, et cette exigence de cohérence supplémentaire ajoute à la complexité de la réconciliation des estimations au niveau du comté. Une analyse entièrement bayésienne du modèle de Fay-Herriot offre un moyen intéressant d’intégrer les contraintes d’inégalité et de réconciliation et de quantifier les incertitudes qui en résultent, mais l’échantillonnage à partir des densités a posteriori comprend une intégration difficile; des approximations raisonnables doivent être faites. Tout d’abord, nous décrivons un modèle à rétrécissement unique, qui rétrécit les moyennes lorsque l’on suppose que les variances sont connues. Ensuite, nous élargissons ce modèle pour tenir compte du rétrécissement double par l’emprunt d’information dans les moyennes et les variances. Ce modèle élargi comporte deux sources de variation supplémentaire; toutefois, comme nous rétrécissons à la fois les moyennes et les variances, ce second modèle devrait avoir un meilleur rendement sur le plan de la qualité de l’ajustement (fiabilité) et, possiblement, sur le plan de la précision. Les calculs sont difficiles pour les deux modèles, qui sont appliqués à des ensembles de données simulées dont les propriétés ressemblent à celles des cultures de maïs de l’Illinois.
    Date de diffusion : 2024-01-03

  • Stats en bref : 89-20-00062023001
    Description : Ce cours s’adresse aux employés du gouvernement du Canada qui veulent apprendre à évaluer la qualité des données pour un usage particulier. Que vous soyez un employé souhaitant apprendre les bases du sujet ou un spécialiste du domaine cherchant à perfectionner ses compétences, ce cours pourra vous être utile.
    Date de diffusion : 2023-07-17

  • Stats en bref : 89-20-00062022004
    Description :

    L’acquisition l’exploration, l’analyse et l’interprétation des données sont des étapes essentielles du processus permettant de produire des renseignements qui sont utiles pour la société, l’économie et l’environnement. Dans cette vidéo, nous discuterons de l’importance de tenir compte de l’éthique des données tout au long du processus de production de renseignements statistiques.

    Comme préalable à cette vidéo, assurez-vous d’avoir regardé la vidéo intitulée « L’éthique des données : Une introduction », qui se trouve également dans le catalogue d’apprentissage de l’Initiative de formation en littératie des données de Statistique Canada.

    Date de diffusion : 2022-10-17

  • Stats en bref : 89-20-00062022005
    Description :

    Dans cette vidéo, vous obtiendrez les réponses aux questions suivantes : Quels sont les différents types d’erreurs? Quels sont les types d’erreurs qui entraînent un biais statistique? À quelle étape du parcours des données est-il possible que des erreurs entraînant des biais statistiques puissent survenir?

    Date de diffusion : 2022-10-17

  • Articles et rapports : 12-001-X202200100004
    Description :

    Lorsque la taille de l’échantillon d’un domaine est faible, le fait d’emprunter des renseignements aux voisins est une technique d’estimation sur petits domaines qui permet d’obtenir des estimations plus fiables. L’un des modèles les plus connus en ce qui concerne l’estimation sur petits domaines est un modèle multinomial hiérarchique de Dirichlet pour les comptes multinomiaux. En raison des caractéristiques naturelles des données, il est pertinent d’émettre une hypothèse sur la restriction d’ordre unimodal dans le cas des espaces de paramètres. Dans notre application, l’indice de masse corporelle est plus susceptible de correspondre à un niveau de surpoids, ce qui signifie que la restriction d’ordre unimodal pourrait être raisonnable. La même restriction d’ordre unimodal pour tous les domaines pourrait être trop forte pour s’avérer dans certains cas. Pour accroître la souplesse, nous ajoutons une incertitude à la restriction d’ordre unimodal. Chaque domaine présentera des tendances unimodaux similaires, sans être identiques. Comme la restriction d’ordre intégrant de l’incertitude augmente la difficulté d’inférence, nous effectuons une comparaison avec les valeurs sommaires a posteriori et la pseudo-vraisemblance marginale logarithmique approximative.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202200100006
    Description :

    Au cours des deux dernières décennies, les taux de réponse aux enquêtes ont régulièrement diminué. Dans ce contexte, il est devenu de plus en plus important pour les organismes statistiques d’élaborer et d’utiliser des méthodes permettant de réduire les effets négatifs de la non-réponse sur l’exactitude des estimations découlant d’enquêtes. Le suivi des cas de non-réponse peut être un remède efficace, même s’il exige du temps et des ressources, pour pallier le biais de non-réponse. Nous avons mené une étude par simulations à l’aide de données réelles d’enquêtes-entreprises, afin de tenter de répondre à plusieurs questions relatives au suivi de la non-réponse. Par exemple, en supposant un budget fixe de suivi de la non-réponse, quelle est la meilleure façon de sélectionner les unités non répondantes auprès desquelles effectuer un suivi ? Quel effort devons-nous consacrer à un suivi répété des non-répondants jusqu’à la réception d’une réponse ? Les non-répondants devraient-ils tous faire l’objet d’un suivi ou seulement un échantillon d’entre eux ? Dans le cas d’un suivi d’un échantillon seulement, comment sélectionner ce dernier ? Nous avons comparé les biais relatifs Monte Carlo et les racines de l’erreur quadratique moyenne relative Monte Carlo pour différents plans de sondage du suivi, tailles d’échantillon et scénarios de non-réponse. Nous avons également déterminé une expression de la taille de l’échantillon de suivi minimale nécessaire pour dépenser le budget, en moyenne, et montré que cela maximise le taux de réponse espéré. Une principale conclusion de notre expérience de simulation est que cette taille d’échantillon semble également réduire approximativement le biais et l’erreur quadratique moyenne des estimations.

    Date de diffusion : 2022-06-21

  • Stats en bref : 89-20-00062022001
    Description :

    La collecte, l’exploration, l’analyse et l’interprétation des données sont des étapes essentielles de la production de renseignements qui profitent à la société, à l’économie et à l’environnement. Pour mener à bien ces processus, l'éthique des données doivent être assumées afin de garantir une utilisation appropriée des données.

    Date de diffusion : 2022-05-24

  • Stats en bref : 89-20-00062022002
    Description :

    Cette vidéo expliquera ce que signifie être FAIR en ce qui concerne les données et les métadonnées, et comment chaque pilier de FAIR sert à guider les utilisateurs et les producteurs dans le cheminement des données, afin de leur permettre d’obtenir une valeur maximale à long terme.

    Date de diffusion : 2022-05-24

  • Stats en bref : 89-20-00062022003
    Description :

    À la fin de cette vidéo, vous comprendrez ce que sont les intervalles de confiance, pourquoi nous les utilisons et quels facteurs ont un impact sur eux.

    Date de diffusion : 2022-05-24

  • Articles et rapports : 11-522-X202100100025
    Description :

    Nous proposons une analyse longitudinale selon un point de vue lié aux changements organisationnels intervenus à l’Institut national italien de statistique ces dernières années. En 2016, l’Institut a mis en place une nouvelle direction, en vue d’uniformiser et de généraliser le processus opérationnel de la collecte de données conformément à la norme européenne du modèle GAMSO. Dans cette étude, nous discutons des avantages et des inconvénients de ce changement du point de vue de la participation aux enquêtes. L’analyse du taux de réponse aux enquêtes sur les TIC révèle une hausse d’environ 20 % depuis le début de la nouvelle organisation : le présent article tente de se concentrer sur les répercussions des changements apportés avec la nouvelle organisation. Nous nous sommes concentrés sur deux sous-ensembles donnés de répondants : celui appelé des « personnes recherchées », à savoir celles n’ayant jamais répondu à une enquête sur les TIC ni à toute autre enquête de l’ISTAT, d’une part, et le sous-ensemble des personnes dites « perdues », qui étaient incluses dans les échantillons de deux enquêtes consécutives et qui ont répondu à l’édition précédente, mais pas à l’édition actuelle. Cette étude vise à illustrer la façon dont l’organisation efficace de la collecte de données améliore les résultats de l’enquête ainsi que le type de mesures qui devraient être prises pour attirer l’attention des « personnes recherchées ». Enfin, nous appliquons un modèle logistique qui mesure la probabilité qu’une entreprise ayant répondu en 2018 (t-1) réponde également en 2019 (t). De plus, l’analyse suggère des mesures qui pourraient être prises pour améliorer la participation des répondants, la qualité des données ainsi que la perception qu’ont les répondants des statistiques officielles.

    Mots clés : stratégie de collecte des données; taux de réponse; paradonnées; fardeau de réponse; enquête sur les TIC.

    Date de diffusion : 2021-10-29
Stats en bref (6)

Stats en bref (6) ((6 résultats))

  • Stats en bref : 89-20-00062023001
    Description : Ce cours s’adresse aux employés du gouvernement du Canada qui veulent apprendre à évaluer la qualité des données pour un usage particulier. Que vous soyez un employé souhaitant apprendre les bases du sujet ou un spécialiste du domaine cherchant à perfectionner ses compétences, ce cours pourra vous être utile.
    Date de diffusion : 2023-07-17

  • Stats en bref : 89-20-00062022004
    Description :

    L’acquisition l’exploration, l’analyse et l’interprétation des données sont des étapes essentielles du processus permettant de produire des renseignements qui sont utiles pour la société, l’économie et l’environnement. Dans cette vidéo, nous discuterons de l’importance de tenir compte de l’éthique des données tout au long du processus de production de renseignements statistiques.

    Comme préalable à cette vidéo, assurez-vous d’avoir regardé la vidéo intitulée « L’éthique des données : Une introduction », qui se trouve également dans le catalogue d’apprentissage de l’Initiative de formation en littératie des données de Statistique Canada.

    Date de diffusion : 2022-10-17

  • Stats en bref : 89-20-00062022005
    Description :

    Dans cette vidéo, vous obtiendrez les réponses aux questions suivantes : Quels sont les différents types d’erreurs? Quels sont les types d’erreurs qui entraînent un biais statistique? À quelle étape du parcours des données est-il possible que des erreurs entraînant des biais statistiques puissent survenir?

    Date de diffusion : 2022-10-17

  • Stats en bref : 89-20-00062022001
    Description :

    La collecte, l’exploration, l’analyse et l’interprétation des données sont des étapes essentielles de la production de renseignements qui profitent à la société, à l’économie et à l’environnement. Pour mener à bien ces processus, l'éthique des données doivent être assumées afin de garantir une utilisation appropriée des données.

    Date de diffusion : 2022-05-24

  • Stats en bref : 89-20-00062022002
    Description :

    Cette vidéo expliquera ce que signifie être FAIR en ce qui concerne les données et les métadonnées, et comment chaque pilier de FAIR sert à guider les utilisateurs et les producteurs dans le cheminement des données, afin de leur permettre d’obtenir une valeur maximale à long terme.

    Date de diffusion : 2022-05-24

  • Stats en bref : 89-20-00062022003
    Description :

    À la fin de cette vidéo, vous comprendrez ce que sont les intervalles de confiance, pourquoi nous les utilisons et quels facteurs ont un impact sur eux.

    Date de diffusion : 2022-05-24
Articles et rapports (75)

Articles et rapports (75) (0 à 10 de 75 résultats)

  • Articles et rapports : 12-001-X202300200004
    Description : Nous présentons une nouvelle méthodologie pour réconcilier des estimations des totaux des superficies cultivées au niveau du comté à un total prédéfini au niveau de l’État soumis à des contraintes d’inégalité et à des variances aléatoires dans le modèle de Fay-Herriot. Pour la superficie ensemencée du National Agricultural Statistics Service (NASS), un organisme du ministère de l’Agriculture des États-Unis (USDA), il est nécessaire d’intégrer la contrainte selon laquelle les totaux estimés, dérivés de données d’enquête et d’autres données auxiliaires, ne sont pas inférieurs aux totaux administratifs de la superficie ensemencée préenregistrés par d’autres organismes du USDA, à l’exception de NASS. Ces totaux administratifs sont considérés comme fixes et connus, et cette exigence de cohérence supplémentaire ajoute à la complexité de la réconciliation des estimations au niveau du comté. Une analyse entièrement bayésienne du modèle de Fay-Herriot offre un moyen intéressant d’intégrer les contraintes d’inégalité et de réconciliation et de quantifier les incertitudes qui en résultent, mais l’échantillonnage à partir des densités a posteriori comprend une intégration difficile; des approximations raisonnables doivent être faites. Tout d’abord, nous décrivons un modèle à rétrécissement unique, qui rétrécit les moyennes lorsque l’on suppose que les variances sont connues. Ensuite, nous élargissons ce modèle pour tenir compte du rétrécissement double par l’emprunt d’information dans les moyennes et les variances. Ce modèle élargi comporte deux sources de variation supplémentaire; toutefois, comme nous rétrécissons à la fois les moyennes et les variances, ce second modèle devrait avoir un meilleur rendement sur le plan de la qualité de l’ajustement (fiabilité) et, possiblement, sur le plan de la précision. Les calculs sont difficiles pour les deux modèles, qui sont appliqués à des ensembles de données simulées dont les propriétés ressemblent à celles des cultures de maïs de l’Illinois.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200100004
    Description :

    Lorsque la taille de l’échantillon d’un domaine est faible, le fait d’emprunter des renseignements aux voisins est une technique d’estimation sur petits domaines qui permet d’obtenir des estimations plus fiables. L’un des modèles les plus connus en ce qui concerne l’estimation sur petits domaines est un modèle multinomial hiérarchique de Dirichlet pour les comptes multinomiaux. En raison des caractéristiques naturelles des données, il est pertinent d’émettre une hypothèse sur la restriction d’ordre unimodal dans le cas des espaces de paramètres. Dans notre application, l’indice de masse corporelle est plus susceptible de correspondre à un niveau de surpoids, ce qui signifie que la restriction d’ordre unimodal pourrait être raisonnable. La même restriction d’ordre unimodal pour tous les domaines pourrait être trop forte pour s’avérer dans certains cas. Pour accroître la souplesse, nous ajoutons une incertitude à la restriction d’ordre unimodal. Chaque domaine présentera des tendances unimodaux similaires, sans être identiques. Comme la restriction d’ordre intégrant de l’incertitude augmente la difficulté d’inférence, nous effectuons une comparaison avec les valeurs sommaires a posteriori et la pseudo-vraisemblance marginale logarithmique approximative.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202200100006
    Description :

    Au cours des deux dernières décennies, les taux de réponse aux enquêtes ont régulièrement diminué. Dans ce contexte, il est devenu de plus en plus important pour les organismes statistiques d’élaborer et d’utiliser des méthodes permettant de réduire les effets négatifs de la non-réponse sur l’exactitude des estimations découlant d’enquêtes. Le suivi des cas de non-réponse peut être un remède efficace, même s’il exige du temps et des ressources, pour pallier le biais de non-réponse. Nous avons mené une étude par simulations à l’aide de données réelles d’enquêtes-entreprises, afin de tenter de répondre à plusieurs questions relatives au suivi de la non-réponse. Par exemple, en supposant un budget fixe de suivi de la non-réponse, quelle est la meilleure façon de sélectionner les unités non répondantes auprès desquelles effectuer un suivi ? Quel effort devons-nous consacrer à un suivi répété des non-répondants jusqu’à la réception d’une réponse ? Les non-répondants devraient-ils tous faire l’objet d’un suivi ou seulement un échantillon d’entre eux ? Dans le cas d’un suivi d’un échantillon seulement, comment sélectionner ce dernier ? Nous avons comparé les biais relatifs Monte Carlo et les racines de l’erreur quadratique moyenne relative Monte Carlo pour différents plans de sondage du suivi, tailles d’échantillon et scénarios de non-réponse. Nous avons également déterminé une expression de la taille de l’échantillon de suivi minimale nécessaire pour dépenser le budget, en moyenne, et montré que cela maximise le taux de réponse espéré. Une principale conclusion de notre expérience de simulation est que cette taille d’échantillon semble également réduire approximativement le biais et l’erreur quadratique moyenne des estimations.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 11-522-X202100100025
    Description :

    Nous proposons une analyse longitudinale selon un point de vue lié aux changements organisationnels intervenus à l’Institut national italien de statistique ces dernières années. En 2016, l’Institut a mis en place une nouvelle direction, en vue d’uniformiser et de généraliser le processus opérationnel de la collecte de données conformément à la norme européenne du modèle GAMSO. Dans cette étude, nous discutons des avantages et des inconvénients de ce changement du point de vue de la participation aux enquêtes. L’analyse du taux de réponse aux enquêtes sur les TIC révèle une hausse d’environ 20 % depuis le début de la nouvelle organisation : le présent article tente de se concentrer sur les répercussions des changements apportés avec la nouvelle organisation. Nous nous sommes concentrés sur deux sous-ensembles donnés de répondants : celui appelé des « personnes recherchées », à savoir celles n’ayant jamais répondu à une enquête sur les TIC ni à toute autre enquête de l’ISTAT, d’une part, et le sous-ensemble des personnes dites « perdues », qui étaient incluses dans les échantillons de deux enquêtes consécutives et qui ont répondu à l’édition précédente, mais pas à l’édition actuelle. Cette étude vise à illustrer la façon dont l’organisation efficace de la collecte de données améliore les résultats de l’enquête ainsi que le type de mesures qui devraient être prises pour attirer l’attention des « personnes recherchées ». Enfin, nous appliquons un modèle logistique qui mesure la probabilité qu’une entreprise ayant répondu en 2018 (t-1) réponde également en 2019 (t). De plus, l’analyse suggère des mesures qui pourraient être prises pour améliorer la participation des répondants, la qualité des données ainsi que la perception qu’ont les répondants des statistiques officielles.

    Mots clés : stratégie de collecte des données; taux de réponse; paradonnées; fardeau de réponse; enquête sur les TIC.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100006
    Description :

    Dans le contexte de son paradigme « données administratives d’abord », Statistique Canada donne la priorité à l’utilisation de sources autres que les enquêtes pour produire des statistiques officielles. Ce paradigme repose de façon capitale sur des sources autres que les enquêtes pouvant fournir une couverture quasi parfaite de certaines populations cibles, y compris des fichiers administratifs ou des sources de mégadonnées. Toutefois, cette couverture doit être mesurée, en appliquant par exemple la méthode de capture-recapture, selon laquelle les données sont comparées à d’autres sources présentant une bonne couverture des mêmes populations, y compris un recensement. Cependant, il s’agit d’un exercice difficile en présence d’erreurs de couplage, qui surviennent inévitablement lorsque le couplage se fonde sur des quasi-identificateurs, comme cela est généralement le cas. Pour faire face à cet enjeu, une nouvelle méthodologie est décrite, selon laquelle la méthode de capture-recapture est améliorée grâce à un nouveau modèle d’erreur fondé sur le nombre de couplages contigus à un enregistrement donné. Elle est appliquée dans le cadre d’une expérience avec des données publiques de recensement.

    Mots clés : estimation de système dual; appariement de données; couplage d’enregistrements; qualité; intégration des données; mégadonnées.

    Date de diffusion : 2021-10-22

  • Articles et rapports : 12-001-X202100100001
    Description :

    Dans un article précédent, nous avons élaboré un modèle pour effectuer une inférence sur des proportions de petits domaines en cas de biais de sélection dans lequel les réponses binaires et les probabilités de sélection sont corrélées. Il s’agit du modèle de sélection non ignorable homogène; une sélection non ignorable signifie que les probabilités de sélection et les réponses binaires sont corrélées. Il a été montré que le modèle de sélection non ignorable homogène donne de meilleurs résultats qu’un modèle de sélection ignorable de référence. Toutefois, l’une des limites du modèle de sélection non ignorable homogène réside dans le fait que les distributions des probabilités de sélection sont supposées identiques dans tous les domaines. C’est pourquoi nous introduisons un modèle plus général, le modèle de sélection non ignorable hétérogène, dans lequel les probabilités de sélection ne sont pas distribuées identiquement dans tous les domaines. Nous avons utilisé des méthodes de Monte Carlo par chaînes de Markov pour ajuster les trois modèles. Nous illustrons notre méthodologie et comparons nos modèles à l’aide d’un exemple sur la limitation d’activité sévère de la U.S. National Health Interview Survey (Enquête nationale sur la santé réalisée par interviews aux États-Unis). Nous réalisons également une étude par simulations pour démontrer que notre modèle de sélection non ignorable hétérogène est nécessaire en présence d’un biais de sélection modéré ou fort.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100005
    Description :

    Les stratégies bayésiennes de regroupement servent à résoudre les problèmes de précision liés aux analyses statistiques des données sur petits domaines. Dans ces cas, les échantillons des sous-populations sont généralement petits, même si la population ne l’est pas nécessairement. Une autre solution consiste à regrouper des données semblables en vue de réduire le nombre de paramètres dans le modèle. De nombreuses enquêtes recueillent des données catégoriques par domaine, lesquelles sont ensuite réunies dans un tableau de contingence. Nous examinons les modèles de regroupement bayésiens hiérarchisés avec une loi a priori de processus de Dirichlet pour analyser les données catégoriques sur de petits domaines. Toutefois, la loi a priori utilisée aux fins de regroupement de ces données entraîne souvent un problème de rétrécissement excessif. Pour corriger le problème, nous séparons les paramètres en effets globaux et locaux. Cette étude porte sur le regroupement de données au moyen d’un processus de Dirichlet. Nous comparons les modèles de regroupement utilisant des données sur la densité minérale osseuse (DMO) tirées de la Third National Health and Nutrition Examination Survey, portant sur la période de 1988 à 1994 aux États-Unis. Nos analyses des données sur la DMO sont effectuées au moyen d’un échantillonneur de Gibbs et d’un échantillonnage par tranche pour effectuer les calculs a posteriori.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 18-001-X2020001
    Description :

    Le présent article décrit la méthodologie qui a utilisée pour générer la première mouture de cette base de données, qui contient les résultats obtenus à partir d'un premier ensemble de dix mesures. Les méthodes de calcul sont présentées sous forme de modèle généralisable, car il est maintenant possible d'appliquer des méthodes similaires à une multitude d'autres services et commodités, avec diverses autres spécifications.

    Date de diffusion : 2021-02-15

  • Articles et rapports : 12-001-X201900200004
    Description :

    La réconciliation d’estimations de niveau inférieur à des estimations de niveau supérieur est une activité importante au National Agricultural Statistics Service (NASS) du département de l’Agriculture des États-Unis (par exemple, réconcilier les estimations de superficie d’ensemencement en maïs des comtés aux estimations au niveau des États). Nous posons qu’un comté est un petit domaine et employons le modèle initial de Fay-Herriot pour obtenir une méthode bayésienne générale pour réconcilier les estimations des comtés aux estimations des États (constituant la cible). Dans ce cas, nous supposons que les estimations cibles sont connues et dégageons les estimations des comtés avec pour contrainte que leur addition donne la valeur cible. C’est là une réconciliation externe qui a de l’importance pour la statistique officielle, et non seulement pour les données du NASS, et on le rencontre plus généralement dans les estimations sur petits domaines. Il est possible de réconcilier de telles estimations en « supprimant » un des comtés (habituellement le dernier) de manière à intégrer la contrainte de réconciliation au modèle. Il est tout aussi vrai cependant que les estimations peuvent changer selon le comté qui est supprimé au moment d’inclure la contrainte dans le modèle. Dans la présente étude, nous accordons à chaque petit domaine une chance de suppression et parlons pour toute cette procédure de méthode de réconciliation par suppression aléatoire. Nous démontrons empiriquement que les estimations accusent des différences selon le comté supprimé et qu’il existe des différences entre ces estimations et celles obtenues par suppression aléatoire. Ces différences peuvent être jugées petites, mais il est hautement logique de procéder par suppression aléatoire; aucun comté n’a alors droit à un traitement préférentiel et nous observons également une modeste hausse de la précision par rapport à une réconciliation avec suppression du dernier petit domaine.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900200006
    Description :

    Ce document présente un nouvel algorithme pour résoudre le problème de stratification unidimensionnelle optimale, lequel se ramène à une détermination des bornes de strate. Lorsque le nombre de strates H et la taille totale de l’échantillon n sont fixes, on obtient les bornes de strate en minimisant la variance de l’estimateur d’un total pour la variable de stratification. C’est un algorithme qui fait appel à la métaheuristique de l’algorithme génétique biaisé à clés aléatoires (BRKGA) pour trouver la solution optimale. Il a été démontré que cette métaheuristique produit des solutions de bonne qualité à de nombreux problèmes d’optimisation à un prix modeste en temps de calcul. L’algorithme est mis en œuvre dans le package stratbr en R disponible à partir de CRAN (de Moura Brito, do Nascimento Silva et da Veiga, 2017a). Nous livrons des résultats numériques pour un ensemble de 27 populations, ce qui permet de comparer le nouvel algorithme à certaines méthodes rivales figurant dans la documentation spécialisée. L’algorithme est d’un meilleur rendement que les méthodes plus simples par approximation. Il est également supérieur à quelques autres approches en optimisation. Il est égal en rendement à la meilleure technique d’optimisation que l’on doit à Kozak (2004). Son principal avantage sur la méthode de Kozak réside dans le couplage de la stratification optimale avec la répartition optimale que proposent de Moura Brito, do Nascimento Silva, Silva Semaan et Maculan (2015), d’où l’assurance que, si les bornes de stratification obtenues atteignent l’optimum global, la solution dégagée dans l’ensemble sera aussi l’optimum global pour les bornes de stratification et la répartition de l’échantillon.

    Date de diffusion : 2019-06-27
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :