Techniques statistiques

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

3 facets displayed. 0 facets selected.

Enquête ou programme statistique

48 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (188)

Tout (188) (20 à 30 de 188 résultats)

  • Articles et rapports : 11-637-X202200100002
    Description :

    Comme deuxième objectif défini dans le Programme de développement durable à l'horizon 2030, le Canada et les autres États membres de l'ONU se sont engagés à éliminer la faim, assurer la securité alimentaire, améliorer la nutrition et promouvoir l'agriculture durable d'ici 2030. Cette infographie de 2022 donne un aperçu des indicateurs sous-jacents au deuxième objectif de développement durable en faveur d'éliminer la faim, ainsi que les statistiques et sources de données utilisées pour suivre et rendre compte de cet objectif au Canada.

    Date de diffusion : 2022-06-23

  • Articles et rapports : 11-637-X202200100003
    Description :

    Comme troisième objectif défini dans le Programme de développement durable à l'horizon 2030, le Canada et les autres États membres de l'ONU se sont engagés à permettre à tous de vivre en bonne santé et promouvoir le bien-être de tous à tout âge d'ici 2030. Cette infographie de 2022 donne un aperçu des indicateurs sous-jacents au troisième objectif de développement durable en faveur de la bonne santé et bien-être, ainsi que les statistiques et sources de données utilisées pour suivre et rendre compte de cet objectif au Canada.

    Date de diffusion : 2022-06-23

  • Articles et rapports : 12-001-X202200100007
    Description :

    Dans le cadre d’un couplage d’enregistrements, on associe des enregistrements résidant dans des fichiers distincts que l’on pense être reliés à la même entité. Dans la présente étude, nous abordons le couplage d’enregistrements comme un problème de classification et adaptons la méthode de classification par entropie maximale de l’apprentissage automatique pour coupler des enregistrements, tant dans l’environnement d’apprentissage automatique supervisé que non supervisé. L’ensemble de couplages est choisi en fonction de l’incertitude connexe. D’une part, notre cadre de travail permet de surmonter certaines failles théoriques persistantes de l’approche classique dont les pionniers ont été Fellegi et Sunter (1969); d’autre part, l’algorithme proposé est entièrement automatique, contrairement à l’approche classique qui nécessite généralement un examen manuel afin de résoudre des cas indécis.

    Date de diffusion : 2022-06-21

  • Stats en bref : 89-20-00062022001
    Description :

    La collecte, l’exploration, l’analyse et l’interprétation des données sont des étapes essentielles de la production de renseignements qui profitent à la société, à l’économie et à l’environnement. Pour mener à bien ces processus, l'éthique des données doivent être assumées afin de garantir une utilisation appropriée des données.

    Date de diffusion : 2022-05-24

  • Stats en bref : 89-20-00062022002
    Description :

    Cette vidéo expliquera ce que signifie être FAIR en ce qui concerne les données et les métadonnées, et comment chaque pilier de FAIR sert à guider les utilisateurs et les producteurs dans le cheminement des données, afin de leur permettre d’obtenir une valeur maximale à long terme.

    Date de diffusion : 2022-05-24

  • Stats en bref : 89-20-00062022003
    Description :

    À la fin de cette vidéo, vous comprendrez ce que sont les intervalles de confiance, pourquoi nous les utilisons et quels facteurs ont un impact sur eux.

    Date de diffusion : 2022-05-24

  • Articles et rapports : 12-001-X202100200002
    Description :

    Dans le couplage d’ensembles de données massifs, on a recours aux pochettes pour sélectionner un sous-ensemble gérable de paires d’enregistrements quitte à perdre quelques paires appariées. Cette perte tient une grande place dans l’erreur de couplage globale, parce que les décisions relatives aux pochettes se prennent tôt dans le processus sans qu’on puisse les réviser par la suite. Mesurer le rôle que joue cette perte demeure un grand défi si on considère la nécessité de modéliser toutes les paires dans le produit cartésien des sources, et non seulement celles qui répondent aux critères des pochettes. Malheureusement, les modèles antérieurs d’erreur ne nous aident guère parce qu’ils ne respectent normalement pas cette exigence. Il sera question ici d’un nouveau modèle de mélange fini, qui ne demande ni vérifications manuelles, ni données d’entraînement, ni hypothèse d’indépendance conditionnelle des variables de couplage. Il s’applique dans le cadre d’une procédure de pochettes typique dans le couplage d’un fichier avec un registre ou un recensement exhaustif lorsque ces deux sources sont exemptes d’enregistrements en double.

    Date de diffusion : 2022-01-06

  • Stats en bref : 11-001-X202134332266
    Description : Communiqué publié dans Le Quotidien – Bulletin de diffusion officielle de Statistique Canada
    Date de diffusion : 2021-12-09

  • Articles et rapports : 11-522-X202100100010
    Description :

    Dans le cadre du traitement du recensement canadien de 2021, les réponses en toutes lettres aux 31 questions du recensement doivent être codées. Jusqu’en 2016, il s’agissait d’un processus en trois étapes, dont une deuxième étape de « codage interactif (humain) ». Cette étape de codage humain est à la fois longue et coûteuse, s’étalant sur de nombreux mois et nécessitant le recrutement et la formation d’un grand nombre d’employés temporaires. Dans cette optique, pour 2021, cette étape sera soit complétée ou entièrement remplacée par des modèles d’apprentissage automatique à l’aide de l’algorithme « fastText ». Dans cette présentation, nous discuterons de la mise en place de cet algorithme ainsi que des défis et des décisions prises en cours de route.

    Mots clés : traitement du langage naturel, apprentissage automatique, fastText, codage

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100011
    Description : Les façons dont l’IA peut influer sur le monde des statistiques officielles sont multiples et le bureau central de la statistique des Pays-Bas (CBS) explore activement la façon dont il peut utiliser l’IA afin de remplir sa fonction sociétale. L’article décrit plusieurs domaines de l’IA sur lesquels CBS travaille actuellement : à savoir l’utilisation de l’IA aux fins de sa production de statistiques et de sa recherche et développement en statistique, la mise au point d’un outil national de surveillance de l’IA, le soutien d’autres organismes gouvernementaux ayant de l’expertise sur les données équitables et les algorithmes équitables, le partage de données dans des conditions sûres et sécurisées, et la participation à des collaborations liées à l’IA.

    Mots-clés : intelligence artificielle; statistiques officielles; partage de données; algorithmes équitables; surveillance de l’IA; collaboration.

    Date de diffusion : 2021-11-05
Données (1)

Données (1) ((1 résultat))

  • Tableau : 11-10-0074-01
    Géographie : Secteur de recensement
    La fréquence : Occasionnelle
    Description :

    L'indice de divergence (indice-D) est une mesure de la diversité des niveaux de revenus des familles composant les quartiers. Il compare les répartitions discrètes des revenus de quartiers (secteurs de recensement ou SR) à une répartition de base, soit les quintiles de revenu de la région métropolitaine de recensement (RMR) du quartier.

    Date de diffusion : 2020-06-22
Analyses (180)

Analyses (180) (170 à 180 de 180 résultats)

  • Articles et rapports : 12-001-X198900114574
    Description :

    Soit A x B l’espace produit de deux ensembles A et B, qui est formé de concordances (paires dont les éléments représentent la même entité) et de non-concordances (paires dont les éléments représentent des entités différentes). Les règles d’appariement divisent A x B en liens (concordances désignées), en cas indéterminés (paires pour lesquelles nous reportons une décision) et en non-liens (non-concordances désignées). Suivant un intervalle fixe pour les taux d’erreur, Fellegi et Sunter (1969) ont défini une règle d’appariement optimale, c’est-à-dire une règle qui réduit au minimum l’ensemble des cas indéterminés. L’optimalité dépend de la connaissance de certaines probabilités utilisées dans un rapport de vraisemblance déterminant. En appliquant le modèle d’appariement des enregistrements, on pose souvent une hypothèse d’indépendance qui permet d’estimer les probabilités. Si l’hypothèse n’est pas satisfaite, il se peut qu’une méthode d’appariement qui utilise des estimations calculées suivant cette hypothèse ne soit pas optimale. Dans cet article, nous analysons des méthodes qui permettent de modifier les règles d’appariement lorsque l’hypothèse d’indépendance n’est pas valide. À cette fin, nous faisons une analyse empirique de listes d’entreprises pour lesquelles l’authenticité des concordances a été vérifiée. Le nombre de cas indéterminés que produisent les méthodes de calcul habituelles et les méthodes révisées peut varier selon les échantillons. Cette relation est analysée au moyen de méthodes « bootstrap » (Efron 1987).

    Date de diffusion : 1989-06-15

  • Articles et rapports : 12-001-X198800214583
    Description :

    Cette note d’information met en lumière les points forts et les points faibles du langage SQL.

    Date de diffusion : 1988-12-15

  • Articles et rapports : 12-001-X198800214586
    Description :

    Dans cet article, il est question de l’application généralisée d’une méthode de codage automatique. Jusqu’à récemment, le codage était une opération manuelle confiée à des personnes formées spécialement à cet effet; toutefois, la création de systèmes informatiques particuliers a contribué à éliminer sinon à réduire sensiblement le codage manuel. En règle générale, l’utilisation de ces nouveaux systèmes est limitée aux applications pour lesquelles ils ont été conçus. Le système qui est décrit ici peut servir à n’importe quelle forme de codage de textes anglais ou français selon n’importe quel mode de classification.

    Date de diffusion : 1988-12-15

  • Articles et rapports : 12-001-X198800214587
    Description :

    Le système QUID, conçu et développé par l’INSEE (Paris) est un système de chiffrement automatique de données d’enquête recueillies sous forme d’intitulés littéraux exprimés dans la terminologie du répondant. Le système repose sur l’utilisation d’une très vaste base d’apprentissage composée de phrases réelles codifiées par des experts. L’article présente d’abord le traitement automatique de normalisation préalable des phrases, puis l’algorithme organisant la base de phrases en une arborescence optimisée. Un exemple de classement est donné en illustration. Le traitement des variables annexes de codification, venant compléter l’information contenue dans les phrases, présente actuellement des difficultés qui sont examinées en détail. Le projet QUID 2, version rénovée du système, est évoqué succinctement.

    Date de diffusion : 1988-12-15

  • Articles et rapports : 12-001-X198800214595
    Description :

    Depuis 1961, Statistique Canada produit des estimations du sous-dénombrement pour chaque recensement. À cette fin, le Bureau utilise la méthode dite de contre-vérification des dossiers (CVD). La fiabilité des estimations est importante parce que ces dernières sont utilisées pour évaluer la qualité des données du recensement et pour établir les principales causes de l’erreur de couverture. Cette fiabilité a également un rôle très important dans l’élaboration de méthodes conçues pour améliorer la couverture des recensements futurs. Dans cette étude, nous définissons les sources potentielles d’erreur de la CVD de manière à bien les comprendre et, dans la mesure du possible, à en réduire les effets sur l’estimation de l’erreur de couverture.

    Date de diffusion : 1988-12-15

  • Articles et rapports : 12-001-X198700214515
    Description :

    Dans cet article, nous présentons des méthodes servant à estimer les fonctions des probabilités de cellule associées à un tableau de données multinomiales qui ont été arrondies aléatoirement selon des multiples d’un nombre donné l. Nous montrons que : (i) l’arrondissement aléatoire n’a que des effets de second ordre sur le biais et la variance; (ii) l’utilisation des estimateurs naturels des probabilités de cellule entraîne une très faible perte d’efficacité si la fréquence de la cellule est élevée par rapport à (l^2 - 1) / (6R) où R désigne le nombre de cellules dans le tableau; et (iii) il existe des estimateurs dont le biais est apparemment de taille exponentiellement faible pour les moments de ces estimateurs naturels et les polynomes des probabilités de cellule.

    Date de diffusion : 1987-12-15

  • Articles et rapports : 12-001-X198400214356
    Description :

    Cette étude décrit l’utilisation de l’appariement de fichiers de données comparables dans l’évaluation de l’erreur non due à l’échantillonnage. Pour illustrer cette technique, on explique comment la qualité des données du recensement de l’agriculture de 1981 au Canada a été évaluée et on présente quelques résultats de cette analyse.

    Date de diffusion : 1984-12-14

  • Articles et rapports : 12-001-X198300114334
    Description :

    Depuis 1921, Statistique Canada, organisme central de regroupement de statistiques au Canada, compile des données sur la mortalité à l’échelle nationale, notamment celles qui touchent la mortalité due au cancer. Il dispose également de données sur l’incidence du cancer qui remontent à 1969.

    On peut évaluer de diverses façons la qualité des données de ces fichiers. Les rapports entre la mortalité due au cancer et l’incidence de cette maladie donnent certaines indications sur les erreurs de représentation. L’appariement des micro-données entre les fichiers « incidence » et « mortalité » donnent un aperçu des erreurs de classification. De même, les inscriptions multiples de l’incidence du cancer posent le problème du double emploi. Par ailleurs, l’intégralité et la disponibilité des données élémentaires revêtent de l’importance dans le cas d’études spéciale.

    Dans cet article, nous étudions la possibilité de nous servir de ces mesures de la qualité des données et les conséquences que peuvent avoir les mesures en question.

    Date de diffusion : 1983-06-15

  • Articles et rapports : 12-001-X198000254947
    Description : Le présent document propose la création d’une banque de renseignements d’un nouveau genre, la « banque de données synthétiques ». Il s’agirait de coupler les renseignements de deux banques distinctes pour en créer une troisième. Il en résulterait une utilisation beaucoup plus grande des banques de données existantes dans le cadre des activités de collecte de données nouvelles. On pourrait ainsi réduire considérablement la quantité de données recueillies et, par conséquent, les coûts de collecte et le fardeau de réponse. Ce document recommande diverses considérations pour l’élaboration de techniques statistiques susceptibles de faciliter la création d’un tel concept de couplage de l’information. Certaines techniques pourraient se retrouver dans les ouvrages modernes, alors que d’autres devraient être élaborées.
    Date de diffusion : 1980-12-15

  • Articles et rapports : 12-001-X197500254825
    Description :

    L’arrondissement aléatoire est une technique qui vise à assurer la confidentialité des agrégats ou groupes de statistiques. En appliquant cette technique à tous les éléments d’un total, d’une part, et au total lui-même, d’autre part, des divergences importantes peuvent se produire au moment de regrouper les données publiées. La méthode décrite dans ce document permet d’éviter ces divergences tout en assurant la confidentialité des données.

    Date de diffusion : 1975-12-15
Références (7)

Références (7) ((7 résultats))

  • Enquêtes et programmes statistiques — Documentation : 84-538-X
    Géographie : Canada
    Description : Cette publication électronique présente la méthodologie sous-jacente à la production des tables de mortalité pour le Canada, les provinces et les territoires.
    Date de diffusion : 2023-08-28

  • Enquêtes et programmes statistiques — Documentation : 82-225-X200701010508
    Description :

    Aperçu du couplage des enregistrements décrit le processus utilisé dans le module de couplage des enregistrements du registre canadien du cancer. On y trouve les étapes suivantes : préparatifs avant le couplage ; pré-traitement ; couplage ; post-traitement ; analyse des groupes et choix d'une solution ; entrée des solutions ; et, traitement des solutions.

    Date de diffusion : 2008-01-18

  • Enquêtes et programmes statistiques — Documentation : 11-522-X20050019476
    Description :

    La communication montrera comment, avec les données publiées par Statistique Canada et disponibles à partir des bibliothèques membres de la CRÉPUQ, une approche d'appariement via le code postal permet de relier les données du fichier des résultats à un ensemble de variables contextuelles. Ces variables pourraient ainsi concourir à la production, à titre exploratoire, d'un indice servant à une meilleure explication de la performance différenciée des élèves des écoles. Sous l'angle des retombées, l'indice envisagé pourrait illustrer encore davantage les limites des classements d'élèves et d'écoles qui ne prennent pas suffisamment en compte ces informations.

    Date de diffusion : 2007-03-02

  • Enquêtes et programmes statistiques — Documentation : 68-514-X
    Description :

    L'approche utilisée par Statistique Canada pour la collecte et la diffusion de données économiques a évolué depuis plusieurs décennies vers un système de collecte et d'estimation fortement intégré qui alimente le cadre du Système de comptabilité nationale du Canada.

    L'élément clé de cette approche a été la création de l'Enquête unifiée auprès des entreprises, qui avait pour objet d'améliorer l'uniformité, la cohérence, l'ampleur et la profondeur des données des enquêtes-entreprises.

    L'EUE a atteint cet objectif en regroupant dans un cadre commun un grand nombre d'enquêtes-entreprises annuelles du Canada. Ce cadre comprenait une seule base de sondage, un schéma pour le plan d'échantillonnage, l'harmonisation conceptuelle du contenu des enquêtes, divers moyens d'utiliser les données administratives pertinentes, une collecte intégrée des données, des outils de traitement et d'analyse, et un entrepôt central de données.

    Date de diffusion : 2006-11-20

  • Enquêtes et programmes statistiques — Documentation : 89-612-X
    Description :

    Ce rapport comprend une description de la structure et du couplage de deux bases de données : la Banque de données administratives longitudinales (DAL) et la Base de données longitudinales sur les immigrants (BDIM). La combinaison des deux produits offre un fichier couplé de données fiscales sur les immigrants ayant obtenu le droit d'établissement et leurs données caractéristiques sur l'immigration. Le rapport souligne la façon de combiner l'information, référé ici comme DAL_BDIM, améliore et complète les bases de données actuelles et distinctes. Dans ce rapport, on compare le fichier complet de la BDIM avec l'échantillon d'immigrants pour évaluer la représentativité du fichier de l'échantillon.

    Date de diffusion : 2004-01-05

  • Enquêtes et programmes statistiques — Documentation : 81-595-M2003005
    Géographie : Canada
    Description :

    Dans ce document, on élabore des procédures techniques permettant aux ministères de l'Éducation d'établir un lien entre les tests provinciaux et les tests nationaux et internationaux afin de pouvoir comparer les normes et présenter les résultats selon une échelle commune.

    Date de diffusion : 2003-05-29

  • Enquêtes et programmes statistiques — Documentation : 85-602-X
    Description :

    L'objet du présent rapport est de faire le survol des méthodes et techniques existantes qui utilisent les identificateurs personnels en vue de réaliser le couplage des enregistrements. Ce couplage peut être décrit de façon générale comme une méthode de traitement ou de transformation des identificateurs personnels tirés des dossiers personnels enregistrés dans l'une ou plusieurs bases de données opérationnelles afin de jumeler les identificateurs et de créer un dossier composé sur un particulier. Le couplage des enregistrements ne vise pas seulement à identifier les particuliers à des fins opérationnelles, mais à établir les concordances probabilistes de degrés de fiabilité variés à des fins de rapports statistiques. Les techniques utilisées dans le cadre du couplage d'enregistrements peuvent également servir dans les enquêtes afin d'en restreindre le champ dans les bases de données, lorsque des renseignements sur les identificateurs personnels existent.

    Date de diffusion : 2000-12-05
Date de modification :