Estimation de la précision avec des données en grappes

Articles et rapports : 11-522-X20020016737

Description :

Même si l'ensemble de données disponibles pour l'apprentissage automatique résulte d'un échantillonnage en grappes (par exemple les patients d'un échantillon de salles d'hôpital), l'estimation habituelle du taux d'erreur par validation croisée peut donner des résultats biaisés et trompeurs. Dans cet article technique, on décrit une validation croisée adaptée à ce cas. Par simulation, on compare la distribution d'échantillonnage de l'estimation du taux d'erreur en généralisation, sous l'hypothèse d'échantillonnage en grappes ou d'échantillonnage aléatoire simple, à la valeur réelle. Les résultats soulignent l'influence du plan d'échantillonnage sur l'inférence : l'effet de la mise en grappes est manifestement significatif; la répartition entre l'ensemble d'apprentissage et l'ensemble de test devrait résulter d'une partition aléatoire des grappes et non d'une partition aléatoire des exemples. Dans le cas de l'échantillonnage en grappes, la validation croisée type sous-estime le taux d'erreur en généralisation et ne donne pas de bons résultats pour la sélection du modèle. Ces résultats sont illustrés au moyen d'une application réelle de reconnaissance automatique de la parole.

Numéro d'exemplaire : 2002001

Auteur(s) : Chauchat, Jean-Hughes; Pellegrino, François; Rakotomalala, Ricco

Produit principal : La série des symposiums internationaux de Statistique Canada : recueil

Format	Date de sortie	Informations supplémentaires
CD-ROM	13 septembre 2004
PDF	13 septembre 2004

Information connexe

Sujets et mots-clés

Sujets

Méthodes statistiques
- Plan de sondage
- Pondération et estimation

Mots-clés

Signaler un problème ou une erreur sur cette page

Date de modification :: 2024-07-26

Sélection de la langue

Recherche et menus

Rechercher

Estimation de la précision avec des données en grappes - ARCHIVÉ

Information connexe

Sujets

Mots-clés