Estimation de la précision avec des données en grappes - ARCHIVÉ

Articles et rapports : 11-522-X20020016737

Description :

Même si l'ensemble de données disponibles pour l'apprentissage automatique résulte d'un échantillonnage en grappes (par exemple les patients d'un échantillon de salles d'hôpital), l'estimation habituelle du taux d'erreur par validation croisée peut donner des résultats biaisés et trompeurs. Dans cet article technique, on décrit une validation croisée adaptée à ce cas. Par simulation, on compare la distribution d'échantillonnage de l'estimation du taux d'erreur en généralisation, sous l'hypothèse d'échantillonnage en grappes ou d'échantillonnage aléatoire simple, à la valeur réelle. Les résultats soulignent l'influence du plan d'échantillonnage sur l'inférence : l'effet de la mise en grappes est manifestement significatif; la répartition entre l'ensemble d'apprentissage et l'ensemble de test devrait résulter d'une partition aléatoire des grappes et non d'une partition aléatoire des exemples. Dans le cas de l'échantillonnage en grappes, la validation croisée type sous-estime le taux d'erreur en généralisation et ne donne pas de bons résultats pour la sélection du modèle. Ces résultats sont illustrés au moyen d'une application réelle de reconnaissance automatique de la parole.

Numéro d'exemplaire : 2002001
Auteur(s) : Chauchat, Jean-Hughes; Pellegrino, François; Rakotomalala, Ricco
FormatDate de sortieInformations supplémentaires
CD-ROM13 septembre 2004
PDF13 septembre 2004