Estimation de la précision avec des données en grappes
Même si l'ensemble de données disponibles pour l'apprentissage automatique résulte d'un échantillonnage en grappes (par exemple les patients d'un échantillon de salles d'hôpital), l'estimation habituelle du taux d'erreur par validation croisée peut donner des résultats biaisés et trompeurs. Dans cet article technique, on décrit une validation croisée adaptée à ce cas. Par simulation, on compare la distribution d'échantillonnage de l'estimation du taux d'erreur en généralisation, sous l'hypothèse d'échantillonnage en grappes ou d'échantillonnage aléatoire simple, à la valeur réelle. Les résultats soulignent l'influence du plan d'échantillonnage sur l'inférence : l'effet de la mise en grappes est manifestement significatif; la répartition entre l'ensemble d'apprentissage et l'ensemble de test devrait résulter d'une partition aléatoire des grappes et non d'une partition aléatoire des exemples. Dans le cas de l'échantillonnage en grappes, la validation croisée type sous-estime le taux d'erreur en généralisation et ne donne pas de bons résultats pour la sélection du modèle. Ces résultats sont illustrés au moyen d'une application réelle de reconnaissance automatique de la parole.
| Format | Date de sortie | Informations supplémentaires |
|---|---|---|
| CD-ROM | septembre 13 2004 | |
| septembre 13 2004 |