Imprimer
Affichages : 128

Résumé :

À partir des microdonnées de l’enquête European Union Statistics on Income and Living Conditions (EU-SILC) et en mobilisant des algorithmes d’apprentissage automatique (machine learning), cet article analyse la capacité de modèles prédictifs à identifier le statut de privation matérielle et sociale d’individus non observés. Trois questions de recherche structurent l’analyse : (i) dans quelle mesure les caractéristiques personnelles, familiales et nationales observables permettent-elles de prédire avec précision le statut de privation ; (ii) quelle est la performance comparative de modèles fondés sur des sous-ensembles de variables — sociodémographiques, socioéconomiques, de santé et de localisation — pour l’identification des individus en situation de privation ; (iii) quels sont les principaux déterminants et quels effets partiels exercent-ils sur la probabilité de privation.
Les résultats empiriques montrent que les algorithmes d’apprentissage automatique fondés sur des structures arborescentes offrent des gains de précision relatifs positifs et statistiquement significatifs par rapport au modèle linéaire généralisé standard, avec un gain de 7,3 % pour XGBoost et de 5,9 % pour la forêt d’arbres de décision. Les variables socioéconomiques, considérées isolément, permettent d’atteindre une précision de classification proche de celle obtenue en mobilisant l’ensemble des variables explicatives. L’analyse de l’importance des variables et des effets partiels, fondée sur les valeurs de Shapley, met en évidence des relations robustes et interprétables, en cohérence avec la littérature théorique et empirique existante.

Mots-clés : Privations matérielles et sociales, Apprentissage automatique, Mesure de la pauvreté, Données EU-SILC, Vulnérabilité socioéconomique, Apprentissage automatique explicable (valeurs SHAP)