Algorithmes et mises à jour du score de propension (Propensity Score) : définition, métriques et bonnes pratiques

Sommaire de l'article

Introduction

Le score de propension (ou propensity score) est une métrique centrale en analyse causale, particulièrement utilisée lorsque l’on ne peut pas mener d’expériences aléatoires contrôlées. Il est devenu incontournable dans de nombreux domaines appliqués : marketing digital, évaluation de politiques publiques, études en santé, sciences sociales, ou encore analyse de la performance de programmes en entreprise.

Concrètement, le score de propension représente la probabilité qu’un individu reçoive un traitement ou une intervention compte tenu de ses caractéristiques observées. En le modélisant de façon rigoureuse, il devient possible de réduire le biais de sélection et de rapprocher l’analyse observationnelle du cadre d’un essai randomisé, tout en s’appuyant sur des algorithmes modernes de machine learning.

Dans un environnement où les données massives et les décisions basées sur la preuve sont devenues la norme, savoir estimer, diagnostiquer et exploiter correctement un score de propension est essentiel pour obtenir des résultats fiables et exploitables. Cet article propose une présentation complète : définitions fondamentales, algorithmes de score de propension, méthodes de matching, mises à jour récentes des pratiques, métriques de qualité, exemples concrets et bonnes pratiques opérationnelles.

Qu’est-ce que le score de propension ?

Le score de propension est défini comme la probabilité de recevoir un traitement (par exemple une campagne marketing, un médicament, un programme de formation) conditionnellement aux covariables observées. Autrement dit, pour chaque individu, on cherche à estimer une probabilité comprise entre 0 et 1 qui résume en une seule valeur l’ensemble de ses caractéristiques pertinentes pour l’assignation au traitement.

Formellement, si l’on note \(T\) la variable de traitement (1 = traité, 0 = non traité) et \(X\) le vecteur de covariables, le score de propension est :

score de propension = \(e(X) = P(T = 1 \mid X)\).

Cette probabilité est généralement estimée à partir de données observationnelles en utilisant des modèles statistiques ou des algorithmes d’apprentissage supervisé. Une fois le score estimé pour chaque observation, on peut utiliser ce score pour :

apparier (matching) les individus traités et non traités de score proche ;
stratifier la population en classes de score de propension ;
pondérer les observations (pondération par l’inverse de la probabilité de traitement) ;
ou encore ajuster les modèles d’issue (outcome) en incluant le score de propension comme covariable.

Concepts clés pour comprendre le score de propension

1. Biais de sélection et confusion

Le score de propension s’inscrit dans le cadre des études observationnelles, c’est-à-dire des situations où les individus ne sont pas assignés de manière aléatoire au traitement. Il existe alors un risqueélevé de biais de sélection et de variables confondantes qui influencent à la fois la probabilité de recevoir le traitement et le résultatétudié.

L’objectif du score de propension est de rendre comparables les groupes traité et non traité sur ces covariables confondantes, afin que la différence d’issue observée puisseêtre interprétée plus légitimement comme un effet causal du traitement.

2. Balance covariante

Un concept central est celui de balance des covariables (souvent appelée covariate balance). Après avoir utilisé le score de propension pour apparier, pondérer ou stratifier, on vérifie que la distribution des covariables est similaire entre les groupes traité et témoin.

Cette vérification s’effectue notamment via :

les différences de moyennes standardisées (Standardized Mean Differences, SMD) ;
des graphes de distribution du score pour chaque groupe (histogrammes, densités, boxplots) ;
des Love plots, qui synthétisent l’équilibre des covariables avant et après utilisation du score de propension.

Une mauvaise balance après matching ou pondération indique que le modèle de score de propension ou la méthode de matching doiventêtre revus, faute de quoi les estimations de l’effet de traitement risquent d’être biaisées.

3. Hypothèses fondamentales

L’utilisation du score de propension repose sur plusieurs hypothèses importantes :

Ignorabilité conditionnelle : conditionnellement aux covariables incluses dans le modèle, le traitement est supposé « quasi-aléatoire ». Toutes les variables confondantes pertinentes doivent doncêtre observées et correctement modélisées.
Recouvrement (overlap) : pour chaque combinaison de covariables, la probabilité de recevoir le traitement doitêtre strictement comprise entre 0 et 1. En pratique, il doit exister des individus traités et non traités pour chaque plage raisonnable de score de propension.
Spécification correcte du modèle : si un modèle paramétrique (par exemple une régression logistique) est utilisé, sa spécification doitêtre suffisamment flexible pour représenter la relation entre covariables et traitement.

Algorithmes pour estimer le score de propension

Historiquement, le score de propensionétait le plus souvent estimé par une régression logistique binaire. Aujourd’hui, l’écosystème des algorithmes de score de propension s’est considérablementélargi avec l’essor du machine learning, permettant de mieux capter des relations non linéaires et des interactions complexes.

1. Régression logistique

La régression logistique reste le modèle le plus utilisé en pratique, en raison de sa simplicité d’interprétation et de sa large disponibilité dans les principaux logiciels statistiques (R, Python, SAS, Stata, etc.). Elle suppose une relation logistique entre les covariables et la probabilité de traitement.

Avantages :

modèle transparent et interprétable ;
facile à diagnostiquer (tests de spécification, interactions, termes quadratiques) ;
implémentations robustes et très répandues.

Limites :

peut mal capturer des relations fortement non linéaires sans enrichir manuellement les covariables (polynômes, interactions explicites) ;
sensibilité à la spécification du modèle.

2. Autres modèles paramétriques

En complément de la régression logistique, on rencontre parfois des modèles probit ou d’autres liens pour modéliser la probabilité de traitement. Ces modèles paramétriques partagent des propriétés similaires en termes d’interprétation mais avec des fonctions de lien différentes.

3. Algorithmes de machine learning

Les pratiques récentes intègrent de plus en plus des algorithmes de machine learning pour estimer le score de propension, afin de mieux capturer des relations complexes entre covariables et traitement. Parmi les algorithmes fréquemment utilisés :

Forêts aléatoires (random forests) ;
Gradient boosting (comme XGBoost, LightGBM, CatBoost) ;
Réseaux de neurones pour des jeux de données particulièrement volumineux ;
Modèles additifs généralisés ou approches par super learner qui combinent plusieurs algorithmes.

Ces approches sont particulièrement utiles lorsque :

le nombre de covariables est important ;
il existe des interactions complexes et non spécifiées a priori ;
la relation entre covariables et traitement est très non linéaire.

En revanche, elles nécessitent une phase de diagnostic renforcée et une attention particulière à l’équilibre des covariables après estimation du score, car un bon score prédictif ne garantit pas automatiquement une bonne balance pour l’inférence causale.

Méthodes de matching basées sur le score de propension

Une fois le score de propension estimé, l’une des utilisations les plus répandues consiste à effectuer un matching (appariement) entre les groupes traité et non traité. Le but est de former des paires ou ensembles d’individus comparables sur le plan des covariables observées, en s’appuyant sur la proximité de leur score de propension.

1. Matching au plus proche voisin (Nearest-Neighbor Matching)

Le matching au plus proche voisin consiste à apparier chaque individu traité avec un ou plusieurs individus témoins ayant le score de propension le plus proche. Ce matching peutêtre effectué :

avec ou sans remise (un même témoin peutêtre utilisé pour plusieurs traités ou non) ;
en imposant un caliper (tolérance maximale de distance sur le score, par exemple 0,01 ou 0,05) ;
avec des ratios variables (1:1, 1:k, k:1, etc.).

L’introduction d’un caliper permet d’éviter des appariements de mauvaise qualité lorsque les scores de propension s’éloignent trop. Les observations ne trouvant pas de correspondance suffisamment proche peuventêtre exclues pour garantir une meilleure comparabilité.

2. Matching par caliper

Le matching par caliper impose une distance maximale autorisée entre les scores de propension des individus appariés. Ce mécanisme est souvent combiné au nearest-neighbor matching pour renforcer la qualité de l’appariement.

Il permet notamment :

d’éviter les « mauvais matches » dans les régions de faible recouvrement ;
de contrôler plus finement l’équilibre au prix d’une possible réduction de la taille effective de l’échantillon.

3. Matching par stratification (ou subclassification)

Le matching par stratification (ou subclassification) consiste à diviser l’échantillon en classes de score de propension (par exemple quintiles ou déciles), puis à comparer les individus traités et non traités à l’intérieur de chaque strate.

Avantages :

méthode stable et assez simple à mettre en œuvre ;
permets d’utiliser une grande partie de l’échantillon ;
bien adaptée lorsque la distribution des scores montre un recouvrement satisfaisant.

4. Full matching et matching optimal

Le full matching et le matching optimal cherchent à minimiser globalement la distance sur le score de propension au sein de l’ensemble de l’échantillon plutôt que de faire des appariements séquentiels.

Le full matching permet de :

former des ensembles mixtes contenant au moins un traité et au moins un témoin ;
gérer des ratios flexibles traitement/témoin ;
préserver davantage d’unités par rapport à un matching 1:1 strict.

Le matching optimal, quant à lui, vise à minimiser une fonction de coût globale (par exemple la somme des distances) afin d’obtenir un ensemble d’appariements plus efficace en termes d’équilibre.

Bonnes pratiques pour l’utilisation du score de propension

Mettre en œuvre un score de propension ne se limite pas à lancer un algorithme de régression ou de machine learning. Pour obtenir des résultats robustes et interprétables, il est crucial de suivre une démarche structurée incluant la sélection des covariables, les diagnostics de balance, la vérification des hypothèses et l’analyse de sensibilité.

Sélection des covariables

Inclure en priorité les covariables confondantes, c’est-à-dire reliées à la fois à la probabilité de traitement et à l’issueétudiée.
Éviter d’inclure des variables post-traitement (mesurées après l’intervention), qui pourraient introduire un biais supplémentaire.
Ne pas se focaliser uniquement sur le pouvoir prédictif du modèle de traitement, mais aussi sur la capacité àéquilibrer les covariables.

Vérification de l’équilibre des covariables

La vérification de l’équilibre covariante est uneétape obligatoire. Avant et après la mise en correspondance ou la pondération, il faut contrôler :

les différences standardisées de moyennes (les amener idéalement en dessous de seuils couramment utilisés comme 0,1 ou 0,2) ;
la réduction desécarts entre les distributions des covariables continues ;
la répartition des modalités des variables catégorielles.

Diagnostics graphiques

Les diagnostics graphiques jouent un rôle essentiel pour détecter les problèmes de recouvrement et de spécification. Parmi les visualisations utiles :

Histogrammes et densités des scores de propension par groupe de traitement ;
Love plots pour visualiser les SMD avant et après matching ;
Graphiques de recouvrement indiquant les zones de support commun ;
diagrammes de résidus et diagnostics classiques pour les modèles paramétriques (logistique, probit).

Analyses de sensibilité

Il est recommandé de tester la robustesse des résultats en :

essayant plusieurs méthodes de matching (nearest neighbor, caliper, full matching, stratification) ;
modifiant légèrement le jeu de covariables retenues ;
utilisantéventuellement plusieurs algorithmes pour estimer le score de propension (logistique, forêt aléatoire, gradient boosting) ;
évaluant l’impact potentiel de variables confondantes non mesurées via des approches d’analyse de sensibilité dédiées.

Exemples concrets d’application du score de propension

Exemple 1 : évaluation d’une campagne marketing

Une entreprise de e-commerce souhaiteévaluer l’efficacité d’une campagne d’emailing ciblée sur les achats à 30 jours. Comme la campagne n’a pasété randomisée, les clients ayant reçu l’email diffèrent probablement des autres (en termes d’historique d’achat, de fréquence de visite, de type de produits consultés, etc.).

Démarche possible :

Définir le groupe traité : les clients ayant reçu l’email.
Définir le groupe témoin : les clientséligibles mais non sollicités.
Estimer le score de propension à recevoir l’email en fonction de l’historique d’achat, de la récence, de la fréquence, du panier moyen, du canal de navigation, etc.
Réaliser un matching au plus proche voisin avec caliper entre les clients traités et non traités.
Vérifier l’équilibre des covariables après matching.
Comparer le chiffre d’affaires à 30 jours entre les deux groupes appariés pour estimer l’effet moyen du traitement sur les clients exposés.

Exemple 2 : étude d’efficacité d’un médicament

Dans un contexte médical, un chercheur souhaite comparer l’efficacité d’un nouveau traitement par rapport à un traitement standard, à partir de données de pratique courante. Les patients ne sont pas assignés aléatoirement, et les caractéristiques cliniques au moment de la prescription peuvent fortement différer entre les groupes.

Étapes typiques :

Utiliser comme covariables : l’âge, le sexe, les comorbidités, les scores de sévérité, les traitements concomitants, les paramètres biologiques de base, etc.
Estimer le score de propension à recevoir le nouveau médicament à l’aide d’une régression logistique ou d’un modèle de machine learning adapté.
Réaliser un matching 1:1 ou 1:k entre patients traités et témoins.
Vérifier l’équilibre covariant après matching : les distributions des variables cliniques de base doiventêtre similaires.
Comparer ensuite l’issue d’intérêt (par exemple, survie, hospitalisation, réponse clinique) afin d’estimer l’effet causal du traitement sous les hypothèses usuelles.

Exemple 3 : politique publique et marché du travail

Une administration souhaite mesurer l’impact d’un programme de formation professionnelle sur le retour à l’emploi. Comme les individus choisissent souvent d’eux-mêmes d’entrer ou non dans le dispositif, le biais de sélection est potentiellement très fort.

Approche possible :

Modéliser la probabilité de participer au programme en fonction de l’âge, du niveau d’éducation, de l’historique d’emploi, du secteur d’activité, de la situation géographique, etc.
Estimer le score de propension, puis réaliser une stratification en quintiles.
Comparer au sein de chaque strate les taux de retour à l’emploi entre participants et non-participants.
Aggréger les résultats pondérés par la taille des strates pour obtenir une estimation globale de l’effet du programme.

Outils recommandés pour le score de propension

De nombreux environnements logiciels proposent aujourd’hui des fonctionnalités avancées pour la modélisation du score de propension, le matching, la pondération et les diagnostics.

R et l’écosystème du Propensity Score Matching

MatchIt (R) : l’un des packages les plus utilisés pour le matching sur le score de propension. Il supporte de nombreux algorithmes (nearest neighbor, full matching, optimal matching, stratification, etc.) et fournit des diagnostics de balance détaillés.
twang et WeightIt (R) : orientés vers la pondération par l’inverse de la probabilité de traitement et l’utilisation de boosting pour estimer le score de propension.
cobalt (R) : spécialisé dans les diagnostics de balance (SMD, Love plots, graphiques de distribution).

Python et l’écosystème machine learning

scikit-learn : fournit les briques nécessaires pour estimer un score de propension via régression logistique, forêts aléatoires, gradient boosting, réseaux de neurones, etc. Le matching peut ensuiteêtre implémenté via des fonctions de plus proche voisin ou des bibliothèques complémentaires.
Des bibliothèques spécialisées d’inférence causale (par exemple des packages dédiés à la causalité) offrent des implémentations clés en main pour le matching, la stratification et la pondération basés sur le score de propension.

SAS et autres logiciels

SAS propose des procédures dédiées à l’analyse causale et au score de propension, incluant la sélection des covariables, l’estimation du score et diverses méthodes de matching.
Des solutionséquivalentes existent dans Stata et d’autres logiciels statistiques utilisés en santé, enéconomie ou en recherche sociale.

Mises à jour récentes des pratiques autour du score de propension

Avec la disponibilité de données de plus en plus volumineuses et riches (données comportementales, traces numériques, données de capteurs), les pratiques autour du score de propension ontévolué. Parmi les tendances récentes :

utilisation plus fréquente de modèles flexibles (forêts, boosting, réseaux) pour estimer le score ;
intégration d’outils d’automatisation des diagnostics (calcul systématique des SMD, graphiques de balance, détection de manque de recouvrement) ;
meilleure prise en compte de la justice et de l’équité (fairness) dans les modèles, en particulier lorsque les covariables incluent des données sensibles ;
amélioration de la scalabilité des algorithmes de matching, qui doivent désormais gérer des centaines de milliers, voire des millions d’observations.

Des travaux méthodologiques récents ont notamment montré que certains débats théoriques (par exemple autour d’un « paradoxe » lié au propensity score matching) ne remettent pas en cause l’usage du PSM lui-même, mais soulignent plutôt l’importance d’une utilisation correcte, d’un diagnostic rigoureux et d’une articulation claire avec d’autres méthodes d’inférence causale.

Métriques etévaluation de la qualité d’un score de propension

Contrairement à un simple modèle prédictif, un modèle de score de propension doitêtreévalué non seulement sur sa performance de classification, mais surtout sur sa capacité à équilibrer les covariables entre les groupes.

1. Qualité prédictive

On peut mesurer la capacité du modèle à distinguer les individus traités des témoins à l’aide de :

l’AUC (Area Under the ROC Curve) ;
la log-vraisemblance ou des critères d’information (AIC, BIC) pour les modèles paramétriques ;
des métriques de classification standard (exactitude, rappel, précision), même si elles sont moins centrales dans ce contexte.

Cependant, un modèle très performant pour prédire le traitement n’est pas nécessairement le meilleur pour l’inférence causale. L’objectif premier reste la réduction du biais, pas la prédiction pure.

2. Qualité d’équilibrage

La qualité d’un score de propension se juge avant tout à la lumière des métriques d’équilibre des covariables :

réduction des différences de moyennes standardisées entre traité et témoin ;
convergence des distributions de covariables continues (écarts de médianes, quantiles) ;
alignement des proportions des modalités catégorielles.

On attend qu’après matching, stratification ou pondération, la majorité des covariables montrent une balance nettement améliorée. Des seuils pratiques sont souvent utilisés (par exemple SMD < 0,1) pour juger de la qualité de l’équilibrage.

Limites, précautions et bonnes pratiques avancées

Même utilisé avec des algorithmes sophistiqués, le score de propension ne supprime pas toutes les sources de biais. Il reste notamment vulnérable à :

l’omission de variables confondantes importantes non observées ;
une mauvaise spécification du modèle de score ;
un manque de recouvrement sévère entre les groupes, rendant difficile la comparaison dans certaines zones du support des covariables ;
des usages inadaptés (par exemple, se contenter d’inclure le score comme covariable dans un modèle sans vérifier la balance).

Parmi les bonnes pratiques avancées :

combiner le score de propension avec d’autres approches causales (modèles à doubles robustes, g-computation, méthodes de pondération stabilisée) ;
documenter de manière transparente les choix de modélisation, les diagnostics de balance et les analyses de sensibilité ;
adopter une démarche itérative : ajuster le modèle de score, réévaluer la balance, et répéter jusqu’à obtenir un compromis satisfaisant entre équilibre, taille d’échantillon et interprétabilité.

Conclusion pratique

Le score de propension est aujourd’hui un outil incontournable pour l’analyse causale à partir de données observationnelles, qu’il s’agisse d’optimiser des campagnes marketing, d’évaluer des programmes de santé, de mesurer l’impact de politiques publiques ou d’analyser des programmes de formation. Grâce à l’évolution des algorithmes de calcul et à la disponibilité de nombreux outils logiciels, il est possible de le mettre en œuvre à grandeéchelle, tout en contrôlant finement l’équilibre des covariables.

Pour tirer pleinement parti du score de propension, il est indispensable de :

choisir des covariables pertinentes et bien documentées ;
sélectionner une méthode d’estimation adaptée (logistique ou machine learning) ;
mettre en place des diagnostics de balance rigoureux ;
tester la robustesse des résultats via des analyses de sensibilité.

En respectant ces principes, le score de propension et les méthodes de propensity score matching offrent un cadre puissant pour transformer des données observationnelles complexes en informations décisionnelles fiables.