StochastiQdata
freMTPL2freq Challenges

20 Défis Actuariels

Parcours progressif sur le dataset freMTPL2freq — 678 013 polices RC auto françaises. Du débutant à l'expert. Clique sur Voir l'aide pour obtenir des pistes et du code de démarrage.

🟢 Débutant (1–3) 🟡 Intermédiaire (4–6) 🔴 Avancé (7–14) 🟣 Expert (15–20)

🟢 Débutant — Exploration & visualisation

1

Analyse exploratoire (EDA)

Débutant

Distributions, boxplots, fréquence moyenne par segment. Point de départ obligatoire.

pandas seaborn plotly
2

Relativités tarifaires brutes

Débutant

Fréquences observées par classe, pondérées par l'exposition. Lecture directe du portefeuille.

pandas matplotlib
3

Segmentation K-Means du portefeuille

Débutant

Clusters homogènes de polices avec visualisation PCA. Identifier des profils-type de risque.

sklearn matplotlib

🟡 Intermédiaire — GLM & pricing actuariel

4

GLM Poisson — modèle fréquence

Intermédiaire

Le modèle de référence actuariel. ClaimNb ~ Poisson, offset = log(Exposure). Relativités par variable.

statsmodels glum
5

Prime pure : fréquence × sévérité

Intermédiaire

GLM Poisson + GLM Gamma. Prime pure = E[N] × E[C]. Grille tarifaire complète.

statsmodels glum pandas
6

Validation & courbe de Lorenz / Gini

Intermédiaire

Backtesting temporel, Gini, courbe de lift. Mesure du pouvoir discriminant réel du modèle.

sklearn matplotlib

🔴 Avancé — ML & interprétabilité

7

Benchmark GLM vs XGBoost vs LightGBM

Avancé

Poisson deviance comme objectif commun. Analyse performance vs interprétabilité.

xgboost lightgbm glum
8

Interprétabilité SHAP du modèle ML

Avancé

SHAP values pour auditer l'impact de BonusMalus, DrivAge, Region. Beeswarm + dependence plots.

shap xgboost
9

CANN — réseau de neurones actuariel

Avancé

GLM + skip-connection neuronale. Approche Wüthrich & Merz (EPFZ). Loss = Poisson deviance.

keras tensorflow
10

Modèles à excès de zéros & surdispersion

Avancé

Zero-Inflated Poisson, Negative Binomial. Gérer les 94%+ de polices avec ClaimNb = 0.

statsmodels scipy
11

Cartographie de la sinistralité par région

Avancé

Carte choroplèthe des fréquences observées par région française. Disparités géographiques du risque RC.

geopandas plotly folium
12

GAM — effets non-linéaires du bonus-malus

Avancé

Splines pour capturer les effets non-linéaires de BonusMalus et DrivAge sans les forcer linéaires.

pygam matplotlib
13

Détection d'anomalies & polices atypiques

Avancé

Isolation Forest + LOF pour identifier polices hors-norme. Utile en pré-traitement et anti-fraude.

sklearn matplotlib
14

Analyse de survie — temps avant premier sinistre

Avancé

Kaplan-Meier + modèle de Cox. Exposition comme variable de censure. Courbes de survie par segment.

lifelines matplotlib

🟣 Expert — Recherche & production

15

Tarification équitable — fairness-aware pricing

Expert

Neutraliser une variable sensible (région) via adversarial debiasing. Enjeu réglementaire majeur.

fairlearn torch
16

Optimisation bayésienne des hyperparamètres

Expert

Optuna pour tuner LightGBM avec Poisson deviance. Cross-validation temporelle par millésime.

optuna lightgbm sklearn
17

Crédibilité de Bühlmann-Straub par région

Expert

Lisser les relativités régionales instables. Combine expérience propre de chaque région et moyenne portefeuille.

numpy pandas scipy
18

Modèles de mélange — sous-populations latentes

Expert

Poisson Mixture Model avec EM. Identifier des classes de risque non observées (hétérogénéité cachée).

sklearn scipy pymc
19

Pipeline MLOps — du modèle à la production

Expert

MLflow tracking, DVC versioning, FastAPI scoring temps réel. Déployer un modèle de tarification.

mlflow fastapi dvc docker
20

Inférence bayésienne complète — PyMC

Expert

Priors sur les coefficients, MCMC, posterior predictive checks. Quantifier l'incertitude sur chaque prime.

pymc arviz numpy