Sévérité Sinistres Auto RC France (freMTPL2sev)
Kaggle26 639 sinistres auto RC française avec montant de coût individuel (ClaimAmount). Complément de freMTPL2freq pour la modélisation GLM Gamma du coût par sinistre. Tweedie possible sur la prime pure.
Uploader le fichier (CSV, Parquet, Excel — max 50 MB)
Score qualité — 0/100
- · Complétude des métadonnées
- · Taux de valeurs nulles
- · Présence d'un dictionnaire
- · Avis et téléchargements
- · Disponibilité des benchmarks
Informations sur les données
26 639
Lignes
3
Colonnes
0.19
MB
0
Avis
Variable cible
ClaimAmount
Licence
CC BY 4.0
Intégrité SHA256
1748e198091c61275315cc11202ddca5362f1f303b34d8b1ec29697f8497a410
Ce que vous pouvez apprendre avec ce dataset
Compétences techniques
- Modélisation GLM (Poisson, Gamma, Tweedie)
- Calcul de la prime pure et technique
- Validation croisée et évaluation des modèles
Applications métier
- Tarification automobile ou MRH
- Analyse de sinistralité
Aperçu des données (10 premières lignes) Cliquez sur une ligne pour l'agrandir
Statistiques & Profil des données
Distributions des variables
Matrice de corrélation (variables numériques)
Visualisations des données
Basées sur les données réelles du dataset
Parcours data complet — de A à Z
Suivez chaque étape du travail data science appliqué sur ce dataset.
Actions concrètes
- Importer le CSV/Parquet avec pandas
- Vérifier le nombre de lignes, colonnes et types
- Identifier la variable cible (ClaimNb, Exposure)
- Comprendre le dictionnaire des variables
Librairies & outils
Exemple de code
df = pd.read_csv("freMTPL2freq.csv")
print(df.dtypes)
print(df.shape) # ex: (678013, 12)
Actions concrètes
- Traiter les valeurs manquantes (NaN)
- Supprimer ou plafonner les outliers (ex: Exposure > 1)
- Créer la variable réponse : fréquence = ClaimNb / Exposure
- Encoder les variables catégorielles (VehBrand, Region)
- Découper train / test (80/20 par millésime)
Librairies & outils
Exemple de code
df["Frequency"] = df["ClaimNb"] / df["Exposure"]
df = df[df["Exposure"] <= 1] # Plafonner l'exposure
df["VehBrand"] = df["VehBrand"].astype("category")
Actions concrètes
- Calculer la fréquence moyenne par segment (âge, région, bonus)
- Tracer les distributions des sinistres et de l'exposition
- Identifier les corrélations entre features
- Visualiser les outliers avec boxplots
- Analyser le ratio sinistres/primes brut
Librairies & outils
Exemple de code
freq_by_age = df.groupby("DrivAge")["Frequency"].mean()
freq_by_age.plot(kind="bar", title="Fréquence par âge du conducteur")
Actions concrètes
- Modèle fréquence : GLM Poisson avec offset = log(Exposure)
- Modèle sévérité : GLM Gamma sur les sinistres non-nuls
- Calculer la prime pure = Fréquence × Sévérité
- Comparer avec XGBoost / GBM en benchmark
- Analyser les coefficients (relativités par variable)
Librairies & outils
Exemple de code
import statsmodels.api as sm glm_freq = sm.GLM( y, X, family=sm.families.Poisson(), offset=np.log(df["Exposure"]) ).fit() print(glm_freq.summary())
Actions concrètes
- Calculer la prime de référence (profil neutre)
- Extraire les coefficients multiplicatifs par variable
- Construire la grille tarifaire (tableau de relativités)
- Comparer les primes modélisées vs primes marché
- Tester différents scénarios de chargements
Librairies & outils
Exemple de code
# Relativités par classe d'âge
relativites = np.exp(glm_freq.params)
grille = pd.DataFrame({
"Variable": X.columns,
"Relativite": relativites
})
Actions concrètes
- Calculer Gini, AUC sur le test set
- Tracer la courbe de lift (classement des risques)
- Faire un backtesting sur données hors-période
- Analyser le ratio S/P modélisé vs observé par décile
- Documenter les limites et biais potentiels
Librairies & outils
Exemple de code
from sklearn.metrics import roc_auc_score
gini = 2 * roc_auc_score(y_test, y_pred) - 1
print(f"Gini coefficient: {gini:.4f}")
Accès au dataset
import pandas as pd # Chargement direct depuis StochastiQdata url = "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/f262d21b-7472-4156-a27c-5cfd5396c47f/5da5f43c-e8f3-4c19-913d-2c26fc397fdd.csv" df = pd.read_csv(url) # Aperçu print(df.shape) # (26 639 lignes, 3 colonnes) print(df.head())
Benchmarks — Performance des modèles
Aucun benchmark disponible pour ce dataset.
Soyez le premier à soumettre vos résultats !
Modèles
Aucun modèle affilié pour le moment.
Soyez le premier à partager un modèle entraîné sur ce dataset.
Notebooks
Aucun notebook disponible pour ce dataset.
Partagez votre analyse et contribuez à la communauté !
Avis de la communauté
Aucun avis pour ce dataset.
Soyez le premier à donner votre avis !
Questions à explorer avec ce dataset
Quels facteurs influencent le plus la fréquence des sinistres ?
Comment segmenter le portefeuille par niveau de risque ?
La sévérité des sinistres suit-elle une loi log-normale ou Gamma ?
Existe-t-il des effets non-linéaires entre l'âge du véhicule et la sinistralité ?
Comment construire un modèle de tarification à deux parties (fréquence × coût moyen) ?
Quelles variables proxy peuvent remplacer des données manquantes ou réglementairement sensibles ?
Découvrez plus de cas d'usage et méthodologies sur notre page Modélisation
Voir tous les parcoursVous aimerez aussi
Citer ce dataset
Historique des versions 1 version
Seed initial : freMTPLsev.csv