Fraude Déclarations Sinistres Auto

Kaggle

15 420 déclarations de sinistres auto avec indicateur de fraude. Inclut type de police, lieu du sinistre, type de sinistre, véhicule et profil du conducteur. Référence pour la modélisation de détection de fraude IARD.

IARD Fraude ML

Open in Kaggle Documentation Comparer Notebooks

Score qualité — 0/100

· Complétude des métadonnées
· Taux de valeurs nulles
· Présence d'un dictionnaire
· Avis et téléchargements
· Disponibilité des benchmarks

Informations sur les données

15 420

Lignes

Colonnes

0.25

Avis

Variable cible

fraud_reported

Période couverte

2015 – 2019

Licence

CC BY 4.0

Intégrité SHA256

be11b9370c0cda353a4519832803d07bb90a494e91dfd9d56a85aa4093ba5378

Ce que vous pouvez apprendre avec ce dataset

Compétences techniques

Modélisation GLM (Poisson, Gamma, Tweedie)
Calcul de la prime pure et technique
Classification binaire et gestion du déséquilibre
Feature engineering pour détection d'anomalies
Validation croisée et évaluation des modèles

Applications métier

Tarification automobile ou MRH
Analyse de sinistralité
Système de scoring anti-fraude
Priorisation des dossiers à contrôler

Aperçu des données (10 premières lignes) Cliquez sur une ligne pour l'agrandir

Statistiques & Profil des données

Distributions des variables

Matrice de corrélation (variables numériques)

−1 (corrélation négative) → +1 (corrélation positive)

Visualisations des données

Basées sur les données réelles du dataset

Chargement…

Parcours data complet — de A à Z

Suivez chaque étape du travail data science appliqué sur ce dataset.

Accès au dataset

import pandas as pd

# Chargement direct depuis StochastiQdata
url = "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/86dcfe2d-1a85-40c3-ab9e-196d4b87f72c/63c9bfc7-368c-469d-bc7f-6d2bb72c9f9c.csv"
df  = pd.read_csv(url)

# Aperçu
print(df.shape)   # (15 420 lignes, 40 colonnes)
print(df.head())

library(readr)

# Chargement direct depuis StochastiQdata
url <- "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/86dcfe2d-1a85-40c3-ab9e-196d4b87f72c/63c9bfc7-368c-469d-bc7f-6d2bb72c9f9c.csv"
df  <- read_csv(url)

# Aperçu
dim(df)
head(df)

curl -L -o "fraude_déclarations_sinistres_auto.csv" \
  "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/86dcfe2d-1a85-40c3-ab9e-196d4b87f72c/63c9bfc7-368c-469d-bc7f-6d2bb72c9f9c.csv"

Benchmarks — Performance des modèles

Aucun benchmark disponible pour ce dataset.

Soyez le premier à soumettre vos résultats !

Modèles

Chargement des modèles…

Notebooks

Aucun notebook disponible pour ce dataset.

Partagez votre analyse et contribuez à la communauté !

Avis de la communauté

Aucun avis pour ce dataset.

Soyez le premier à donner votre avis !

Donner votre avis

Commentaires

Chargement…

Écrire un commentaire

Questions à explorer avec ce dataset

Quels facteurs influencent le plus la fréquence des sinistres ?

Comment segmenter le portefeuille par niveau de risque ?

La sévérité des sinistres suit-elle une loi log-normale ou Gamma ?

Existe-t-il des effets non-linéaires entre l'âge du véhicule et la sinistralité ?

Comment construire un modèle de tarification à deux parties (fréquence × coût moyen) ?

Quelles variables proxy peuvent remplacer des données manquantes ou réglementairement sensibles ?

Quels patterns comportementaux distinguent les déclarations frauduleuses ?

Comment optimiser le seuil de détection (précision vs rappel) selon le coût métier ?

Le déséquilibre de classes impacte-t-il significativement la performance du modèle ?

Quelles techniques de rééchantillonnage (SMOTE, undersampling) donnent les meilleurs résultats ?

Les fraudes sont-elles regroupées géographiquement ou temporellement ?

Comment interpréter les décisions du modèle pour les équipes d'investigation ?

Découvrez plus de cas d'usage et méthodologies sur notre page Modélisation

Voir tous les parcours

Fraude Déclarations Sinistres Auto

Informations sur les données

Ce que vous pouvez apprendre avec ce dataset

Compétences techniques

Applications métier

Aperçu des données (10 premières lignes) Cliquez sur une ligne pour l'agrandir

Statistiques & Profil des données

Distributions des variables

Matrice de corrélation (variables numériques)

Visualisations des données

Parcours data complet — de A à Z

Collecte & Import des données

Actions concrètes

Librairies & outils

Exemple de code

Nettoyage & Préparation

Actions concrètes

Librairies & outils

Exemple de code

Analyse Exploratoire (EDA)

Actions concrètes

Librairies & outils

Exemple de code

Modélisation GLM

Actions concrètes

Librairies & outils

Exemple de code

Tarification

Actions concrètes

Librairies & outils

Exemple de code

Validation & Monitoring

Actions concrètes

Librairies & outils

Exemple de code

Accès au dataset

Benchmarks — Performance des modèles

Modèles

Soumettre un modèle

Notebooks

Avis de la communauté

Donner votre avis

Commentaires

Écrire un commentaire

Questions à explorer avec ce dataset

Vous aimerez aussi

Citer ce dataset

Historique des versions 1 version