Détection Anomalies Transactions Bancaires
KaggleTransactions bancaires avec anomalies et fraudes. Analyse comportementale des clients, montants inhabituels, fréquence et localisation. Idéal pour les modèles non-supervisés et l'isolation forest.
Uploader le fichier (CSV, Parquet, Excel — max 50 MB)
Score qualité — 0/100
- · Complétude des métadonnées
- · Taux de valeurs nulles
- · Présence d'un dictionnaire
- · Avis et téléchargements
- · Disponibilité des benchmarks
Informations sur les données
2 512
Lignes
9
Colonnes
0.33
MB
0
Avis
Variable cible
Is_Fraud
Licence
CC0 1.0 (domaine public)
Intégrité SHA256
fb27e0037ce1eee2da1c178550a736983ec559f406c49d51f3ac46dd122f32cb
Ce que vous pouvez apprendre avec ce dataset
Compétences techniques
- Classification binaire et gestion du déséquilibre
- Feature engineering pour détection d'anomalies
- Validation croisée et évaluation des modèles
Applications métier
- Système de scoring anti-fraude
- Priorisation des dossiers à contrôler
Aperçu des données (10 premières lignes) Cliquez sur une ligne pour l'agrandir
Statistiques & Profil des données
Distributions des variables
Matrice de corrélation (variables numériques)
Visualisations des données
Basées sur les données réelles du dataset
Parcours data complet — de A à Z
Suivez chaque étape du travail data science appliqué sur ce dataset.
Actions concrètes
- Importer le dataset de sinistres
- Calculer le taux de fraude (souvent < 5%)
- Analyser les variables disponibles
- Identifier les features discriminantes potentielles
Librairies & outils
Exemple de code
taux_fraude = df["Fraud"].mean()
print(f"Taux de fraude: {taux_fraude:.2%}")
# Souvent 2-8% → problème de déséquilibre!
Actions concrètes
- Calculer le délai déclaration - sinistre
- Créer des features comportementales (historique client)
- Encoder les variables catégorielles (target encoding)
- Créer des interactions entre variables clés
- Normaliser les montants (log-transformation)
Librairies & outils
Exemple de code
df["delai_declaration"] = ( df["ClaimDate"] - df["AccidentDate"] ).dt.days df["log_montant"] = np.log1p(df["ClaimAmount"])
Actions concrètes
- Comparer les distributions fraude vs non-fraude par variable
- Identifier les segments à risque élevé
- Analyser les corrélations avec la cible
- Cartographier la fraude géographiquement
Librairies & outils
Exemple de code
import seaborn as sns sns.boxplot(x="Fraud", y="delai_declaration", data=df) # Les fraudes ont souvent un délai plus long!
Actions concrètes
- Appliquer SMOTE pour rééquilibrer les classes
- Entraîner : Logistic Regression (baseline), XGBoost, LightGBM
- Optimiser les hyperparamètres (Optuna/GridSearch)
- Utiliser class_weight='balanced' ou scale_pos_weight
- Construire un score de fraude [0, 1]
Librairies & outils
Exemple de code
from imblearn.over_sampling import SMOTE X_res, y_res = SMOTE().fit_resample(X_train, y_train) model = XGBClassifier(scale_pos_weight=10).fit(X_res, y_res)
Actions concrètes
- Tracer la courbe Precision/Recall
- Calculer le F-beta score (β selon priorité)
- Modéliser le coût : faux positif (rejet abusif) vs faux négatif (fraude acceptée)
- Fixer le seuil de déclenchement alerte
- Construire le barème de priorité (faible / moyen / fort risque)
Librairies & outils
Exemple de code
from sklearn.metrics import precision_recall_curve p, r, thresholds = precision_recall_curve(y_test, y_scores) # Choisir threshold qui maximise F2 (rappel prioritaire) f2 = (5*p*r) / (4*p + r)
Actions concrètes
- Exporter le modèle (joblib / ONNX)
- Créer un pipeline de scoring en temps réel
- Mettre en place le monitoring du modèle (drift détection)
- Définir les règles de ré-entraînement
- Mesurer l'impact business (fraudes détectées × montant moyen)
Librairies & outils
Exemple de code
import joblib joblib.dump(model, "fraud_scorer_v1.pkl") # Scoring en production score = model.predict_proba(new_claim)[:, 1]
Accès au dataset
import pandas as pd # Chargement direct depuis StochastiQdata url = "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/909225cc-099a-47b7-9e25-10b600c7a3ba/54bd713b-3030-441f-8507-48c4357c8a70.csv" df = pd.read_csv(url) # Aperçu print(df.shape) # (2 512 lignes, 9 colonnes) print(df.head())
Benchmarks — Performance des modèles
Aucun benchmark disponible pour ce dataset.
Soyez le premier à soumettre vos résultats !
Modèles
Aucun modèle affilié pour le moment.
Soyez le premier à partager un modèle entraîné sur ce dataset.
Notebooks
Aucun notebook disponible pour ce dataset.
Partagez votre analyse et contribuez à la communauté !
Avis de la communauté
Aucun avis pour ce dataset.
Soyez le premier à donner votre avis !
Questions à explorer avec ce dataset
Quels patterns comportementaux distinguent les déclarations frauduleuses ?
Comment optimiser le seuil de détection (précision vs rappel) selon le coût métier ?
Le déséquilibre de classes impacte-t-il significativement la performance du modèle ?
Quelles techniques de rééchantillonnage (SMOTE, undersampling) donnent les meilleurs résultats ?
Les fraudes sont-elles regroupées géographiquement ou temporellement ?
Comment interpréter les décisions du modèle pour les équipes d'investigation ?
Découvrez plus de cas d'usage et méthodologies sur notre page Modélisation
Voir tous les parcoursVous aimerez aussi
Citer ce dataset
Historique des versions 1 version
Seed initial : bank_transactions_data_2.csv