Indicateurs Santé Diabète (CDC BRFSS)
Kaggle253 680 réponses à l'enquête CDC BRFSS 2015 avec indicateur diabète et 21 variables de santé. Idéal pour la classification risque diabète, modélisation de prévalence et segmentation risque santé.
Uploader le fichier (CSV, Parquet, Excel — max 50 MB)
Score qualité — 0/100
- · Complétude des métadonnées
- · Taux de valeurs nulles
- · Présence d'un dictionnaire
- · Avis et téléchargements
- · Disponibilité des benchmarks
Informations sur les données
253 680
Lignes
22
Colonnes
21.68
MB
0
Avis
Variable cible
Diabetes_binary
Licence
CC0 1.0 (domaine public)
Intégrité SHA256
19f367e3e3350768f0c144c5d73ee5b355f67a57eaaa86ca7bd8aec594d8b1d0
Ce que vous pouvez apprendre avec ce dataset
Compétences techniques
- Modélisation des dépenses de santé
- Segmentation et profils patients
- Validation croisée et évaluation des modèles
Applications métier
- Prévision des coûts de santé
- Gestion des risques santé
Aperçu des données (10 premières lignes) Cliquez sur une ligne pour l'agrandir
Statistiques & Profil des données
Distributions des variables
Matrice de corrélation (variables numériques)
Visualisations des données
Basées sur les données réelles du dataset
Parcours data complet — de A à Z
Suivez chaque étape du travail data science appliqué sur ce dataset.
Actions concrètes
- Importer les données MEPS / PMSI / bases remboursements
- Identifier les unités : individu, acte, séjour
- Vérifier les clés de jointure entre tables
- Comprendre la codification (CIM-10, CCAM, GHM)
Librairies & outils
Exemple de code
df = pd.read_parquet("meps_health_data.parquet")
print(df.groupby("PANEL")["TOTEXP"].describe())
Actions concrètes
- Traiter les valeurs manquantes (coûts non renseignés)
- Plafonner les grands sinistres (franchise haute)
- Créer des segments démographiques (âge, sexe, région)
- Calculer le coût annuel par bénéficiaire
- Séparer fréquence de recours et coût moyen
Librairies & outils
Exemple de code
df["cout_annuel"] = df.groupby("ID")["TOTEXP"].transform("sum")
cap_99 = df["TOTEXP"].quantile(0.99)
df["TOTEXP_cap"] = df["TOTEXP"].clip(upper=cap_99)
Actions concrètes
- Analyser les dépenses par âge, sexe, pathologie
- Tracer la courbe de concentration (Lorenz)
- Identifier les "gros consommateurs" (top 10% = 70% des coûts)
- Analyser la saisonnalité des recours
- Cartographier les disparités géographiques
Librairies & outils
Exemple de code
cout_by_age = df.groupby("AGE")["cout_annuel"].mean()
cout_by_age.plot(title="Coût moyen par âge")
# Courbe en J typique de l'assurance santé
Actions concrètes
- Modèle 1 : probabilité de recours (logistique)
- Modèle 2 : coût conditionnel si recours (GLM Gamma ou Tweedie)
- Ou modèle Tweedie unifié (fréquence × sévérité)
- Comparer avec Random Forest et XGBoost
- Calculer la prime pure individuelle
Librairies & outils
Exemple de code
from sklearn.linear_model import TweedieRegressor glm = TweedieRegressor(power=1.5, alpha=0.1) glm.fit(X_train, y_train) # power=1.5 → entre Poisson (1) et Gamma (2)
Actions concrètes
- Calculer la prime de référence (coût attendu moyen)
- Appliquer les chargements (frais de gestion, profit)
- Analyser l'anti-sélection potentielle
- Comparer avec les tarifs du marché
- Tester la soutenabilité financière du régime
Librairies & outils
Exemple de code
prime_pure = glm.predict(X_test) chargement = 1.20 # 20% de chargements prime_commerciale = prime_pure * chargement
Actions concrètes
- Calculer le ratio S/P modélisé vs observé par segment
- Tester sur données hors-période
- Analyser l'impact d'un vieillissement du portefeuille
- Stress-test : impact d'une pandémie (+20% de recours)
- Documenter les limites du modèle
Librairies & outils
Exemple de code
ratio_sp = y_test.sum() / glm.predict(X_test).sum()
print(f"Ratio S/P: {ratio_sp:.2%}") # Cible ≈ 100%
Accès au dataset
import pandas as pd # Chargement direct depuis StochastiQdata url = "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/2bda6025-daf4-4aea-9d9f-20cb92856a7e/9700ad76-2570-471a-a628-f8cc67bae730.csv" df = pd.read_csv(url) # Aperçu print(df.shape) # (253 680 lignes, 22 colonnes) print(df.head())
Benchmarks — Performance des modèles
Aucun benchmark disponible pour ce dataset.
Soyez le premier à soumettre vos résultats !
Modèles
Aucun modèle affilié pour le moment.
Soyez le premier à partager un modèle entraîné sur ce dataset.
Notebooks
Aucun notebook disponible pour ce dataset.
Partagez votre analyse et contribuez à la communauté !
Avis de la communauté
Aucun avis pour ce dataset.
Soyez le premier à donner votre avis !
Questions à explorer avec ce dataset
Quels profils de patients génèrent les dépenses de santé les plus élevées ?
Comment prédire le risque d'hospitalisation à 12 mois ?
Les pathologies chroniques expliquent-elles l'essentiel de la variance des coûts ?
Existe-t-il des clusters de patients avec des comportements de consommation similaires ?
Comment modéliser la récurrence des séjours hospitaliers ?
Quels indicateurs avancés permettent de détecter une dégradation de l'état de santé ?
Découvrez plus de cas d'usage et méthodologies sur notre page Modélisation
Voir tous les parcoursVous aimerez aussi
Citer ce dataset
Historique des versions 1 version
Seed initial : diabetes_binary_health_indicators_BRFSS2015.csv