Indicateurs Santé Diabète (CDC BRFSS)
Kaggle253 680 réponses à l'enquête CDC BRFSS 2015 avec indicateur diabète et 21 variables de santé. Idéal pour la classification risque diabète, modélisation de prévalence et segmentation risque santé.
Score qualité — 0/100
- · Complétude des métadonnées
- · Taux de valeurs nulles
- · Présence d'un dictionnaire
- · Avis et téléchargements
- · Disponibilité des benchmarks
Informations sur les données
253 680
Lignes
22
Colonnes
21.68
MB
0
Avis
Variable cible
Diabetes_binary
Période couverte
2015 – 2022
Licence
CC0 1.0 (domaine public)
Intégrité SHA256
19f367e3e3350768f0c144c5d73ee5b355f67a57eaaa86ca7bd8aec594d8b1d0
Ce que vous pouvez apprendre avec ce dataset
Compétences techniques
- Modélisation des dépenses de santé
- Segmentation et profils patients
- Validation croisée et évaluation des modèles
Applications métier
- Prévision des coûts de santé
- Gestion des risques santé
Aperçu des données (10 premières lignes) Cliquez sur une ligne pour l'agrandir
Statistiques & Profil des données
Distributions des variables
Matrice de corrélation (variables numériques)
Visualisations des données
Basées sur les données réelles du dataset
Parcours data complet — de A à Z
Suivez chaque étape du travail data science appliqué sur ce dataset.
Actions concrètes
- Importer les données MEPS / PMSI / bases remboursements
- Identifier les unités : individu, acte, séjour
- Vérifier les clés de jointure entre tables
- Comprendre la codification (CIM-10, CCAM, GHM)
Librairies & outils
Exemple de code
df = pd.read_parquet("meps_health_data.parquet")
print(df.groupby("PANEL")["TOTEXP"].describe())
Actions concrètes
- Traiter les valeurs manquantes (coûts non renseignés)
- Plafonner les grands sinistres (franchise haute)
- Créer des segments démographiques (âge, sexe, région)
- Calculer le coût annuel par bénéficiaire
- Séparer fréquence de recours et coût moyen
Librairies & outils
Exemple de code
df["cout_annuel"] = df.groupby("ID")["TOTEXP"].transform("sum")
cap_99 = df["TOTEXP"].quantile(0.99)
df["TOTEXP_cap"] = df["TOTEXP"].clip(upper=cap_99)
Actions concrètes
- Analyser les dépenses par âge, sexe, pathologie
- Tracer la courbe de concentration (Lorenz)
- Identifier les "gros consommateurs" (top 10% = 70% des coûts)
- Analyser la saisonnalité des recours
- Cartographier les disparités géographiques
Librairies & outils
Exemple de code
cout_by_age = df.groupby("AGE")["cout_annuel"].mean()
cout_by_age.plot(title="Coût moyen par âge")
# Courbe en J typique de l'assurance santé
Actions concrètes
- Modèle 1 : probabilité de recours (logistique)
- Modèle 2 : coût conditionnel si recours (GLM Gamma ou Tweedie)
- Ou modèle Tweedie unifié (fréquence × sévérité)
- Comparer avec Random Forest et XGBoost
- Calculer la prime pure individuelle
Librairies & outils
Exemple de code
from sklearn.linear_model import TweedieRegressor glm = TweedieRegressor(power=1.5, alpha=0.1) glm.fit(X_train, y_train) # power=1.5 → entre Poisson (1) et Gamma (2)
Actions concrètes
- Calculer la prime de référence (coût attendu moyen)
- Appliquer les chargements (frais de gestion, profit)
- Analyser l'anti-sélection potentielle
- Comparer avec les tarifs du marché
- Tester la soutenabilité financière du régime
Librairies & outils
Exemple de code
prime_pure = glm.predict(X_test) chargement = 1.20 # 20% de chargements prime_commerciale = prime_pure * chargement
Actions concrètes
- Calculer le ratio S/P modélisé vs observé par segment
- Tester sur données hors-période
- Analyser l'impact d'un vieillissement du portefeuille
- Stress-test : impact d'une pandémie (+20% de recours)
- Documenter les limites du modèle
Librairies & outils
Exemple de code
ratio_sp = y_test.sum() / glm.predict(X_test).sum()
print(f"Ratio S/P: {ratio_sp:.2%}") # Cible ≈ 100%
Accès au dataset
import pandas as pd # Chargement direct depuis StochastiQdata url = "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/2bda6025-daf4-4aea-9d9f-20cb92856a7e/9700ad76-2570-471a-a628-f8cc67bae730.csv" df = pd.read_csv(url) # Aperçu print(df.shape) # (253 680 lignes, 22 colonnes) print(df.head())
Benchmarks — Performance des modèles
Aucun benchmark disponible pour ce dataset.
Soyez le premier à soumettre vos résultats !
Modèles
Aucun modèle affilié pour le moment.
Soyez le premier à partager un modèle entraîné sur ce dataset.
Notebooks
Aucun notebook disponible pour ce dataset.
Partagez votre analyse et contribuez à la communauté !
Avis de la communauté
Aucun avis pour ce dataset.
Soyez le premier à donner votre avis !
Donner votre avis
Connectez-vous pour écrire un avis
Se connecterCommentaires
Écrire un commentaire
Connectez-vous pour laisser un commentaire
Se connecter
Questions à explorer avec ce dataset
Quels profils de patients génèrent les dépenses de santé les plus élevées ?
Comment prédire le risque d'hospitalisation à 12 mois ?
Les pathologies chroniques expliquent-elles l'essentiel de la variance des coûts ?
Existe-t-il des clusters de patients avec des comportements de consommation similaires ?
Comment modéliser la récurrence des séjours hospitaliers ?
Quels indicateurs avancés permettent de détecter une dégradation de l'état de santé ?
Découvrez plus de cas d'usage et méthodologies sur notre page Modélisation
Voir tous les parcoursVous aimerez aussi
Citer ce dataset
Historique des versions 1 version
Seed initial : diabetes_binary_health_indicators_BRFSS2015.csv