Coûts Médicaux Personnels

Kaggle

1 338 assurés avec coût médical individuel annuel. Variables : âge, sexe, IMC, nombre d'enfants, tabagisme, région. Dataset de référence pour la régression des dépenses de santé et la tarification assurance santé.

Santé Pricing GLM

Open in Kaggle Documentation Comparer Notebooks

Score qualité — 0/100

· Complétude des métadonnées
· Taux de valeurs nulles
· Présence d'un dictionnaire
· Avis et téléchargements
· Disponibilité des benchmarks

Informations sur les données

1 338

Lignes

Colonnes

0.05

Avis

Variable cible

charges

Période couverte

2018 – ?

Licence

CC BY-SA 4.0

Intégrité SHA256

388eff679557d08ac19f463d025de5e0b4adc482537c8456d19934d78621fd47

Ce que vous pouvez apprendre avec ce dataset

Compétences techniques

Modélisation GLM (Poisson, Gamma, Tweedie)
Calcul de la prime pure et technique
Modélisation des dépenses de santé
Segmentation et profils patients
Validation croisée et évaluation des modèles

Applications métier

Prévision des coûts de santé
Gestion des risques santé

Aperçu des données (10 premières lignes) Cliquez sur une ligne pour l'agrandir

Statistiques & Profil des données

Distributions des variables

Matrice de corrélation (variables numériques)

−1 (corrélation négative) → +1 (corrélation positive)

Visualisations des données

Basées sur les données réelles du dataset

Chargement…

Parcours data complet — de A à Z

Suivez chaque étape du travail data science appliqué sur ce dataset.

Accès au dataset

import pandas as pd

# Chargement direct depuis StochastiQdata
url = "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/ad5761c3-82c6-4918-aa05-3eac8ed20dab/8f5e4ba0-fa53-40fe-8aac-2d2a98e12c49.csv"
df  = pd.read_csv(url)

# Aperçu
print(df.shape)   # (1 338 lignes, 7 colonnes)
print(df.head())

library(readr)

# Chargement direct depuis StochastiQdata
url <- "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/ad5761c3-82c6-4918-aa05-3eac8ed20dab/8f5e4ba0-fa53-40fe-8aac-2d2a98e12c49.csv"
df  <- read_csv(url)

# Aperçu
dim(df)
head(df)

curl -L -o "coûts_médicaux_personnels.csv" \
  "https://mjqtthaypifkdlaneymx.supabase.co/storage/v1/object/public/datasets-files/ad5761c3-82c6-4918-aa05-3eac8ed20dab/8f5e4ba0-fa53-40fe-8aac-2d2a98e12c49.csv"

Benchmarks — Performance des modèles

Aucun benchmark disponible pour ce dataset.

Soyez le premier à soumettre vos résultats !

Modèles

Chargement des modèles…

Notebooks

Aucun notebook disponible pour ce dataset.

Partagez votre analyse et contribuez à la communauté !

Avis de la communauté

Aucun avis pour ce dataset.

Soyez le premier à donner votre avis !

Donner votre avis

Commentaires

Chargement…

Écrire un commentaire

Questions à explorer avec ce dataset

Quels facteurs influencent le plus la fréquence des sinistres ?

Comment segmenter le portefeuille par niveau de risque ?

La sévérité des sinistres suit-elle une loi log-normale ou Gamma ?

Existe-t-il des effets non-linéaires entre l'âge du véhicule et la sinistralité ?

Comment construire un modèle de tarification à deux parties (fréquence × coût moyen) ?

Quelles variables proxy peuvent remplacer des données manquantes ou réglementairement sensibles ?

Quels profils de patients génèrent les dépenses de santé les plus élevées ?

Comment prédire le risque d'hospitalisation à 12 mois ?

Les pathologies chroniques expliquent-elles l'essentiel de la variance des coûts ?

Existe-t-il des clusters de patients avec des comportements de consommation similaires ?

Comment modéliser la récurrence des séjours hospitaliers ?

Quels indicateurs avancés permettent de détecter une dégradation de l'état de santé ?

Découvrez plus de cas d'usage et méthodologies sur notre page Modélisation

Voir tous les parcours

Coûts Médicaux Personnels

Informations sur les données

Ce que vous pouvez apprendre avec ce dataset

Compétences techniques

Applications métier

Aperçu des données (10 premières lignes) Cliquez sur une ligne pour l'agrandir

Statistiques & Profil des données

Distributions des variables

Matrice de corrélation (variables numériques)

Visualisations des données

Parcours data complet — de A à Z

Collecte & Import des données

Actions concrètes

Librairies & outils

Exemple de code

Nettoyage & Préparation

Actions concrètes

Librairies & outils

Exemple de code

Analyse Exploratoire (EDA)

Actions concrètes

Librairies & outils

Exemple de code

Modélisation GLM

Actions concrètes

Librairies & outils

Exemple de code

Tarification

Actions concrètes

Librairies & outils

Exemple de code

Validation & Monitoring

Actions concrètes

Librairies & outils

Exemple de code

Accès au dataset

Benchmarks — Performance des modèles

Modèles

Soumettre un modèle

Notebooks

Avis de la communauté

Donner votre avis

Commentaires

Écrire un commentaire

Questions à explorer avec ce dataset

Vous aimerez aussi

Citer ce dataset

Historique des versions 1 version