StochastiQdata — La plateforme de données pour les actuaires

Une frustration devenue une mission

Tout commence par une observation simple, partagée par des milliers de data scientists et d'actuaires dans le monde : les données existent, les modèles existent, les publications académiques existent — mais tout est éparpillé. Kaggle ici, un dépôt GitHub là, une annexe de paper sur arxiv, un fichier Excel sur le site d'une fédération professionnelle.

Pour un actuaire qui veut tester un GLM Poisson sur des données de sinistralité auto, il faut compter plusieurs heures rien que pour trouver un dataset propre, comprendre ses variables, vérifier sa licence et l'intégrer dans son environnement de travail. C'est du temps perdu. Du temps qui devrait être consacré à la modélisation, à l'analyse, à la valeur ajoutée.

« Les données étaient là. Ce qui manquait, c'était un endroit où les trouver, les comprendre et les utiliser efficacement — sans friction. »

Ce qu'est StochastiQdata

StochastiQdata est une plateforme de datasets spécialisée dans les métiers de l'assurance et de la banque. Elle s'adresse aux data scientists actuariels, aux analystes quantitatifs, aux ML engineers et à tous ceux qui travaillent sur des problèmes de pricing, de réserves, de fraude, de risque de crédit ou de modélisation stochastique.

Contrairement aux plateformes généralistes, chaque dataset sur StochastiQdata est :

Qualifié et contextualisé — avec une description métier, les variables cibles, la période couverte et les cas d'usage actuariels
Évalué par la communauté — un système de notation sur trois critères (utilité, qualité des données, documentation)
Associé à des benchmarks — les modèles de référence, leurs métriques et le code pour les reproduire
Prêt à l'emploi — accessible directement depuis Kaggle ou les sources officielles, sans intermédiaire inutile

L'histoire derrière le projet

StochastiQdata naît d'une conviction : les professionnels de l'assurance méritent leur propre espace de travail collaboratif sur la donnée. Un espace qui comprend leurs contraintes réglementaires, leur vocabulaire — GLM, Chain Ladder, Poisson deviance, Bühlmann-Straub — et leurs besoins spécifiques.

Le projet démarre modestement, avec une vingtaine de datasets soigneusement sélectionnés couvrant les grandes thématiques du secteur : sinistralité IARD, fraude, risque de crédit, comportements clients, indicateurs de santé. Chaque dataset est accompagné de ses métadonnées complètes, de modèles de référence et pour certains, d'un parcours de défis progressifs pour apprendre à les maîtriser.

Le premier grand dataset mis en avant — freMTPL2freq — illustre parfaitement la philosophie de la plateforme. 678 013 polices d'assurance RC auto françaises, données de référence dans la littérature académique (Charpentier, Denuit & Trufin, ArXiv:2103.03635), accompagnées de 11 benchmarks allant du simple GLM Poisson aux réseaux de neurones actuariels CANN, et d'un parcours de 20 défis progressifs pour tout apprendre de ce dataset.

Ce que nous construisons

La v1.0 de StochastiQdata est un point de départ. La vision à moyen terme est plus ambitieuse :

Une bibliothèque de datasets croissante — des dizaines puis des centaines de datasets actuariels, couvrant tous les continents et toutes les branches de l'assurance
Une communauté active — des actuaires et data scientists qui partagent leurs analyses, soumettent leurs modèles, commentent et évaluent les datasets
Des outils d'apprentissage — des parcours structurés, des défis notés, des notebooks reproductibles pour former la prochaine génération d'actuaires data-driven
Une API publique — pour intégrer les datasets directement dans les workflows Python et R, sans quitter son environnement de travail
La bibliothèque stochastiqdata — un package Python qui permettra d'accéder à tous les datasets de la plateforme en une ligne de code, à la manière de sklearn.datasets ou seaborn.load_dataset()

Rejoindre l'aventure

StochastiQdata est un projet ouvert. Si vous êtes actuaire, data scientist, ML engineer ou simplement passionné par les données dans le secteur financier, vous pouvez contribuer dès maintenant : en ajoutant un dataset, en soumettant un modèle benchmark, en rédigeant un notebook ou en évaluant les datasets existants.

La communauté se construit ensemble. Chaque contribution, aussi petite soit-elle, rend la plateforme plus utile pour tous.