L’actualité numérique des industries de santé

    L’actualité numérique des industries de santé

    Solutions

    Comment Roche a construit sa base de données ouverte sur le cancer

    BOULOGNE-BILLANCOURT (TICpharma) - Le directeur de l'innovation du laboratoire Roche, Jean-Frédéric Petit-Nivard, est revenu sur les différentes étapes de construction de la base Roche Open Database dans un livre blanc tirant le bilan de la première année du programme de recherche collaboratif sur le cancer Epidemium.

    Le programme Epidemium a été lancé fin 2015 par la filiale France de Roche et le laboratoire communautaire La Paillasse en vue de tirer parti des méthodes d'analyses du big data afin d'améliorer la recherche dans l'épidémiologie du cancer.

    Pour ce faire, le laboratoire Roche a dû construire une base de données ouverte sur le cancer, baptisée Roche Open Database, afin de mettre à disposition ces informations à des équipes d'étudiants, de statisticiens, de biologistes et d'experts en data-visualisation lors d'un concours intitulé "Challenge4Cancer".

    "L'origine du projet part d'une conviction forte partagée: l'open data est un accélérateur formidable pour la science et plus spécifiquement pour l'épidémiologie du cancer", explique Jean-Frédéric Petit-Nivard dans son retour d'expérience.

    Il détaille ensuite le parcours réalisé pour concrétiser cette volonté d'ouvrir les données du laboratoire, malgré de fortes contraintes juridiques et techniques.

    Premier étape de ce parcours: la constitution d'une équipe en interne regroupant "les expertises d'ordre médical, juridique, réglementaire et analytique" et le correspondant informatique et liberté (CIL) de Roche, qui a assuré un lien régulier avec la Commission nationale de l'informatique et des libertés (Cnil).

    Il a ensuite fallu définir le cadre juridique du projet en termes de traitement de données et de consentement patient puisque la base de données allait rassembler des informations anonymisées issues de différentes études cliniques.

    La finalité du projet, la modalité d'information des patients, les données ciblées et une évaluation de l'anonymisation sur trois critères (individualisation, corrélation, inférence) ont été décrits dans une demande d'autorisation de traitement envoyée à la Cnil.

    Après des échanges avec l'autorité indépendante, le feu vert de la Cnil a finalement été obtenu en février 2016 sur une demande de traitement "justifiée par l'intérêt public".

    Ciblage et rassemblement des données

    La construction technique de la base de données a dès lors pu commencer autour de quatre grandes étapes précisées par Jean-Frédéric Petit-Nivard: le choix des données, leur transformation et leur regroupement, l'anonymisation, et la validation des résultats obtenus.

    Parti sur le périmètre de l'ensemble des études non interventionnelles finalisées et réalisées en France depuis 1999 en oncologie, Roche a finalement choisi de retenir les données d'inclusion de "douze études représentant environ 8.000 patients".

    Le directeur de l'innovation de Roche évoque ici "deux défis" pour le regroupement de ces données: "obtenir une structure de base et une nomenclature identiques", et "conserver les spécificités des différentes pathologies représentées", à savoir le cancer colorectal, le lymphome folliculaire, les maladies néoplasiques, le cancer du poumon et le cancer du sein.

    Le choix de l'agrégation par défaut

    Concernant la protection des données, Jean-Frédéric Petit-Nivard explique avoir d'abord voulu privilégier une anonymisation conservant la granularité de la base (une ligne correspondant à un patient) par rapport à des techniques d'agrégation regroupant les données de plusieurs patients présentant des caractéristiques communes sur une seule ligne.

    Mais les équipes de Roche ont constaté qu'"aucune technique disponible aujourd'hui ne permettrait d'anonymiser parfaitement la base de données" tout en conservant sa granularité, et ont donc fait le choix de l'agrégation.

    "Cette méthode offre un avantage indéniable sur la robustesse de l'anonymisation, même si elle limite les recoupements possibles entre bases", note Jean-Frédéric Petit-Nivard.

    Une fois la base Roche Open Database constituée, l'étape finale de validation a permis de s'assurer de la pertinence des données ainsi regroupées, en s'assurant que "chaque statistique a été générée à partir d'un nombre suffisamment important de patients" (ici au moins dix) et en vérifiant qu'il y avait "une dispersion suffisante des valeurs" pour les variables continues.

    "Au-delà de la création de la base, le résultat principal réside sans doute dans la démonstration de la faisabilité de ce type d'initiatives", souligne la direction de l'innovation de Roche en conclusion, saluant notamment l'"implication" et "le soutien" des équipes de la Cnil sur le sujet.

    Accéder au livre blanc publié par La Paillasse et Roche sur le projet Epidemium

    Raphael Moreaux
    raphael.moreaux@apmnews.com

    À suivre

    Cancers métastatiques: les patients qui relèvent leurs symptômes sur internet survivent plus longtemps

    Solutions

    La "Matrice santé et numérique" de Roche aboutit à cinq projets d'entreprises

    PARIS (TICpharma) - Le laboratoire pharmaceutique Roche a présenté cinq projets d'entreprises portés par des équipes multidisciplinaires dans le cadre de son programme d'innovation "Matrice santé et numérique" mené en partenariat avec l'école 42, à l'occasion de la clôture du programme le 4 juillet à l'institut Imagine.

    0 1543

    Acteurs

    Déficitaire en 2018, Voluntis croit aux "perspectives porteuses" des thérapies digitales

    PARIS (TICpharma) - Voluntis, société spécialisée dans le développement de solutions numériques pour l'accompagnement des traitements chroniques, a enregistré une perte nette de 15,9 millions d'euros en 2018 mais compte sur les "perspectives porteuses" des thérapies digitales pour redresser la barre en 2019, selon ses résultats annuels publiés le 21 mars.

    0 1007

    Vos réactions

    Anti-spam : Veuillez saisir le résultat de ce calcul S.V.P
    3 + 7 =