Diasorin - Analisi avanzata di trial clinici

Diasorin utilizza tecniche di machine learning e data augmentation per analizzare in maniera avanzata i dati dei propri trial clinici, adottando un approccio di explainable AI.

Solutions:

Data Platform - Data Products

Technologies:

Azure - Python

Business Summary

Da oltre 50 anni Diasorin sviluppa, produce e commercializza kit di reagenti per la diagnostica di laboratorio in tutto il mondo attraverso 45 società, 4 divisioni, 10 siti produttivi e 9 centri di ricerca e sviluppo. Questa organizzazione consente a Diasorin di avere un’ampia offerta di test diagnostici e soluzioni di tecnologia su licenza, resa disponibile grazie ai continui investimenti nella ricerca. La varietà dell’offerta e gli investimenti in ricerca ed innovazione qualificano Diasorin nel proprio mercato come il player con la più ampia gamma di soluzioni specialistiche del settore e identifica il Gruppo come lo “Specialista della diagnostica”.

Sfide e obiettivi

→ Standardizzazione tecnologica e metodologica dei processi
→ Costruzione di una analisi dati con tecniche avanzate che prevedesse con accuratezza la ricaduta da un test diagnostico non invasivo
→ Costruzione di un modello dati generico che potesse accogliere i risultati di diversi trial clinici effettuati o commissionati da Diasorin

L’obiettivo di Diasorin è quello di analizzare i dati di un trial clinico diagnostico (già studiati da Diasorin con metodi statistici tradizionali) con metodi statistici avanzati e di machine learning per correlare in maniera più robusta i risultati dei test effettuati con lo stato di salute dei pazienti del trial. Si tratta di uno studio prospettico longitudinale condotto in Italia, Francia e Spagna.

L’obiettivo primario era quello di correlare le misurazioni del test LIAISON® Calprotectina alla colite ulcerosa quiescente (UC) o alle ricadute valutate dai dati clinici. I pazienti sono stati valutati ogni 3 mesi per 12 mesi e infine a 18 mesi dall’inizio dei trial.

Quattro le principali sfide che poneva l’analisi di questo trial:

Lettura efficace dei dati

Necessità di un modello logico e relazionale dei dati dei trial clinici che consentisse una conservazione dei dati standardizzata e una lettura efficiente ed efficace. Il modello avrebbe dovuto conservare i dati del trial in analisi, ma essere pensato e disegnato in modo generico per poterlo utilizzare anche in altri use case simili.

Scelta del modello

Scegliere un modello di machine learning che consentisse di analizzare i dati in maniera ottimale e replicabile. Il modello doveva prevedere la ricaduta della malattia tenendo conto di tutte le feature raccolte del paziente e doveva utilizzare come convalida di correlazione il parametro statistico AUC (Area Under the Curve).

Consolidamento dei risultati

Consolidare gli eventuali risultati positivi ottenuti dal modello (o sottolinearne in maniera più evidente possibile la mancata correlazione tra variabili) estendendo il dataset e simulando gli eventuali punti di stress che l’analisi avrebbe dovuto sopportare.

Spiegazione del modello

Utilizzare un modello che non fosse una “black box” ma che consentisse cioè di spiegare al meglio il perché delle correlazioni tra le variabili, quali di esse pesassero di più nel risultato finale e quale fosse l’impatto di eventuali esclusioni di variabili dal modello stesso.

Soluzione

Per riuscire a raggiungere tutti e quattro gli obiettivi che Diasorin si poneva, Quantyca ha adottato una strategia che consentisse di valutare il problema da un’ottica sperimentale e specifica per lo use case sottoposto, ma contemporaneamente potesse fungere da base per la costruzione di un laboratorio dati cloud che restasse per Diasorin anche dopo il termine del progetto.

Scelta del modello

Un’analisi statistica sui risultati del trial in esame era già stata condotta dal team Diasorin: l’obiettivo era quello di approfondire con metodi di calcolo meno classici il risultato ottenuto ed esplorare le possibilità di migliorarlo per capire l’efficacia del metodo diagnostico e da un punto di vista scientifico e da un punto di vista di business. Abbiamo quindi analizzato il dataset e dapprima lo abbiamo organizzato per la lettura automatica e arricchito con colonne calcolate e potessero portare correlazioni interessanti e rilevanti. Abbiamo poi elaborato un modello con diversi algoritmi disponibili (regressione logistica, random forest, XGBoost…) analizzando i pro e i contro dal punto di vista statistico, confrontandoli con la cardinalità della base dati e anche dal punto di vista tecnico/di manutenzione.

Stress test

Per Diasorin e per il team scientifico che ha ideato il trial clinico era essenziale ottenere dall’analisi dei risultati soldi e che tenessero conto di eventuali “fattori di disturbo” all’AUC ottenuta. Quindi, una volta scelto il modello e condotto le analisi principali sul dataset pulito e arricchito, abbiamo integrato la base dati dei pazienti con dati sintetici (con i metodi SMOTE e ADASYN) per poter essere certi che l’AUC ottimale ottenuta non fluttuasse con la cardinalità dei dati in input.

L’analisi della distribuzione delle AUC ottenute con le varie iniezioni di dati sintetici (sia in modalità che in cardinalità) attraverso vari indici di dispersione statistica hanno evidenziato un’ottima stabilità dei risultati, rendendo l’analisi solida e il trial diagnostico estremamente significativo.

Spiegazione dei risultati

Per spiegare il grado di correlazione e importanza che ogni feature presa in esame e utilizzata nell’analisi logistica portava al modello sono state implementate diverse analisi con la libreria SHAP, aiutandosi anche con grafici e strumenti visuali. Sono state poi costruite delle dashboard di appoggio all’analisi esplicativa in Python che rendessero più leggibili e comprensibili i risultati anche a utenti non tecnici e, grazie a questi strumenti, si è portata la discussione del modello al team di medici, biologi e ricercatori che avevano condotto lo studio affrontando il significato del peso di ogni variabile anche dal punto di vista scientifico in maniera agile e trasversale alle competenze del team.

Datalab, DB e MLOps

Per lavorare al meglio sui dati a disposizione si è pensata un’architettura cloud su Azure che supportasse questo use case e potesse alla fine restare nel patrimonio IT Diasorin.

All’interno di questa architettura, si è predisposto anche un database SQL Server nel quale abbiamo creato un Data Model che consentisse di accogliere in maniera efficiente i dati dei trial clinici, realizzando entità e tabelle che corrispondessero al linguaggio condiviso e approvato dalle varie agenzie pubbliche per il farmaco.

Inoltre, per fruire dei risultati del modello e iniziare un percorso di conoscenza più approfondita di questi metodi di analisi all’interno di Diasorin abbiamo sviluppato una webapp che consente l’inferenza del modello imputando i dati di un paziente richiesti per effettuare una previsione di ricaduta della malattia.

Risultati

Diasorin ha raggiunto diversi obiettivi:

Validazione e consolidamento di un trial clinico importante e critico con analisi e mezzi innovativi
Riconoscimento della validità del trial e del metodo di analisi attraverso la pubblicazione di un articolo su United European Gastroenterology Journal.
Efficienza della gestione dei dati e dell’interpretazione dei risultati del modello
Architettura cloud per trattare dati e modelli trasversale a diversi use case

Risorse

Whitepaper

Free

01/10/2022

LIAISON® Calprotectin for the prediction of relapse in quiescent ulcerative colitis: The EuReCa study

Scopri

Diasorin - Analisi avanzata di trial clinici

Sfide e obiettivi

Lettura efficace dei dati

Scelta del modello

Consolidamento dei risultati

Spiegazione del modello

Soluzione

Scelta del modello

Stress test

Spiegazione dei risultati

Datalab, DB e MLOps

Risultati

Risorse

LIAISON® Calprotectin for the prediction of relapse in quiescent ulcerative colitis: The EuReCa study

Contattaci!

Entra a far parte del team Quantyca, facciamo squadra!