Data Science Lab

Un approccio sistematico all’analisi dei dati tramite una piattaforma per l’industrializzazione dei processi di Data Science

Industries:

Finance & Insurance - Retail & GDO - Transportation - Energy & Utility - Life Science - Industrial

Solutions:

Data Products

Technologies:

Power BI - TIBCO - Aws - Python - PyTorch - Databricks

Quantyca Data Science Lab use case image

Contesto

Nella moderna azienda data driven, i dati rappresentano un asset fondamentale e tutte le azioni e le direzioni strategiche sono dettate dagli insight ricavati dall’analisi dei dati che arrivano da una molteplicità di fonti diverse.

La data science rappresenta l’insieme di metodi, processi, algoritmi e tecnologie che consentono di estrarre la conoscenza utile dalla moltitudine di dati strutturati e non strutturati, che l’azienda ha a disposizione all’interno del data warehouse, data lake o, più in generale, della data platform.
Le tecniche di intelligenza artificiale(AI) e machine learning(ML) stanno in questo senso ridefinendo interi settori di mercato, dal mondo del retail online ai servizi di trasporto, dalla domotica,al campo assicurativo e bancario, permettendo di comprendere correlazioni e andamenti riguardanti fenomeni complessi come le preferenze dei consumatori, l’evoluzione della domanda di uno specifico prodotto o servizio e le analisi della concorrenza sul mercato.

Negli ultimi dieci anni queste tecnologie si sono diffuse non solo nelle big company, ma in modo crescente anche nelle PMI; entrambe le realtà hanno dedicato questi anni alla sperimentazione, alternando risultati promettenti a costosi fallimenti.

Punti critici

I problemi principali delle data platform on prem sono:

Impossibilità di scalare le risorse in modo elastico. Nei momenti di elevato carico la piattaforma è spesso in difficoltà mentre nei momenti basso carico si paga per risorse idle.
Impossibilità di scalare storage e computazione in modo indipendente. Dovendo incrementare uno dei due bisogna aumentare anche l’altro. L’unità di scaling è il server all’interno del cluster.
Elevati costi operativi per configurare e gestire architetture complesse, distribuite e spesso composte da molteplici tecnologie sviluppate da differenti vendor.

87% of data science projects

never make it into production

VentureBeat AI

90% of data scientists

have a reproducibility production issue

Nature

99% of AI research

focuses on ML and neglects Data Preparation

Andrew Ng

Soluzione

L’intera soluzione è basata su un’infrastruttura capace di automatizzare il processo di elaborazione del dato per il calcolo delle features necessarie ai modelli di ML, l’addestramento e l’esecuzione dei modelli di ML e la loro esposizione tramite API.

Sono inoltre presenti strumenti per l’isolamento di ambienti e progetti, il provisioning dell’ambiente di sviluppo, il versionamento del codice, dei dati e dei modelli.

L’ambiente Data Science Lab concilia le esigenze di agilità dei data scientist con quelle di stabilità e manutenibilità dell’IT accelerando così i tempi di rilascio di nuovi modelli.

Percorso completo

1. Inception

Mappatura delle competenze pregresse del team di data scientist e superamento dei gap tecnologici e metodologici tramite l’erogazione di un percorso di formazione (workshop frontali, e-learning, …)

2. Foundation

Set up dell’infrastruttura ed importazione e rilascio in produzione dei primi modelli di ML partendo dagli use case prioritari.

3. Expansion & Optimization

Implementazione di nuovi use case espandendo la copertura del Data Science Lab, automatizzando le procedure di addestramento e rilascio in produzione.