Real-Time Inventory-quantyca
Scopri

Contesto

I dati non strutturati sono un giacimento prezioso, ma a lungo poco esplorato. In passato la difficoltà di automatizzare i processi senza sacrificare qualità e costi ha limitato il loro potenziale. Oggi, grazie all’intelligenza artificiale, queste barriere sono abbattute. L’AI da sola, però, non è sufficiente: ha bisogno del sostegno di una gestione della conoscenza adeguata a fornire il contesto appropriato, evitando che i modelli generalisti si smarriscano in allucinazioni o banalità, generando soluzioni superficiali e totalmente inefficaci. Senza questo supporto, anche la migliore tecnologia rischia di diventare un’arma spuntata.

Quante aziende davvero stanno riuscendo a sfruttare appieno questa opportunità?

La flessibilità e l’immediatezza degli strumenti recenti hanno portato a un numero crescente di Proof of Concept, che sembrano aprire la strada all’innovazione. Tuttavia, una volta approvata la strada proposta e ottenuti i primi risultati, è importante non confondere l’agilità nella realizzazione di un prototipo con l’integrazione della soluzione finale nell’ecosistema esistente rispettando i requisiti e la strategia complessiva dell’organizzazione. Il passaggio da un’idea promettente a una soluzione scalabile e ben integrata richiede una visione più ampia e un’attenzione al contesto che va oltre la fase iniziale.

Anche le soluzioni più promettenti, se non gestite correttamente, possono dar vita a una proliferazione incontrollata di approcci tattici, sfuggendo al controllo attraverso fenomeni di shadow IT. Questo non solo mina la manutenibilità, l’evoluzione e la sicurezza a lungo termine alimentando il debito tecnico con soluzioni isolate, difficili da gestire e destinate a crollare come castelli di carte.

È evidente che il contesto attuale è ricco di opportunità, ma anche di insidie. Sfruttare il potenziale dei dati non strutturati richiede una visione matura capace di trovare il giusto equilibrio: innovare senza complicare, preservando la flessibilità e la sostenibilità.

Punti Critici

Se il mondo dei dati non strutturati è ora più accessibile, le sfide sono tutt’altro che superate.
Ecco gli elementi chiave da affrontare per implementare soluzioni affidabili e sostenibili:

  • integrazione efficace con il resto dell'ecosistema esistente
  • integrazione efficace con il resto dell'ecosistema esistente
  • modularità e manutenibilità della soluzione
  • aderenza con i requisiti di sicurezza e privacy
  • integrazione con processi di gestione dei test e dei rilasci
  • osservabilità
  • integrazione con processi di gestione dei test e dei rilasci
  • gestione agile delle configurazioni
  • enforcing di policy di governance
  • interoperabilità con altri asset
  • capacità di evolvere agilmente in risposta a requisiti e funzionalità dinamici
  • trasparenza attraverso la chiara definizione di responsabili, scopo, funzionalità e modalità di consumo del servizio

Questi aspetti possono essere affrontati con soluzioni su misura; tuttavia, dove possibile, è fondamentale adottare un approccio strategico che sfrutti strumenti e pratiche già consolidate nel mondo dei dati strutturati, consentendo una gestione integrata di dati strutturati e non strutturati e convergendo verso una visione unificata.

Soluzione

L’approccio basato su data product ha permesso la gestione del dato strutturato come asset aziendale messo a disposizione di molteplici use case favorendo la maggiore business agility e la democratizzazione dei dati.

L’impiego di questo approccio anche sui dati non strutturati offre una risposta efficace attraverso l’organizzazione degli asset in un’architettura caratterizzata da forte disaccoppiamento, adattabilità e suddivisione efficace delle responsabilità.

I data product che interagiscono con dati non strutturati aggiungono a tutte le classiche caratteristiche dei data product la capacità di interagire con questo nuovo formato di dati.

In particolare, l’anatomia più elementare di questo tipo di data product prevede almeno:
una input port da cui consumare dati non strutturati
• una output port da cui esporre dati strutturati in seguito all’elaborazione

Questo è il caso, ad esempio, di un data product in grado di processare dei documenti di fatturazione in formato PDF estraendo le informazioni di testata di una fattura come partita iva, importo, data.

 

L’approccio basato su data product dà la possibilità di usare molteplici porte in input e output di natura eterogenea. Questo consente una maggior flessibilità ed espressione delle soluzioni che operano con dati non strutturati, potendo includere:
consumo di dati strutturati attraverso altre input port, per recuperare ad esempio informazioni anagrafiche
produzione di dati non strutturati attraverso altre output port, ad esempio riproponendo lo stesso file originario ai consumer, porzioni di esso o suoi derivati non strutturati

 

Naturalmente sia le porte di input che quelle di output prevedono l’interazione con altri data product: il paradigma raggiunge il suo fine ultimo proprio attraverso il riuso di asset. L’espressione del data product non diverge in funzione del tipo di dati con cui esso opera e permette la convergenza di pratiche e strumenti per un governo centrale e unificato degli asset.

Le differenze tuttavia ci sono, infatti l’interazione con dati non strutturati richiede strumenti e accorgimenti specifici. Il ciclo di vita dei data product viene anche in questo caso governato e standardizzato attraverso servizi di piattaforma. Oltre ai servizi classici per la gestione del ciclo di vita dei data product, per operare con dati non strutturati sono necessari dei servizi:
•  esclusivi per dati non strutturati, ad esempio per estrarre testo da immagini, la suddivisione in parti o il calcolo degli embeddings
per l’interazione con elementi semantici, ad esempio per recuperare la definizione di un concetto o estrarre porzioni di un’ontologia

In entrambi i casi, e in continuità con quanto previsto originariamente dall’approccio basato su data product, i servizi di piattaforma condivisi celano e si fanno carico della complessità di integrazione con le funzionalità necessarie introducendo un disaccoppiamento dall’infrastruttura sottostante.

I servizi sono richiamati nella fase di definizione del data product con approccio dichiarativo in modo analogo a quanto avviene nel mondo dei dati strutturati ad esempio specificando l’uso di una tabella di un database o di un job di ETL. In questo caso la piattaforma disporrà una serie di interfacce per abilitare i data product e i diversi use case all’uso di strumenti aggiuntivi, come servizi specifici per dati non strutturati o servizi per l’interazione con la conoscenza, con un disaccoppiamento che cela complessità di gestione e integrazione e centralizza il controllo.

All’interno del data contract si specificano i riferimenti ai concetti dell’ontologia, in cui risiede l’espressione degli elementi semantici utili e che caratterizzano il contesto di business, e si instaura il punto di contatto tra i data product e la conoscenza. Questa connessione permette ai data product di attingere alla semantica in modo autonomo ma regolamentato e monitorato a livello centrale. Permette l’arricchimento del dato non strutturato ricevuto in input con informazioni di contesto rilevanti e utili per la produzione degli output.

 

Attraverso i servizi di piattaforma il data product può interagire con punti specifici dell’ontologia: ad esempio per recuperare in modo dinamico il concetto di partita iva per poterlo poi impiegare per cercarne istanze in documenti non strutturati. Oppure è possibile estrarre porzioni dell’ontologia per arricchire il contesto considerato dall’elaborazione, ad esempio per ottenere dinamicamente la struttura lessicale di un documento da processare per eseguirne un’elaborazione a granularità fine.

I data product frutto di questo approccio possono operare dietro le quinte processando i dati in modalità batch o in real-time oppure prevedere l’interazione diretta con utenti e applicazioni, ad esempio prevedendo una input port di tipo API da cui ricevere dati non strutturati. Il valore di questo approccio risiede proprio nella sua flessibilità e capacità di rispondere a esigenze eterogenee con un modello adattabile, modulare e centrato sulla collaborazione e il riuso delle risorse e degli asset.

Vantaggi

Armonia
Convergenza con approccio impiegato per dati strutturati
Organizzazione
Separazione delle responsabili
Autonomia
Razionalizzazione e standardizzazione di funzionalità condivise attraverso i servizi di piattaforma
Democatizzazione
Trasparenza e chiarezza dei dati
Sostenibilità
Mantenimento di una complessità essenziale e non accidentale
Sinergia
Interoperabilità e riuso dei componenti

Use Case

Risorse

Blog
Free
07/07/2022

Il Data Mesh e il consumo self-service dei dati come prodotti

Contattaci!

Questo campo serve per la convalida e dovrebbe essere lasciato inalterato.

Entra a far parte del team Quantyca, facciamo squadra!

Siamo sempre alla ricerca di persone di talento da inserire nel team, scopri tutte le nostre posizioni aperte.

VEDI TUTTE LE POSIZIONI APERTE