Document intelligence

Estrazione automatica di valore da testo non strutturato guidata dall’Intelligenza Artificiale

Industries:

Finance & Insurance - Retail & GDO - Energy & Utility - Life Science - Industrial - Transportation

Solutions:

Technologies:

Azure - Python - Amazon Bedrock

Contesto

In una sempre più complessa e interconnessa rete di informazioni digitali, le organizzazioni possono trarre vantaggio dall’applicazione di processi di Document Intellgence per acquisire ed integrare nuovi dati di interesse per il proprio business.

L’eterogeneità delle fonti e dei formati, unita all’elevata mole di risorse, rischia di rendere onerosa l’attuazione di un processo che, seppur con qualche semplificazione, alla base è spesso banale ma deve fare i conti con la continua evoluzione dei propri driver.

Non è infatti raro assistere all’impiego di operazioni manuali per ricavare valore da informazioni non strutturate, allo scopo di trovare la soluzione più immediata ad un problema in assenza di un adeguato supporto tecnologico. Questo approccio, tuttavia, richiede tempi e costi elevati, oltre ad esporre al rischio di errori di valorizzazione per la natura spesso alienante dei task di raccolta.

Ad oggi esistono svariate soluzioni software in grado di estrarre informazioni da fonti non strutturate, abilitando l’automazione del processo attraverso una serie predefinita di steps. Queste soluzioni richiedono spesso elevati e continui effort di fine-tuning e sono tipicamente approcci statici. E’ il caso di soluzioni in grado di riconoscere l’occorrenza di un pattern specifico (es. la partita iva di una società) in una posizione predefinita (e.g. sull’intestazione di una fattura in alto a destra) ma che perdono efficacia se il dato viene indicato in una posizione diversa o con una label differente, seppur semanticamente analoga (es. usando sinonimi, abbreviazioni: P.iva o vat code, ecc). Chiaramente anche queste situazioni possono essere gestite estendendo gli algoritmi esistenti per incorporare le variazioni note, ma è impensabile gestire tutte quelle possibili con questo approccio.

Grazie al supporto dell’AI è ora possibile implementare rapidamente soluzioni più flessibili ed efficaci per l’estrazione di valore da dati non strutturati.

Punti critici

I limiti connessi alle tradizionali soluzioni di Document Intelligence sono molteplici:

Rischio di errori ed imprecisioni nell’uso di operazioni manuali
Difficoltà nel supportare la dinamicità dei contesti, sia in termini di formato del contenuto, sia in termini di lingua utilizzata nel contenuto stesso
Limitazioni delle soluzioni software esistenti

Soluzione

Dato il contesto e le complessità precedentemente descritte, nonché le potenzialità offerte dai moderni sistemi di LLM, il processo di Document Intelligence può essere ridisegnato, guidato dall’impiego dell’Intelligenza Artificiale come nell’architettura a seguire.

Standardizzazione dei Dati

Il primo step della soluzione prevede una standardizzazione dei dati non strutturati in input, potenzialmente presenti in varie forme e risultato di processi più o meno complessi. Essi possono corrispondere a documenti di testo, immagini o, in contesti più moderni, essere il risultato di attività di web scraping, e non vanno tuttavia escluse situazioni peculiari in cui il dato sia contenuto in documenti cartacei.

Questa eterogeneità dei dati, sebbene debba essere tenuta in considerazione, non deve essere vista come un ostacolo o implicare onerose attività di pre-processing. Queste ultime, infatti, si concretizzeranno esclusivamente in una conversione in formato PDF del dato di partenza, attività che è possibile eseguire in maniera programmatica e con effort estremamente ridotto per qualsiasi tipologia di dato tra quelli precedentemente descritti.

Estrazione del contenuto: OCR

La conversione del documento in PDF diviene condizione abilitante per la successiva applicazione di processi di OCR che, in maniera trasparente, permetteranno di estrarre informazioni testuali da documenti cartacei, immagini o pagine web, rendendo il testo accessibile ed interpretabile dai modelli di Artificial Intelligence ed, in particolare, LLM.

La soluzione finora descritta, dal punto di vista tecnologico, presenta molteplici modalità di implementazione, sfruttando ad esempio i servizi forniti dai principali Cloud Provider quali Textract per AWS o Azure Document Intelligence, dimostrando elasticità e potendosi quindi adattare agli stack tecnologici delle diverse realtà aziendali.

Comprensione ed elaborazione: LLM

Estratto il contenuto testuale, è ora possibile spostarsi verso la sfera degli LLM per comprenderne il significato ed estrarre la porzione di interesse, potenzialmente rielaborata ed in un formato facilmente fruibile da sistemi a valle. Controllare il formato dell’output restituito dall’LLM è un problema da non sottovalutare. Nella nostra architettura, suggeriamo di strutturare l’output e riversarlo all’interno di soluzioni di storage che abilitino successive analisi e ne consentano la fruizione da parte di più consumatori terzi in parallelo all’archiviazione del documento originario per riutilizzi futuri.

I modelli LLM possiedono la capacità di rispondere in modo linguistico preciso e accurato alle domande che vengono loro fornite, adottando la vasta conoscenza acquisita in fase di training. Questa abilità non solo consente loro di fornire risposte linguisticamente corrette, ma anche di presentare informazioni pertinenti e rilevanti per la persona con cui stanno interagendo e le domande che vengono poste.

Questo approccio, tuttavia, non è esente da problematiche e, tra queste, figura il knowledge cutoff.

Knowledge CutOff

Il problema del Knowledge CutOff è associato alla limitazione dei modelli nel processo di aggiornamento della propria base di conoscenze al di là delle fasi di addestramento, assumendo un ruolo critico quando si intende impiegare modelli di LLM internamente all’ambito aziendale, essendo incapaci di incorporare nuove informazioni in modo dinamico ed esteso.

Allenare un modello da zero è un processo complesso ed estremamente costoso. Allo stesso tempo estendere un modello esistente per ampliarne il campo di conoscenza a un dominio specifico, attraverso la somministrazione di documenti pertinenti, è più agevole ma comunque caratterizzato da complessità non trascurabili. A tal proposito, corrono in nostro supporto le tecniche di Prompt Engineering.

Prompt Engineering

Il prompt engineering si fonda sul processo di organizzazione della conversazione con il modello per guidarlo verso risposte accurate e pertinenti. In quanto modelli probabilistici, la strutturazione del contesto, e conseguentemente della conversazione, influisce direttamente sulla qualità e correttezza delle risposte.

I moderni modelli di LLM sono tuttavia vincolati dalla capacità di considerare solo una quantità limitata di testo per generare una risposta (context windows), pertanto non è fattibile riversare l’intero corpus di dati aziendali nel prompt e formulare domande all’LLM su una potenzialmente vasta gamma di informazioni.

Le tecniche di prompt engineering utilizzate per guidare gli LLM a ragionare e fornire risposte su dati non presenti nel loro training set devono quindi lottare con questo limite, trovando il metodo di selezionare solo le informazioni rilevanti da passare al prompt in funzione della domanda che si vuole porre.

Vantaggi

L’applicazione dell’OCR su documenti in formato PDF rende la soluzione applicabile a qualsiasi tipo di documento di input (docx, pagine web, immagini, ..)
Riduzione significativa dell’effort di sviluppo e di fine-tuning
Riduzione significativa o eliminazione dell’intervento manuale nel processo
Scalabilità dell’approccio a un più elevato numero di fonti e formati con impatto nullo o minim