Multimodal semantic search

Data Science

Un nuovo modo di interrogare dati ed estrarre informazioni complete

Industries:

Retail & GDO - Industrial - Life Science

Solutions:

Data Science

Technologies:

PyTorch - Python

Contesto

L’uso quotidiano dei motori di ricerca su dati aziendali (di clienti, di prodotto, di procedure interne…) è ormai diffuso in maniera capillare, sia da parte degli utenti di business che da parte dei clienti. L’utilizzo così diffuso di questa tecnologia ha generato crescenti aspettative sulla ricerca hanno portato a importanti progressi, come la ricerca semantica, che vanno oltre le capacità di ricerca per parole chiave. Tuttavia, sia la ricerca per parole chiave che quella semantica hanno importanti compromessi da considerare:

considerare solamente le parole chiave in una ricerca può implicare una perdita di parti importanti del contesto
considerare solamente la ricerca semantica può implicare una perdita di parole chiavi importanti

Inoltre, sempre più spesso è necessario cercare o restituire informazioni su dati destrutturati come immagini o video, specie per quanto riguarda la ricerca su siti ecommerce o in ambito di ricerca documentale.

La Multimodal Semantic Search rappresenta un nuovo approccio alla ricerca delle informazioni, pensata espressamente per gestire contemporaneamente parole chiavi, contesto semantico e scraping di dati strutturati e destrutturati, per offrire un’esperienza di ricerca personalizzata, puntuale e completa.

Punti critici

I problemi principali che possono verificarsi derivati da un approccio tradizionale alla ricerca di informazioni tramite search engine:

lunghe ricerche di informazioni in documentazione aziendale, spesso sparsa e non centralizzata
tempo speso in attività di audit di doc sia interna sia per parti terze durante attività di verifica e di indagine
risultati di query da motore di ricerca di un sito (aziendale o e-commerce) non circostanziate con la domanda
estrazione di informazioni da immagini incompleta o non completamente funzionale alle domande della ricerca

Soluzione

Quantyca ha messo a punto un approccio e un’architettura in grado di implementare un motore di ricerca multimodale su dati destrutturati, raffinando l’algoritmo Machine Learning di ricerca su dati specifici e puntuali del cliente adatti a uno use case di ricerca interna di informazioni, di interfaccia verso il cliente e di ricerca all’interno di siti e-commerce.

Negli ultimi anni, i modelli di Natural language processing (NLP) e CV hanno avuto notevoli sviluppi, contaminando i punti di forza dei due campi del ML e mettendo a disposizione di tutti un potenziale straordinario da sfruttare per svariati utilizzi. In particolare, Quantyca ha utilizzato per mettere a punto questa soluzione i Large Language Models (LLM): sono modelli di apprendimento automatico che utilizzano algoritmi di deep learning per elaborare e generare testo e altri contenuti basati sulla conoscenza acquisita da enormi quantità di dati. Questi modelli sono tra le applicazioni di successo dei modelli di trasformazione. I LLM sono costituiti da una rete neurale con molti parametri, pre-addestrati su grandi quantità di testo non etichettato utilizzando l’apprendimento auto-supervisionato. Ogni neurone di ogni strato della rete può ricevere input da altri neuroni e produrre un output. L’output di ogni neurone è determinato dai suoi pesi, che vengono regolati durante l’addestramento del modello.

I LLM sono in grado di riconoscere, riassumere, tradurre, prevedere e generare testo e altri contenuti e sono in grado di elaborare grandi quantità di dati, il che porta a un’accuratezza migliorata nei compiti di classificazione, comprensione delle domande e generazione di risposte.

Quantyca Multimodal Semantic Search schema immagine

Quantyca ha utilizzato questa classe di modelli per riconoscere, riassumere, tradurre, estrarre e generare testo e altri contenuti basati sulla conoscenza acquisita e raffinata sui dati dei propri clienti. I modelli di apprendimento automatico utilizzati impiegano algoritmi di deep learning per elaborare e generare testo e altri contenuti. I vantaggi dei LLM includono:

la riduzione del lavoro manuale e dei costi nelle operazioni di ricerca e di verifica delle informazioni;
l’aumento della disponibilità di informazioni all’interno delle divisioni aziendali:
la personalizzazione della ricerca e la soddisfazione del cliente finale.

Quantyca ha messo a punto un’architettura trasversale agli use case in grado di portare in produzione e monitorare modelli addestrati in maniera puntuale sui dati dei clienti, in grado di mettere a disposizione degli utenti un motore di ricerca ibrido (per immagini e per testi) preciso ed efficace per rispondere a diversi tipi di esigenze.

Il percorso completo

1. PARSING E SCRAPING DELLA DOCUMENTAZIONE

Ottimizzazione dei dati non strutturati ed estrazione di testo, tabelle ed immagini tramite algoritmi di OCR e image extraction

2. GENERAZIONE DELLA QUERY

La domanda in “linguaggio naturale” fatta dall’utente del motore viene tradotta in una query da passare al modello

3. VETTORIZZAZIONE

I dati e le query vengono vettorizzati e passati al modello, per generare un set di informazioni da clusterizzare e da utilizzare nella risposta a seconda della loro “distanza” dal concetto o dalla richiesta di partenza

4. APPROCCIO IBRIDO

Le parole chiave e il contesto vengono usate per minimizzare a distanza con i dati testuali e con le immagini di riferimento, in modo da esplorare in maniera approfondita tutta la base dati disponibile

5. RISPOSTA

I risultati sono assemblati in una risposta testuale, grafica o ibrida ed esposta all’utente finale