Databricks

Sempre più aziende al giorno d’oggi necessitano di strumenti all’avanguardia a sostegno di svariati use-case in ambito dati. Questo è uno dei principali motivi che ha spinto Databricks a creare una piattaforma lakehouse multicloud capace di abbracciare use-case di data engineering, machine learning, artificial intelligence, data analytics e data visualization. Databricks offre una piattaforma unificata e collaborativa pensata per l’elaborazione e l’analisi dei dati, il machine learning, e l’implementazione di soluzioni basate sui big data.

Come partner Databricks offriamo consulenza nel design e nello sviluppo di soluzioni costruite sulla piattaforma lakehouse, sfruttandone a pieno la flessibilità, la scalabilità e la potenza.

Contatti di riferimento

Andrea Gioia

Chief Technology Officer

Federico Sala

Data Architect

Overview

Databricks è una piattaforma cloud progettata per sfruttare a pieno il potenziale dei dati ed utilizzabile sui principali cloud provider (Azure, AWS, GCP). Offre un ambiente integrato per l’elaborazione e l’analisi dei dati, l’addestramento di modelli di machine learning, e lo sviluppo di dashboard.
Queste sono le caratteristiche principali che contraddistinguono la piattaforma Databricks:

Unificata

Un’unica piattaforma per l’integrazione dati, lo storage, l’analisi, lo sviluppo e l’addestramento di modelli di AI, capace di operare sia con dati strutturati che non strutturati. Permette di sfruttare i principali linguaggi di programmazione presenti sul mercato (python, SQL, Scala, R) in un IDE collaborativo basato su notebook

Aperta

Sfrutta i tool e i progetti open-source più diffusi in ambito dati:

Apache Spark per il processing batch e streaming in un pattern di computazione distribuita
Delta Lake come storage format che abilita la transazionalità ACID sui dati salvati all’interno del data lake
MLflow per gestire il lifecycle dei modelli di machine learning, inclusi l’experimentation, il serving e il tracking

Scalabile

Sfrutta a pieno la tecnologia cloud sottostante per ottenere prestazioni elevate a costi contenuti scalando l’infrastruttura in base al carico richiesto

La piattaforma Databricks

Diversi moduli fanno fronte ai molteplici bisogni che sorgono durante l’ingegnerizzazione di una enterprise data platform.

Data Engineering

La progettazione e l’integrazione dati sono il fulcro di ogni piattaforma data-centrica. Databricks combina la potenza di elaborazione distribuita di Apache Spark con la flessibilità a livello di storage di Delta Lake per offrire un’esperienza di sviluppo ETL/ELT completamente gestita e fortemente semplificata. I Databricks Notebooks permettono lo sviluppo dei flussi delle logiche ETL con python, SQL o Scala, mentre le Delta Live Tables permettono di definire le dipendenze tra i notebook sviluppati e di creare workflows. Databricks offre inoltre tool per l’ingestion automatizzata: Auto Loader permette di fare ingestion dallo storage cloud nel datalake garantendo l’idempotenza dei dati importati.

Data Streaming

Sempre in più applicazioni ci troviamo a dover affrontare il tema dello streaming dati in real-time. Databricks sfrutta Apache Spark Structured Streaming per lavorare con dati in streaming e per gestire i caricamenti incrementali all’interno del data lake.

Data Science & Machine Learning

Il modulo Machine Learning arricchisce le funzionalità della piattaforma con una suite di tool dedicati a Data Scientist ed ML Engineers. Fornisce un ambiente integrato che semplifica i processi di sviluppo ML e MLOps permettendo di gestire interamente il lifecycle dei modelli di machine learning. Infatti, Databricks ML consente:

L’addestramento dei modelli, sia manuale che automatico
Il tracking e la condivisione delle feature utilizzate nei processi di addestramento tramite un feature store completamente gestito
Il tracking dei parametri e delle performance dei modelli tramite MLflow
Il serving dei modelli tramite registry e servizi Databricks integrati

Analytics & BI

Molto spesso le esigenze di data engineering vengono affiancate da esigenze di warehousing e analytics. La piattaforma Databricks combina la potenza di calcolo e l’affidabilità dello storage per eseguire query analitiche. Offre una UI dedicata ai data analyst dove è possibile lanciare query su dati presenti nel lakehouse e costruire visualizzazioni tramite dashboard.

Data Governance

La qualità, l’integrità, la compliance e la sicurezza dei data asset sono elementi da non sottovalutare in una piattaforma data-centrica. Per questo motivo Databricks offre un servizio di governance unificata per il lakehouse che permette di implementare le pratiche, le policy e le procedure richieste dall’azienda. Tramite lo Unity Catalog, gli amministratori di piattaforma possono gestire permessi per team e individui a basso livello tramite le Access Control Lists (ACLs). Inoltre, lo Unity Catalog permette di segregare responsabilità e dati, facendo in modo che ogni utente possa leggere e visualizzare solo le porzioni di dato a cui ha effettivamente accesso (row e column-level security).

DevOps and CI/CD

Databricks offre servizi che semplificano i processi di sviluppo e di deployment sia in ambito ETL che in ambito ML. Parliamo di tool comuni per versionare, automatizzare, schedulare e rilasciare il codice, oltre che tool per il monitoraggio delle esecuzioni, tutti racchiusi in un’unica piattaforma. Databricks offre le Databricks Repos che consentono di integrarsi con i più comuni provider git, e i Databricks Workflows che consentono di schedulare, orchestrare e monitorare le esecuzioni dei flussi dato.

Partnership

Realizziamo soluzioni su misura per il cliente sfruttando le feature Databricks necessarie a costruire una data platform che soddisfi tutti i requisiti necessari, dalle capabilities fino alla governance e alla security. Come partner Databricks, seguiamo le fasi di design, implementazione, test, e rilascio di soluzioni basate sul paradigma lakehouse sfruttando la flessibilità, la scalabilità e l’affidabilità dei servizi Databricks.

Le nostre competenze

Numerosi progetti deliverati con successo in produzione
Certificazioni attive
- Databricks Certified Associate Developer for Apache Spark
- Databricks Certified Data Engineer