Data Fusion e Data Evolution: ecco la Data Science secondo CELI

data-science-celiPrevedere o anticipare i bisogni della propria Customer Base offre un vantaggio decisivo sulla concorrenza. Arricchire i propri dati con nuove fonti, dominate con le giuste tecniche di Data Science, aiuta il business in questo difficile compito. Un approccio data-driven non solo mette il cliente al centro dell’attenzione, ma soprattutto consente di mantenerlo al centro, anche quando le sue abitudini o bisogni cambiano. Il Machine Learning permette infatti di prevedere trasformazioni della Customer Base, simulare cosa accadrebbe in diversi scenari o reagire tempestivamente nel caso di cambiamenti inaspettati.

Da Business Intelligence a Data Science

Siamo di fronte a un’evoluzione nel modo in cui vengono condotte tradizionali operazioni di Business Intelligence (BI), avvicinandola alla Data Science. Nell’applicare tecniche innovative a vecchi problemi, bisogna però stare attenti a distinguere fra quelli che sono progressi nella ricerca del Machine Learning e risultati concreti, production-ready per il business. La BI negli ultimi anni ha usato Data Analytics per conoscere i clienti e rispondere a domande di analisi. Queste domande erano dapprima descrittive, limitandosi a descrivere cosa fosse successo (es. cosa hanno comprato i miei clienti?), ma l’ambizione attuale è di fare previsioni corrette (es. cosa compreranno i miei clienti?), a loro volta da includere in sistemi prescrittivi, capaci di indicare all’umano quale sia il miglior corso di azione da seguire (es. che tipo di prodotto dovrei proporre ai miei clienti per massimizzare le vendite?).

Per fare ciò possiamo beneficiare del Machine Learning, che offre la possibilità di automatizzare processi, anche sofisticati, senza dover esplicitamente programmare un computer, ma lasciando emergere, per via statistica, regole e strutture dai dati che si hanno a disposizione. Innanzitutto la quantità dei dati deve essere sufficiente a supportare gli algoritmi e distinguere il segnale di valore dal rumore di fondo. Ci sono però molti modelli e approcci possibili fra i quali scegliere. La scelta dei modelli più adatti dipende in maniera cruciale da tipo di problema e dati a disposizione, e il mondo della ricerca offre alcune indicazioni a tal proposito. Per esempio è importante sfatare il mito che bastino Big Data per fare Machine Learning: queste grandi moli di dati devono avere la coerenza e completezza necessaria a risolvere certi problemi o, alternativamente, devono essere etichettati per risolvere task specifici. Si tratta inoltre di tecnologie che, al loro stato attuale, non possono completamente sostituirsi all’intelligenza umana nel rispondere alle domande più complesse o soggettive, ma agire da aiuto e supporto. La Data Science si colloca così all’intersezione di teoria e pratica per esplorare, definire e strutturare i modelli e i processi più efficaci per arrivare all’obiettivo prefissato.

Secondo noi due sfide sono particolarmente significative per dare al business l’incisività desiderata: quella della Data Fusion, ovvero combinare e sfruttare fonti dato eterogenee, e quella di padroneggiare un dato (ma anche un progetto) in evoluzione nel tempo. Introduciamo sommariamente questi concetti, prima di raccontarvi due casi concreti in cui li abbiamo affrontati.

Data Fusion

Ricordando che la disponibilità di (buoni) dati è il collo di bottiglia principale nell’applicare procedure di Machine Learning, la Data Fusion è quindi promettente perché consente di trattare problemi che altrimenti non sarebbero risolvibili.

I nostri Data Scientist hanno il compito di gestire dati eterogenei a 360 gradi, supportando l’integrazione di fonti dato esistenti, individuando arricchimenti ulteriori che appaiono interessanti, valutandone la qualità e l’inclusione in algoritmi o modelli predittivi/prescrittivi.

Fra i processi di arricchimento che seguiamo, vi sono frequentemente dati proprietari di terze parti (socio-economici, meteorologici, traffico, ecc.) oppure open data (ISTAT, MISE, vocabolari standard, ecc.). Questi dati consentono di aggiungere informazioni ai profili dei clienti e di personalizzare meglio l’offerta. Più in generale ci danno la possibilità di contestualizzare la Customer Base. L’intelligence sul territorio ci ha permesso di individuare le aree più promettenti nella ricerca di prospect o di opportunità di up-sell, per esempio secondo indicatori di sviluppo o innovazione. La location intelligence su singoli punti vendita ci ha permesso di spiegare e prevedere eventi non immediatamente comprensibili attraverso i dati proprietari del business, per esempio scatenati da attrazioni o manifestazioni nelle vicinanze.

Un’altra tipologia importante di dati complementari appartiene al mondo web e social, per esempio dati di navigazione, social listening, social analytics (metriche di engagement). A volte la spiegazione di certe anomalie macroscopiche nei comportamenti della clientela risiede in fenomeni virali e di diffusione di informazione che hanno luogo nella rete.

Dati in Evoluzione

Il business deve sempre chiedersi, di fronte a un’analisi compiuta in un momento specifico, per quanto tempo essa resterà valida. Molti fenomeni di concreto interesse non presentano un dato statico nel tempo, ma in evoluzione. A volte tale evoluzione è palese: pensiamo per esempio a serie temporali di prezzi di mercato, di venduto o di transazioni effettuate dai clienti. In altri casi si corre il serio rischio di sottovalutare questo aspetto: se segmento la mia Customer Base oggi, che prospettive ho di ritrovare lo stesso assetto a distanza di mesi, o addirittura anni? Un esempio (più banale) è l’invecchiamento potenziale della propria clientela, che può portare bisogni e abitudini a spostarsi verso quelli della terza età.

Altri cambiamenti possono essere sotto i nostri occhi, ma coglierci impreparati. Mentre il web diventa un posto sempre più cosmopolita, non è detto che l’inglese rimanga la lingua dominante del marketing online: potremmo trovarci di fronte a vere e proprie anomalie, come larghe fette di popolazione (semi)analfabete ma con accesso a Internet, quindi potenzialmente raggiungibili con audio/immagini e non con tradizionali contenuti testuali.

Per dominare questi aspetti, i nostri Data Scientist stabiliscono, a inizio progetto, un percorso definito nel tempo, che può includere, per esempio, un primo assessment di quanto i dati siano stratificati rispetto all’età, una verifica che i modelli predittivi sviluppati siano davvero efficaci sui dati più recenti e periodici checkpoint sui dati in ingresso per assicurarsi che conclusioni tratte in fase di analisi rimangano vere in futuro.

Caso I: un simulatore per prevedere i bisogni della Customer Base

Celi_Data_Science_1

Nell’ambito dei financial services, abbiamo simulato possibili traiettorie della Customer Base e dei loro bisogni di copertura, con particolare attenzione alla fascia Millennial. Per fare ciò è stato necessario prima analizzare la distribuzione geografica degli stessi clienti, ovvero il contesto in cui si muovono, per capire quali caratteristiche fossero maggiormente correlate a certi tipi di prodotto.

La simulazione parte dai dati in possesso della compagnia (quali anagrafiche, portfolio e caratteristiche dell’offerta), ma li arricchisce con dati di terze parti, che un software di Machine Learning e Intelligenza Artificiale combina per fare una previsione nel tempo. Per esempio dati geolocalizzati sulla viabilità consentono di individuare le zone maggiormente trafficate. Centinaia di variabili di intelligence sul territorio sono state sintetizzate in pochi macro-indicatori come mobilità, innovazione e ricchezza. A loro volta questi macro-indicatori si rivelano predittivi di certi profili di comportamento, differenziando per esempio tra chi vive in centri città affollati e chi in periferia. Impattano sia sulla probabilità di acquisire nuovi prodotti o effettuare upgrade di prodotti posseduti, che sulla loro tipologia.
Per completare un modello predittivo che faccia proiezioni efficaci occorre infine ipotizzare quali caratteristiche della Customer Base resteranno vere a distanza di tempo, e quali invece potranno essere soggette a cambiamenti (magari in base a fattori macroeconomici). Gli insight derivati dall’analisi dei dati andranno così validati assieme al business che, al contempo, può usare il software sviluppato per confrontare fra di loro diversi scenari e ipotesi.

Il tool è stato usato, per esempio, per stimare il numero di clienti a distanza di 10 anni, il tipo di prodotti nel loro portfolio e il loro valore. Le simulazioni mostrano come sia cruciale il bacino di acquisizione per determinare le tipologie predominanti di prodotto, così come quali aree siano più propense verso prodotti smart/innovativi. Un simulatore di questo tipo può essere generalizzato a business che abbiano dati di clientela geo-referenziati e il consenso necessario a utilizzarli per analisi predittive di mercato.

Caso II: personalizzazione dell’offerta dei negozi di un network

Celi_Data_Science_2

Per un importante cliente nel campo fashion abbiamo identificato, tramite il Machine Learning, cluster di prodotti e negozi con comportamenti di vendita simili. Per fare questo abbiamo studiato correlazioni e pattern fra diversi tipi di dato: informazioni sul network di negozi e sulla loro clientela, cataloghi di prodotto e serie storiche di venduto. Abbiamo così capito che caratteristiche avessero i prodotti più performanti di diverse categorie di negozio, consentendo di confrontare nuovi articoli mai venduti prima con articoli continuativi.

Il ranking ottenuto è una componente essenziale del nostro Assortment Recommender, un sistema di Intelligenza Artificiale che abbiamo sviluppato per il merchandise. Esso integra il potenziale di vendite di un articolo (vecchio o nuovo) con vincoli di negozio (quali dimensione e spazio espositivo) e del merchandise stesso (es. necessità di coprire diverse parti dell’offerta con almeno una proposta). Propone così l’assortimento più promettente fra quelli consentiti, in maniera personalizzata, basata sulla tipologia e clientela di ogni negozio. Il merchandiser che usa il Recommender può, a posteriori, espandere o ridurre la lista degli articoli suggeriti, sino a raggiungere il budget desiderato. Attraverso aggiornamenti regolari dei dati di vendita, saranno infine suggerite espansioni del network per gli articoli che performano oltre le previsioni originali, e riduzioni/phase-out per gli slow-mover.

Il medesimo approccio è replicabile in altri settori che abbiano la necessità di riassortire regolarmente i propri punti vendita e/o con lead time produttivi abbastanza lunghi da rendere cruciale una prima stima su articoli mai venduti.

In conclusione

La Data Science deve guidare e accompagnare l’adozione di tecnologie di Machine Learning all’interno del business. Come i casi riportati dimostrano, gestire correttamente la varietà dei dati a disposizione, ed espanderli laddove necessario, si rivela spesso la chiave per conoscere davvero i propri clienti e saper prevedere i loro bisogni.

Francesco Tarasconi
Senior Data Scientist, CELI Language Technology

COMMENTI