Domande non risposte sono il futuro dei data scientist?

La domanda da cui parte questo post sembra allo stato attuale poco più che una provocazione ma se si analizza con attenzione il fenomeno big data potrebbe non esserlo tra poco.
Per spiegare il concetto in un intervento sui possibili futuri della datascience ho rielaborato una slide di una recente mia presentazione pubblica in cui evidenziavo le attività principali del data scientist.
DataScience
In questa analisi evidenziavo come i processi sempre più strategici sono, nella modellazione a cinque step, il primo e l’ultimo cioè il porsi le domande giuste e comunicare i risultati in maniera efficace.
Certo la mia considerazione non vuole svilire i passaggi forse più tipici e anche più tecnici della datascience ma vuole evidenziare quali sono oggi e sempre più in futuro gli skill che serviranno a rendere “utile” un progetto o prodotto ad alto contenuto di dati e algoritmi.
Data-intelligence e data-telling saranno fattori chiave per due motivi fondamentali:

1) Oggi all’interno delle aziende e della società  i team di data scientist sono percepiti, magari non sempre a torto, come un circolo di iniziati. Questo non favorisce l’integrazione dei data scientist per esempio in ambito aziendale con strutture più vicino ai clienti o agli utenti escludendoli dal contesto dove è presente il processo creativo delle domande “interessanti”, quelle che partendo dal contesto e quindi dai dati creano prodotti innovativi o risolvono problemi alla comunità (data-intelligence). In aggiunta la comunicazione e il racconto (data-telling) dei risultati ottenuti dalla analisi dei dati e dalla creazione di modelli diventa importante per trasmettere il valore della risposta e a stimolare, in un circolo virtuoso e agile, le successive domande “intelligenti”. Ecco che la data-intelligence e il data-telling diventano gli strumenti per i data scientist per entrare sempre di più nel centro dei sistemi decisionali aziendali contribuendo a realizzare quel concetto di “data-driven organization” che è il presente di poche organizzazioni ma che deve essere il futuro di tutte quelle che vogliono averlo (il futuro). Essendo, almeno per ancora qualche decennio (Kurzweil permettendo), immersi in organizzazioni fatte di persone umane è fondamentale fare crescere i due skill dei datascientist che hanno a che fare con la relazione con altri team e con la società civile.

2) Il trend di miglioramento tecnologico che afferisce ai tre step centrali della datascience, e cioè ottenere i dati, lavorarli e creare algoritmi, è in crescita esponenziale. Visti i massicci investimenti che in tutto il mondo start-up e grande aziende stanno mettendo in questa area assistiamo all’uscita sul mercato di tantissimi strumenti nuovi che hanno come obiettivo la facilitazione se non in alcuni casi il tentativo di automatizzazione di ciascuno di questi step. Senza spingerci a estremi ancora lontani, vedi l’algoritmo definivo , già oggi il tempo che ciascun data scientist deve dedicare alle parti centrali del processo si è sensibilmente ridotto e non è facile immaginare un miglioramento incrementale veloce nei prossimi anni. Non ritengo, come scritto in questo peraltro interessante articolo, che il lavoro dei data scientist possa essere automatizzato entro il 2025 ma sono invece convinto che si sposterà pesantemente dal punto di vista della distribuzione del tempo sicuramente verso gli estremi.

Solo il futuro saprà togliere il punto interrogativo alla domanda da cui siamo partiti ma mi sento di condividere quello che il sociologo Derrick de Kerckove scrive nel consigliatissimo piccolo saggio “la rete ci renderà stupidi?”  sull’importanza di allenare alcuni skill piuttosto di altri :

“Nell’era dei big data, le risposte dipendono unicamente dalle domande. Meglio imparare a fare bene le domande che a dare le risposte, benchè giuste”

 

Domande non risposte sono il futuro dei data scientist?

Data value per il Cliente prima della data monetization

Appare sempre forte in tutte le organizzazioni che hanno come asset i dati o che si stanno accorgendo di avere dati nei loro asset  quella che io chiamo “l’ansia da data-monetization”. Il fenomeno “Big data”, che ho cercato di inquadrare in questo blog nel giusto contesto, ha contribuito ad accrescere la consapevolezza, all’interno di aziende di qualsiasi settore, che la crescita del volume dei dati e la tecnologia possano creare nuovi asset di valore. Ma dalla consapevolezza o dall’idea all’effettiva creazione di valore esiste una distanza siderale che la maggior parte delle organizzazioni non sa colmare in maniera corretta per la mancanza di fattori umani e strategici sui quali l’innovazione procede molto lenta.
RicercaBigDataOsservatoriCome avevo già scritto, infatti, capire il problema che viene risolto con specifici dataset, algoritmi o framework tecnologici è l’aspetto più complesso della datascience, perchè significa avere consapevolezza contemporaneamente della semantica dei dati e dei bisogni del Cliente. Questa difficoltà porta ad anteporre troppo spesso la creazione di prodotti che siano vendibili sul mercato all’analisi delle reali esigenze dei Clienti che useranno i prodotti stessi. Questa è, a mio giudizio, una delle tre principali cause del fallimento dei progetti Big Data a livello mondiale.
La seconda causa nasce spesso dall’approccio organizzativo di questi progetti: anzichè usare approcci lean e agile, che si adatterebbero molto bene alla complessità del contesto, si usano più frequentemente approcci waterfall tradizionali con la creazione di molti “strati” decisionali e operativi che rallentano i primi rilasci e allontano il team di progetto dal Cliente. Proprio in questa ottica di diminuire la distanza con il Cliente il numero 3 è già un numero imperfetto! Infatti oltre al Product owner, che secondo la migliore definizione di Pichler deve avere un piede nel team e uno nel mercato, solo una figura di Product Manager che conosca in maniera approfondita Clienti e mercato è a mio giudizio accettabile. Ma in molte start-up di successo questa figura collide. In aggiunta l’approccio agile e la sua logica di Minimum Valuable Product portano a capire molto presto con il Cliente eventuali errori di progettazione o di analisi che possono essere corretti in maniera iterativa in tempi rapidi. Solo in questo modo, accorciando la distanza tra il progetto e chi lo usa, si riesce a fare in modo che il data value non sia sacrificato troppo presto sull’altare di ricavi e profitti che invece sul medio periodo, non tanto paradossalmente, vengono penalizzati proprio da questa miope strategia.
La terza causa è probabilmente dovuta all’evoluzione che questo tipo di progetti ha avuto negli ultimi 10 anni e che ha di fatto fornito molta più centralità, rispetto al passato, ai datascientist, o comunque a figure che conoscono dati e tecnologia e che invece hanno poca centralità nei processi decisionali dei progetti stessi. E questo diminuisce ulteriormente la capacità di capire il valore che si sta creando ai Clienti.

Sono sempre più convinto che se la maggior parte delle aziende non risolverà queste tre problematiche, cioè non metterà al centro dei progetti “data-driven” l’analisi delle esigenze del Cliente, l’approccio agile e le figure che meglio conoscono i dati, “l’ansia da data-monetization” diventerà presto “nevrosi da data-monetization” a vantaggio di quelle realtà, spesso geograficamente posizionate in area anglofona, che lo hanno capito.

Insomma tra big data e big profit la via non è breve e scontata e passa sempre attraverso il valore che si crea al Cliente. Le modalità per provare a percorla al meglio sono e saranno oggetto di discussione di questo blog senza presunzione di dare risposte definitive!

Data value per il Cliente prima della data monetization

Conway datascientist Venn diagram: il valore e l’utopia

Questa è sicuramente l’immagine che meglio rappresenta il nuovo modo di estrarre valore dai dati (datascience) attraverso quelle figure, i datascientist, definiti da Hal Varian, Chief economist di Google, come “la professione più sexy del XXI secolo”.

Data_Science_VD

La rapida evoluzione tecnologica degli ultimi 15 anni, le cui direttrici ho sintetizzato nel precedente post, ha reso particolarmente importante avere figure all’interno dell’azienda che abbiano  forti competenze tecnologiche (hacking skills), ottime conoscenze matematico statistiche (che consentano anche di sfruttare le nuove evoluzioni degli algoritmi) e a cui non manchi la conoscenza di dominio (dei dati e del contesto di business)  per potersi fare le domande giuste e risolvere i problemi a maggior valore. Come si vede dall’immagine solo all’incrocio delle tre competenze chiave si posiziona la nuova scienza dei dati e ci troviamo di fronte a un nuovo tipo di professionalità. Qui abbiamo il valore assoluto, non raggiungibile dalla sola sovrapposizione di due dei tre skill che rischiano di convergere in situazioni dove il risultato è parziale o porta a cattive interpretazioni (come la “danger zone”,  in assenza di competenze matematico statistiche). Chapeau a Conway per averlo focalizzato con questo dettaglio visuale già nel lontano 2010. Ma è così facile trovare persone con la presenza di questi tre skill? E soprattutto con la crescita di importanza dei dati all’interno delle aziende è un modello facilmente scalabile? La mia personale opinione è negativa e si basa sia su esperienze personali in Italia sia sulla lettura dei dati su scala mondiale dove Mckinsey rileva solo negli Stati Uniti la mancanza (entro il 2018) di quasi 200.000 datascientist e più di 1 milione di data-manager. Da queste considerazioni nasce l’aggettivo “utopia” nel titolo del post. Ma esiste una soluzione o per lo meno si può arrivare ad un utile compromesso? Probabilmente sì attraverso una strada organizzativa più complessa e meno rapida ma potenzialmente anche più efficace nel medio periodo. L’opzione è creare un team che rispetti la matrice di Conway e cioè che abbia all’interno persone la cui somma di competenze porti alla definizione di datascience. Nel medio periodo, in un’ottica di lifelong learning, ciascun membro del team, colmando i propri gap, potrebbe arrivare ad essere un vero datascientist. Ma è una strada percorribile? Si … ponendo particolare attenzione alla selezione del team e all’utilizzo di metodologie agili nella sua crescita. Ma questa strada merita considerazioni supplementari che affronterò in un post specifico … stay tuned

Conway datascientist Venn diagram: il valore e l’utopia

Si fa presto a dire big data … (parte 1)

Oltre che ad essere il motto di questo blog, la frase “si fa presto a dire big data …” è stata ed è la miglior sintesi della maggior parte di convegni, webinar e  riunioni di lavoro a temache relative ai dati degli ultimi miei anni lavorativi. Purtroppo il termine “Big Data”, essendo una buzzword, è pronunciato spesso a sproposito sia per attirare l’attenzione che per giustificare qualunque tipo di progetto. Per questo oltre a far riferimento ad una delle migliori definizione e descrizioni del termine big data cioè la voce inglese di wikipedia proviamo ad entrare un po’ più in dettaglio in questo post per darne un’interpretazione più specifica e rigorosa.

LogoABDrev1

Il termine big data incomincia ad essere associato a progetti e a relativi prodotti a partire dalla seconda metà degli anni 2000 per differenziarli da quei progetti dati realizzabili con tecnologie mature già presenti sul mercato. Questo fenomeno si è espanso su più direttrici:
1) quella tecnologica. Cioè nella capacità di gestire grandi volumi dati e/o veloci volumi di dati. Le nuove tecnologie di memorizzazione dati di tipo NoSql rappresentano al meglio questa direttice.
2) quella algoritmica. Cioè la nascita o il grande miglioramento di metodologie che riescono ad estrarre valore da grandi moli di dati e che sono tipicamente definiti machine-learning.
3) quella relativa ai dati. Cioè l’aumentata disponibilità in termini sia di volumi che di frequenza di aggiornamento dei dati su cui possono fare leva progetti e analisi. Fenomeni come Open Data, il web stesso e Internet of Things hanno e stanno accelerando questa direttrice.
4) quella umano-organizzativa. Cioè l’evoluzione delle tradizionali figure di data-analyst verso le più poliedriche figure dei datascientist secondo la migliore definizione data nel 2010 da Drew Conway in un celebre post del suo blog. Queste figure riuscendo ad unire la capacità di usare nuovi algoritmi alle nuove tecnologie di elaborazione e memorizzazione dei dati, conoscendone la semantica e il contesto riescono a chiudere il cerchio del valore del progetto.

Esporeremo in dettaglio nel nostro viaggio tutte e quattro le direttrici ma quando almeno due sono presenti in misura importante all’interno di un progetto allora, secondo me, sì possiamo spendere l’aggettivo Big Data.
E’ chiaro che il numero di due è una scelta un poco arbitraria e che deriva dall’esperienza ma la presenza di una semantica “fumosa” non aiuta a sfruttare al meglio il fenomeno.  E poi non capita così spesso soprattutto in Italia che siano presenti anche due sole direttrici …

 

 

Si fa presto a dire big data … (parte 1)