Il Chief Data Officer e il suo Ecosistema

Il Chief Data Officer è sicuramente insieme ai datascientist una figura emergente all’interno delle organizzazioni. Per provare a fare luce su questa figura partirò da una sua definizione abbastanza condivisa per poi provare a descrivere, facendo riferimento agli studi recenti più autorevoli, il suo ecosistema cioè le aree aziendali che gestisce o con cui ha una relazione molto forte.

definzione

Secondo la definizione della voce inglese di Wikipedia il CDO (Chief Data Officer) ha in carico sia la governance dello strato dei dati (inteso come asset o valore aziendale) che la definizione strategica delle priorità in questa area cercando di spingersi a identificare nuove opportunità di business. In questo senso mi piace sottolineare, usando una terminologia più vicina al mondo agile, come il Chief Data Officer sia da una parte un  facilitatore e dall’altra un “disegnatore” di strategie aziendale. In questa ottica il ruolo viene proiettato nella parte più moderna dell’ambito manageriale dove plasmando il suo ecosistema il Chief Data Officer entra nel cuore delle decisioni aziendali sempre più guidate dall’analisi dei dati.

Tra i molti studi su questo delicato ruolo sicuramente quello che meglio descrive la molteplicità delle sue dimensioni è “A Cubic Framework for the Chief Data Officer: Succeeding in a World of Big Data” della Sloan School of Management – MIT Boston 2014. Nel lavoro sono descritte le tre direttrici principali in cui si muove il Chief Data Officer e cioè:

3dimensionicdo

1) La direzione collaborativa: più orientata verso l’interno dell’organizzazione piuttosto che verso l’esterno andando a braccetto con il business.
2) La direzione di impatto di valore che può essere più tattica focalizzata sul miglioramento dei servizi esistenti o più strategica orientata ad allargare il mercato dell’organizzazione.3) La direzione della tipologia dei dati e tecnologie: più focalizzata sull’uso dei dati tradizionali o, in maniera un poco più visionaria, spingersi più nell’area “Big data”

In questo spazio tridimensionale il posizionamento del CDO in una delle otto porzioni porta, secondo questo studio del MIT, a differenti categorizzazioni.
8cdo

Le otto tipologie che potete vedere nella figura sopra sono di fatto una differente interpretazione del ruolo del Chief Data Officer che è molto funzione sia del contesto organizzativo in cui si inserisce sia della caratteristiche personali. Pur non scendendo del dettaglio descrittivo delle otto tipologie, che potete trovare in dettaglio nel paper, bisogna comunque evidendenziare che si va da un ruolo più legato alla facilitazione e alla governance (Coordinatore) ad uno più ambizioso e strategico (Sperimentatore).

Passando a valutare l’ecosistema che sta attorno al Chief Data Officer occorre sicuramente far riferimento a questo ottimo articolo di Experian “The Chief Data Officer: Bridging the gap between data and decision-making”.
experiandataquality

Come si vede nella figura sopra, Experian nel suo studio  evidenzia quelle che sono le figure chiave del villaggio del Chief Data Officer. E’ sicuramente da sottolineare la graduale “traslazione” di queste figure dai Data owners che sono le persone responsabili di ogni singolo dataset presente in azienda fino ai Data analysts che cercano di usare i dati in ottica strettamente business. Oltre e tra queste due figure in organizzazioni ad alta complessità e dove il dato è un asset molto strategico possono o meglio dovrebbero esistere le altre figure di questo sempre più ampio villaggio.

Per provare a dare una vista il più possibile olistica di questo ruolo e per non dimenticare alcuni aspetti che spesso possono non emergere (l’aspetto legal in primis) ho provato a sintetizzare in questa figura quale potrebbe essere un suo buon ecosistema.

mycdoofficial

Nella sua sfera di competenza o comunque in stretta relazione con il suo operato ci deve essere:

1) L’aspetto legale perchè l’utilizzo di dati interni ed esterni all’azienda è sempre più influenzato da normative legate alla Privacy e al Copyright con una data protection law europea che porterà a breve uno tsunami in questa area.

2) La cura della qualità del dato. L’utilizzo di dati provenienti anche da fonti esterni spesso non strutturate aumenta sempre di più l’importanza di questo aspetto.

3) La governance del dato. In organizzazioni sempre più complesse con un livello di skill diversificato all’interno dei dipartimenti la gestione della distribuzione del dato e della sua conoscenza è un fattore strategico per poter sfuttare in maniera massiva il valore del petrolio del XXI secolo.

4) La tecnologia in ambito dati. L’esplosione cambriana delle tecnologie di gestione e dell’analisi dei dati fornisce sempre maggiore importanza strategica a questo aspetto: se il  poliglottismo è un valore certo questo va inquadrato comunque in una vista strategica.

5) L’innovazione. In un mondo sempre più data-driven  il dato si incrocia in maniera molto sinergica ed esponenziale con l’innovazione all’interno di qualunque organizzazione.

6) La datascience. Come più volte evidenziato la datascience si pone all’incrocio tra tecnologia (computer science), statistica e conoscenza del dominio dei dati: l’interazione con il villaggio del Chief Data Officer non può che essere fortissimo.

La definizione del ruolo e del dominio di influenza di questa nuova figura all’interno delle organizzazione è, ancora più di altre figure, liquida ma probabilmente con una crescita della sua componente strategica all’interno delle organizzazioni che vorranno diventare vere data-driven company di successo.

 

Annunci
Il Chief Data Officer e il suo Ecosistema

Domande non risposte sono il futuro dei data scientist?

La domanda da cui parte questo post sembra allo stato attuale poco più che una provocazione ma se si analizza con attenzione il fenomeno big data potrebbe non esserlo tra poco.
Per spiegare il concetto in un intervento sui possibili futuri della datascience ho rielaborato una slide di una recente mia presentazione pubblica in cui evidenziavo le attività principali del data scientist.
DataScience
In questa analisi evidenziavo come i processi sempre più strategici sono, nella modellazione a cinque step, il primo e l’ultimo cioè il porsi le domande giuste e comunicare i risultati in maniera efficace.
Certo la mia considerazione non vuole svilire i passaggi forse più tipici e anche più tecnici della datascience ma vuole evidenziare quali sono oggi e sempre più in futuro gli skill che serviranno a rendere “utile” un progetto o prodotto ad alto contenuto di dati e algoritmi.
Data-intelligence e data-telling saranno fattori chiave per due motivi fondamentali:

1) Oggi all’interno delle aziende e della società  i team di data scientist sono percepiti, magari non sempre a torto, come un circolo di iniziati. Questo non favorisce l’integrazione dei data scientist per esempio in ambito aziendale con strutture più vicino ai clienti o agli utenti escludendoli dal contesto dove è presente il processo creativo delle domande “interessanti”, quelle che partendo dal contesto e quindi dai dati creano prodotti innovativi o risolvono problemi alla comunità (data-intelligence). In aggiunta la comunicazione e il racconto (data-telling) dei risultati ottenuti dalla analisi dei dati e dalla creazione di modelli diventa importante per trasmettere il valore della risposta e a stimolare, in un circolo virtuoso e agile, le successive domande “intelligenti”. Ecco che la data-intelligence e il data-telling diventano gli strumenti per i data scientist per entrare sempre di più nel centro dei sistemi decisionali aziendali contribuendo a realizzare quel concetto di “data-driven organization” che è il presente di poche organizzazioni ma che deve essere il futuro di tutte quelle che vogliono averlo (il futuro). Essendo, almeno per ancora qualche decennio (Kurzweil permettendo), immersi in organizzazioni fatte di persone umane è fondamentale fare crescere i due skill dei datascientist che hanno a che fare con la relazione con altri team e con la società civile.

2) Il trend di miglioramento tecnologico che afferisce ai tre step centrali della datascience, e cioè ottenere i dati, lavorarli e creare algoritmi, è in crescita esponenziale. Visti i massicci investimenti che in tutto il mondo start-up e grande aziende stanno mettendo in questa area assistiamo all’uscita sul mercato di tantissimi strumenti nuovi che hanno come obiettivo la facilitazione se non in alcuni casi il tentativo di automatizzazione di ciascuno di questi step. Senza spingerci a estremi ancora lontani, vedi l’algoritmo definivo , già oggi il tempo che ciascun data scientist deve dedicare alle parti centrali del processo si è sensibilmente ridotto e non è facile immaginare un miglioramento incrementale veloce nei prossimi anni. Non ritengo, come scritto in questo peraltro interessante articolo, che il lavoro dei data scientist possa essere automatizzato entro il 2025 ma sono invece convinto che si sposterà pesantemente dal punto di vista della distribuzione del tempo sicuramente verso gli estremi.

Solo il futuro saprà togliere il punto interrogativo alla domanda da cui siamo partiti ma mi sento di condividere quello che il sociologo Derrick de Kerckove scrive nel consigliatissimo piccolo saggio “la rete ci renderà stupidi?”  sull’importanza di allenare alcuni skill piuttosto di altri :

“Nell’era dei big data, le risposte dipendono unicamente dalle domande. Meglio imparare a fare bene le domande che a dare le risposte, benchè giuste”

 

Domande non risposte sono il futuro dei data scientist?

Popper, Datascience & Lego: “Tutta la vita è risolvere problemi”

Ho sempre amato Popper, uno dei più importante filosofi della scienza, sia per il celebre principio di falsificabilità che è alla base della distinzione tra scienze e pseudoscienze, sia per la critica all’induzionismo estremo. Sintetizzando questo concetto egli sostiene che non basta osservare ma bisogna sapere cosa osservare. In questo senso la deduzione, che si nutre anche dell’osservazione non passiva della realtà, svolge un ruolo fondamentale nella creazione di teorie scientifiche e nella risoluzione di problemi. Questo processo è stato reso particolarmente evidente in due recenti e mediatiche scoperte scientifiche quali quelle del bosone di Higgs e delle onde gravitazionali, in cui la deduzione (fisica teorica) è stata confermata dalla induzione (fisica sperimentale) a distanza di molto tempo. E in questi processi di verifica induttiva la datascience ha avuto un’importanza fondamentale visto che tecnologia, algoritmi e specialisti di analisi dati la fanno ormai da padroni in questi grandi esperimenti. Anche nei processi deduttivi l’osservazione dei dati, soprattutto se guidata da una conoscenza del contesto e del problema che si vuole risolvere, porta un supporto importante nella realizzazione di quegli schemi mentali creativi necessari alla definizione di ogni teoria scientifica falsificabile.
Ma la citazione di Popper nel titolo del post fa riferimento anche ad un aspetto specifico e critico nell’utilizzo della datascience e in particolare alla domanda, che mi capita sempre meno spesso di sentire, su quale sia il punto di partenza di qualsiasi progetto relativo ai dati e in particolare quelli per i quali “sprechiamo” l’attributo Big Data.
Non ho alcun dubbio nell’indicare che sia fondamentale partire da un problema implicito o esplicito (chiarirò più avanti il concetto) degli stakeholder del progetto: il Cliente nei progetti di business o i Decision maker e la Comunità stessa in progetti non commerciali.

Sicuramente estremamente errato è partire dalla infrastruttura tecnologica. Cito a questo proposito un bellissimo post “Put data Science before Data Infrastructure” di  David Johnston, datascientist di Thoughworks che evidenzia come una qualità fondamentale per ogni analisi dei dati è sapere cosa osservare e perchè osservarlo.

DataScience1

Certamente molte tecnologie “Big Data”, cito l’ecosistema Hadoop per esempio, sono abilitanti ma non bisogna dimenticare che sono solo un mezzo, una condizione in alcuni casi necessaria ma mai sufficiente al buon risultato finale.

Talvolta è certamente possibile partire dai dati, soprattutto quando una vera domanda da parte degli stakeholder non esiste o meglio è implicita perchè questi ultimi non sono in grado di identificarne l’esistenza. Sicuramente la crescita esponenziale della disponibilità di dati può aumentare queste situazioni ma come punto di partenza diventa molto rischioso soprattutto in ottica business per gli investimenti correlati a questi progetti che possono non trovare un mercato. Questa è la via intrapresa da Linkedin nei suoi primi anni di vita quando, trovatosi grandissime moli di dati relativi a professionisti di tutto il mondo, ha lasciato che i datascientist interni realizzassero prodotti basati sui dati (soprattutto in ambito soluzioni per Human Resources) che il marketing tradizionale e i potenziali Clienti non riuscivano neppure ad immaginare. Certamente quando si riescono a creare prodotti (risolvere problemi) vincenti in questo modo l’oceano blu che si apre nel mercato è veramente importante. Ma sono poche le aziende che, per cultura e per organizzazione, riescono a sfruttare queste situazioni.

In altri casi è possibile partire dagli algoritmi per capire se è possibile far emergere dai dati (anche i “soliti dati”) delle situazioni (pattern) che possano rispondere a problemi impliciti o espliciti di Clienti o di Decision maker. In questo celebre post il datascientist Brandon Roher prova ad incrociare domande/problemi generici ad algoritmi più o meno innovativi nel campo del machine learning. Partendo proprio dagli algoritmi il deep learning ha fornito convincenti risposte a problemi ancora irrisolti, per esempio nel riconoscimento di cose e persone nelle immagini . Ma anche in questo caso la strada verso risultati concreti è molto ardua e riservata ad un numero ancora limitato di datascientist-driven companies.

In questo senso la visione popperiana di mettere al centro il problema, applicato alla datascience, è sicuramente vincente. Come scrive Popper ” .. il metodo consiste nel proporre tentativi di soluzione del nostro problema, e nell’eliminare le soluzioni false come erronee. Questo metodo presuppone che noi lavoriamo con un gran numero di tentativi di soluzioni. Una soluzione dopo l’altra viene messa a prova ed eliminata.” E oggi questo metodo, figlio del galieiano metodo sceintifico, applicato alla Datascience trova nella tecnologia NoSQL, negli algoritmi “big data” e nei datascientist  un forte abilitatore nonchè un grande acceleratore.

In questa evoluzione conoscere il contesto in cui si muove il progetto/problema e definirlo al meglio rimane la parte più difficile. Oggi più di ieri perchè  su questo aspetto che tocca problematiche organizzative, culturali e sociali non abbiamo (soprattutto in Italia) fatto gli stessi passi avanti che siamo riusciti a realizzare negli altri aspetti, ahimè solo abilitanti (tecnologia, algoritmi, dati ecc.).

Sulla base delle considerazioni sopra descritte mi piace descrivere il flusso che coinvolge qualunque progetto di datascience in maniera modulare quasi fosse una costruzione “lego”. Sotto riporto una immagine che esemplifica questi concetti
LegoDataScience

Cercherò di fare alcune considerazioni in futuri post di ciascuno di questi livelli, di come si possano spesso compenetrare (soprattutto quelli centrali), di come lo spessore (l’importanza) di ciascuno di questi sia variabile funzione del progetto .
Vedremo anche come, a sua volta, questo pattern (ovvero singolo progetto), possa combinarsi con altri perchè spesso i due strati superiori (i problemi risolti e i relativi dati) costituiscono la base per altri progetti/programmi  più complessi o più complicati.
Credo che sia importante aver “fissato” (anche visualmente) la centralità della definzione del problema all’interno di qualunque progetto di datascience e quindi nell’ideale diagramma di Conway da cui siamo partito nel precedente post mi sento di sottolineare più che mai l’importanza del cerchio inferiore, cioè della conoscenza del contesto a 360°: dai dati agli stakeholder per essere in grado veramente  di “risolvere problemi tutta la vita”.

Popper, Datascience & Lego: “Tutta la vita è risolvere problemi”

Conway datascientist Venn diagram: il valore e l’utopia

Questa è sicuramente l’immagine che meglio rappresenta il nuovo modo di estrarre valore dai dati (datascience) attraverso quelle figure, i datascientist, definiti da Hal Varian, Chief economist di Google, come “la professione più sexy del XXI secolo”.

Data_Science_VD

La rapida evoluzione tecnologica degli ultimi 15 anni, le cui direttrici ho sintetizzato nel precedente post, ha reso particolarmente importante avere figure all’interno dell’azienda che abbiano  forti competenze tecnologiche (hacking skills), ottime conoscenze matematico statistiche (che consentano anche di sfruttare le nuove evoluzioni degli algoritmi) e a cui non manchi la conoscenza di dominio (dei dati e del contesto di business)  per potersi fare le domande giuste e risolvere i problemi a maggior valore. Come si vede dall’immagine solo all’incrocio delle tre competenze chiave si posiziona la nuova scienza dei dati e ci troviamo di fronte a un nuovo tipo di professionalità. Qui abbiamo il valore assoluto, non raggiungibile dalla sola sovrapposizione di due dei tre skill che rischiano di convergere in situazioni dove il risultato è parziale o porta a cattive interpretazioni (come la “danger zone”,  in assenza di competenze matematico statistiche). Chapeau a Conway per averlo focalizzato con questo dettaglio visuale già nel lontano 2010. Ma è così facile trovare persone con la presenza di questi tre skill? E soprattutto con la crescita di importanza dei dati all’interno delle aziende è un modello facilmente scalabile? La mia personale opinione è negativa e si basa sia su esperienze personali in Italia sia sulla lettura dei dati su scala mondiale dove Mckinsey rileva solo negli Stati Uniti la mancanza (entro il 2018) di quasi 200.000 datascientist e più di 1 milione di data-manager. Da queste considerazioni nasce l’aggettivo “utopia” nel titolo del post. Ma esiste una soluzione o per lo meno si può arrivare ad un utile compromesso? Probabilmente sì attraverso una strada organizzativa più complessa e meno rapida ma potenzialmente anche più efficace nel medio periodo. L’opzione è creare un team che rispetti la matrice di Conway e cioè che abbia all’interno persone la cui somma di competenze porti alla definizione di datascience. Nel medio periodo, in un’ottica di lifelong learning, ciascun membro del team, colmando i propri gap, potrebbe arrivare ad essere un vero datascientist. Ma è una strada percorribile? Si … ponendo particolare attenzione alla selezione del team e all’utilizzo di metodologie agili nella sua crescita. Ma questa strada merita considerazioni supplementari che affronterò in un post specifico … stay tuned

Conway datascientist Venn diagram: il valore e l’utopia