Machine learning: una sfida tanto umana …

machinelearningTra le tante definizioni di machine learning quella che preferisco è stata data da uno dei più importanti computer scientist viventi Tom Mitchell, professore al Carnegie Mellon University a Pittsburgh, che lo definisce come “un programma informatico che apprende dall’esperienza E con riferimento a qualche classe di compiti  con performance P in modo tale che le sue performance nello svolgere il compito T, misurato da P, migliora con l’esperienza E“. Trovo questa definizione particolarmente adatta anche a definire il percorso di apprendimento che segue qualunque essere umano a partire dal parto e forse, come si è scoperto da poco, anche qualche tempo prima durante tutta la fase di gestazione.

bambinocomputer

Il punto sicuramente cruciale che ha portato all’evoluzione degli ultimi 15 anni del machine learning è stato come siamo riusciti a trasferire l’esperienza E ai programmi informatici. La digitalizzazione, la facilità (economicità tecnologica) di raccogliere dati e la contribuzione di massa (Web 2.0) hanno consentito di avere una quantità impressionante di esperienze facilmente utilizzabili dai computer. Chiaramente facendo un parallelismo tra l’apprendimento del uomo e quella della macchina esistono ancora grandissimi vantaggi a favore dell’uomo poichè siamo ancora lontani dal riuscire a codificare ad un sistema informatico la ricchezza dell’esperienza umana (fattore E). Ma il gap si sta comunque riducendo grazie all’evoluzioni recentissime del deep learning e del reinforcement learning che sono riusciti a migliorare moltissimo su aspetti quali la visione, l’elaborazione di un testo (es: problema della traduzione) e anche la strategia. Gli aspetti dove invece i sistemi non umani ci stanno superando sono la capacità elaborativa di questa esperienza sia per la legge di Moore sia per l’evoluzioni delle architetture deputate a questo tipo di elaborazione (evoluzioni dei sistemi a GPU in primis). Inoltre la continuità di energia a disposizione (i computer non dormono …) è un fattore fortemente a vantaggio di un sistema che non si è evoluto in miliardi di anni ma è stato progettato in pochi decenni.
Non dimentichiamoci che è comunque l’uomo a guidare l’evoluzione di questi sistemi ed è fondamentale che ne comprenda a pieno il loro funzionamento sia per continuare a guidare sia per coglierne benefici di massa.
In questo senso credo siano cruciali alcuni aspetti che vanno gestiti con consapevolezza sempre più allargata. Provo ad elencarne alcuni in maniera non esaustiva:

  1. La logica di funzionamento dei sistemi di machine learning vanno capiti da un numero sempre più vasto di individui e di aziende perchè solo dalla loro conoscenza può scaturire l’elaborazione di domande e quindi di soluzioni a beneficio della collettività e non di oligopoli di individui (nerd) o di aziende (big tech companies). E su questo l’educazione di massa, soprattutto delle nuove generazioni, è il fattore più strategico.
  2. Per favorire il punto 1 i principali algoritmi, tecniche e strumenti che ruotano attorno al machine learning devono essere il più possibile Open. Esperimenti quali OpenAi vanno in questo senso ma andrebbero ulteriormente incentivati e allargati.
  3. Andrebbe sfavorito l’accentramento di oligopoli di dati non tanto con politiche protezionistiche nazionali o restrittive nei confronti delle aziende detentrici degli stessi ma con politiche che favoriscano la valorizzazione dei dati individuali e con l’allargamento dell’utilizzo degli stessi da parte di nuove organizzazioni attraverso l’eliminazione di barriere anche tecnologiche (formati non standard) al loro scambio. In questo senso politiche eccessivamente conservatrici nella protezione dei dati individuali finiscono per favorire gli oligolipoli sfavorendo ulteriormente l’individuo/consumatore.
  4. Politiche fortemente diverse tra stati nella regolamentazione di un fenomeno così globale quale il machine learning potrebbero portare ad aumentare ulteriormente la differenza di produttività e reddito in differenti aree del pianeta. Non essendo possibile, in senso realistico, accordi internazionali globali ritengo che sia fondamentale che ogni stato nazionali adotti politiche molto “agili” e sperimentatrici ma vigili in ambito legale per evitare di avere gap difficilmente colmabili.

La sfida per tutta l’umanità resta complessa e non facilmente indirizzabile. Tuttavia sono convinto che solo consapevolezza, investimenti in educazione specifica e una regolamentazione leggera lontana dalla burocrazia possano mantenere “umana” la guida di questo fenomeno che non investe solo la tecnologia ma anche e soprattutto l’economia e l’etica.

Machine learning: una sfida tanto umana …

Quando usare tecnologie “big data”: le tre domande fondamentali …

Questo post prende spunto da una domanda a cui mi capita di rispondere quando si parla, in differenti contesti, di nuove tecnologie emergenti in area dati. La domanda sempre più frequente, anche alla luce di un mercato di vendor di tecnologia sempre più aggressivo, è relativa alla necessità di introdurre e di affiancare allo stack architetturale di dati tradizionale anche tecnologie cosiddette “big data” cioè che si sono evolute in contesti dove la numerosità dei dati, la loro diversità o la necessità di una veloce computazione di essi hanno fatto nascere nuovi paradigmi.
A mio parere la corretta risposta sta nel riuscire a capire, come in ogni progetto infrastrutturale, se la tecnologia abilita almeno uno dei tre miglioramenti che ho sintetizzato in questa immagine.

whybigdatatech

1) La prima domanda a cui rispondere è se la nuova tecnologia comporta in progetti esistenti o futuri una riduzione del “time to market” di un nuovo prodotto. Per fare un esempio concreto l’ecosistema hadoop sta avendo uno sviluppo esponenziale e la realizzazione di algoritmi all’interno del suo stack può facilitare, rispetto a soluzioni più tradizionali, l’integrazione nella fase progettuali dei team di datascientist con team di data-engineer incidendo notevolmente in maniera positiva nel tempo in cui un’idea raggiunge il mercato. Nella valutazione complessiva vanno però debitamente tenuti in conto i tempi di “acquisizione” o di “apprendimento” della nuova tecnologia e della presenza nei team di progetto di risorse che facilitino l’integrazione con i sistemi tradizionali.

2) La seconda domanda afferisce alla possibile riduzione di costi che la tecnologia può abilitare in terminini di progetti e processi all’interno delle organizzazioni. Per esempio l’utilizzo di graph-database per applicazioni e algoritmi che sfruttano i paradigmi della network analysis può portare a diversi ordini di grandezza di risparmio di costi rispetto all’utilizzo di database relazionali. Così come l’off-loading di sistemi costosi di archiviazione a favore di sistemi, come hadoop, che consentono comunque l’accesso agevole all’informazione può essere un modo intelligente, anche se meno affascinante di altri, per introdurre queste nuove tecnologie in azienda.

3) La terza domanda è forse quella più scontata e anche più facile da farsi ma non sempre la più agevole a cui rispondere. Infatti il valore in termini di nuovi prodotti che queste nuove tecnologie possono portare sul mercato ha un tempo di misurazione piuttosto lungo e che dipende spesso anche dalla capacità di capire il feed-back dei primi clienti in una logica iterativa di miglioramento continuo. In estrema sintesi la terza domanda è quella sicuramente più importante perchè incide più direttamente sul business dell’azienda ma è anche quella a più alto rischio di errore.

Proprio in questo senso, se l’introduzione di una tecnologia innovativa big data in area dati può essere giustificata da più di una delle tre logiche sopra descritte allora la probabilità che questa introduzione sia un successo aumenta insieme al consenso all’interno delle organizzazioni.
Ne consegue che il mio personale suggerimento è quello di non focalizzarsi solo e troppo sul riuscire a definire un chiaro business case ma anche di valutare l’importanza della tecnologia come possibile fattore abilitante a 360° sugli interi processi  organizzativi.
In questo senso due sono i consigli pratici che possono aiutare questa strategia: il primo è quello di portare fortemente a bordo del processo decisionali la parte a più alta conoscenza tecnologica dell’azienda e dall’altro di guardare come le aziende in giro per il mondo stanno usando la specifica tecnologia. Questo bellissimo libro “Big Data in Practice: How 45 Successful Companies Used Big Data Analytics to Deliver Extraordinary Results” dell’esperto di tecnologie Big Data Bernard Marr può essere un buon punto di partenza …

 

 

 

 

 

 

 

 

 

 

 

 

Quando usare tecnologie “big data”: le tre domande fondamentali …

Il Chief Data Officer e il suo Ecosistema

Il Chief Data Officer è sicuramente insieme ai datascientist una figura emergente all’interno delle organizzazioni. Per provare a fare luce su questa figura partirò da una sua definizione abbastanza condivisa per poi provare a descrivere, facendo riferimento agli studi recenti più autorevoli, il suo ecosistema cioè le aree aziendali che gestisce o con cui ha una relazione molto forte.

definzione

Secondo la definizione della voce inglese di Wikipedia il CDO (Chief Data Officer) ha in carico sia la governance dello strato dei dati (inteso come asset o valore aziendale) che la definizione strategica delle priorità in questa area cercando di spingersi a identificare nuove opportunità di business. In questo senso mi piace sottolineare, usando una terminologia più vicina al mondo agile, come il Chief Data Officer sia da una parte un  facilitatore e dall’altra un “disegnatore” di strategie aziendale. In questa ottica il ruolo viene proiettato nella parte più moderna dell’ambito manageriale dove plasmando il suo ecosistema il Chief Data Officer entra nel cuore delle decisioni aziendali sempre più guidate dall’analisi dei dati.

Tra i molti studi su questo delicato ruolo sicuramente quello che meglio descrive la molteplicità delle sue dimensioni è “A Cubic Framework for the Chief Data Officer: Succeeding in a World of Big Data” della Sloan School of Management – MIT Boston 2014. Nel lavoro sono descritte le tre direttrici principali in cui si muove il Chief Data Officer e cioè:

3dimensionicdo

1) La direzione collaborativa: più orientata verso l’interno dell’organizzazione piuttosto che verso l’esterno andando a braccetto con il business.
2) La direzione di impatto di valore che può essere più tattica focalizzata sul miglioramento dei servizi esistenti o più strategica orientata ad allargare il mercato dell’organizzazione.3) La direzione della tipologia dei dati e tecnologie: più focalizzata sull’uso dei dati tradizionali o, in maniera un poco più visionaria, spingersi più nell’area “Big data”

In questo spazio tridimensionale il posizionamento del CDO in una delle otto porzioni porta, secondo questo studio del MIT, a differenti categorizzazioni.
8cdo

Le otto tipologie che potete vedere nella figura sopra sono di fatto una differente interpretazione del ruolo del Chief Data Officer che è molto funzione sia del contesto organizzativo in cui si inserisce sia della caratteristiche personali. Pur non scendendo del dettaglio descrittivo delle otto tipologie, che potete trovare in dettaglio nel paper, bisogna comunque evidendenziare che si va da un ruolo più legato alla facilitazione e alla governance (Coordinatore) ad uno più ambizioso e strategico (Sperimentatore).

Passando a valutare l’ecosistema che sta attorno al Chief Data Officer occorre sicuramente far riferimento a questo ottimo articolo di Experian “The Chief Data Officer: Bridging the gap between data and decision-making”.
experiandataquality

Come si vede nella figura sopra, Experian nel suo studio  evidenzia quelle che sono le figure chiave del villaggio del Chief Data Officer. E’ sicuramente da sottolineare la graduale “traslazione” di queste figure dai Data owners che sono le persone responsabili di ogni singolo dataset presente in azienda fino ai Data analysts che cercano di usare i dati in ottica strettamente business. Oltre e tra queste due figure in organizzazioni ad alta complessità e dove il dato è un asset molto strategico possono o meglio dovrebbero esistere le altre figure di questo sempre più ampio villaggio.

Per provare a dare una vista il più possibile olistica di questo ruolo e per non dimenticare alcuni aspetti che spesso possono non emergere (l’aspetto legal in primis) ho provato a sintetizzare in questa figura quale potrebbe essere un suo buon ecosistema.

mycdoofficial

Nella sua sfera di competenza o comunque in stretta relazione con il suo operato ci deve essere:

1) L’aspetto legale perchè l’utilizzo di dati interni ed esterni all’azienda è sempre più influenzato da normative legate alla Privacy e al Copyright con una data protection law europea che porterà a breve uno tsunami in questa area.

2) La cura della qualità del dato. L’utilizzo di dati provenienti anche da fonti esterni spesso non strutturate aumenta sempre di più l’importanza di questo aspetto.

3) La governance del dato. In organizzazioni sempre più complesse con un livello di skill diversificato all’interno dei dipartimenti la gestione della distribuzione del dato e della sua conoscenza è un fattore strategico per poter sfuttare in maniera massiva il valore del petrolio del XXI secolo.

4) La tecnologia in ambito dati. L’esplosione cambriana delle tecnologie di gestione e dell’analisi dei dati fornisce sempre maggiore importanza strategica a questo aspetto: se il  poliglottismo è un valore certo questo va inquadrato comunque in una vista strategica.

5) L’innovazione. In un mondo sempre più data-driven  il dato si incrocia in maniera molto sinergica ed esponenziale con l’innovazione all’interno di qualunque organizzazione.

6) La datascience. Come più volte evidenziato la datascience si pone all’incrocio tra tecnologia (computer science), statistica e conoscenza del dominio dei dati: l’interazione con il villaggio del Chief Data Officer non può che essere fortissimo.

La definizione del ruolo e del dominio di influenza di questa nuova figura all’interno delle organizzazione è, ancora più di altre figure, liquida ma probabilmente con una crescita della sua componente strategica all’interno delle organizzazioni che vorranno diventare vere data-driven company di successo.

 

Il Chief Data Officer e il suo Ecosistema

A piccoli passi verso l’Algoritmo Definitivo

La lettura dello stupendo libro “l’Algoritmo Definitivo” di Pedro Domingos, professore e ricercatore presso l’università di Washington nell’area del machine learning e data-mining, mi fornisce lo spunto per riflettere sull’importanza esponenziale che gli algoritmi hanno sempre più nella vita di tutti i giorni e in sempre maggiori aree di business.

algoritmodefinitivo

La modalità con cui Domingos affronta il non semplice argomento è particolarmente gradevole perchè il testo è privo di quegli aspetti tecnici e matematici che rendono spesso molto elitarie queste letture. Nel libro si  preferisce una narrazione funzionale e filosofica del fenomeno riuscendo a tenere la lettura accessibile a un pubblico più vasto.
Questo fatto è tanto più apprezzabile proprio per l’importanza che gli algoritmi stanno assumendo in ogni aspetto socio-economico della vita rendendo necessario aprire e rendere accessibile il dibattito a un pubblico il più ampio possibile e comunque in generale rendere alto il livello di consapevolezza.
Particolarmente stimolante è l’approfondimento (a cui Domingos dedica un capitolo intero) sul “mondo che nascerà dal machine learning” perchè già oggi interagiamo con versioni embrionali dell’Algoritmo Definitivo e “noi abbiamo il compito di capirli e plasmarne la crescita perchè ci aiutino sempre di più”.
Di fatto già oggi utilizziamo versioni “verticali” di algoritmi che, alimentati e “allenati dai nostri dati”, ci forniscono informazioni che aumentano la nostra conoscenza e supportano le nostre decisioni. E’ così per esempio per l’algoritmo di ricerca di Google che, funzione del nostro profilo e delle nostre ricerche, ci facilità l’accesso alla conoscenza ma anche gli algoritmi di Linkedin che ci suggeriscono, funzione dei dati che abbiamo nel nostro profilo, opportunità di lavoro che possono cambiare la nostra vita professionale. Ma la lista di queste interazioni con algoritmi machine learning sta aumentando esponenzialmente e questo nostro “specchio digitale” per usare le parole di Domingos cresce ogni giorno la sua importanza e il relativo sfruttamento è e sarà sempre più determinante per la nostra vita sociale e lavorativa. In questo senso  piattaforme sicure dove, senza delegare a una singola Corporation, conserviamo i nostri digital footprint mantenendone il controllo diventa un fattore sempre più importante. Così anche ecosistemi di algoritmi machine learning open-source usabili da una molteplicità di organizzazioni sono punti fondamentali che, in linea con quello che Domingos auspica, potranno delineare un sviluppo democratico e positivo della relazione tra uomo e macchina o meglio tra “io fisico” e “io digitale” anche perchè questo “io digitale” sta diventando il nostro più rapido estrattore di conoscenza.

knowledge2

Del resto, ma questo non è oggetto del libro, lo sviluppo in parallello delle nanotecnologie o meglio della nanoinformatica potrebbe portare a nuove interazioni tra io fisico e io digitale, evocate peraltro anche da Kurzweil nei sui scritti sulla singolarità. Quello che può stupire, in questo caso, è la scala temporale  di questa evoluzione perchè la nostra interazione con altri organismi esiste fin dalle nostre origini vista la presenza all’interno del nostro corpo di circa l’1-3% (in termini di massa) di microrganismi simbiotici.

Ma sicuramente altrettanto affascinante a queste riflessioni sul futuro è la prima parte del libro dove Domingos fotografa l’attuale stato dell’arte del machine learning suddividendolo in cinque tribù, come descritto da una sua slide tratta da questo suo intervento a “Talk at Google”, in cui si rappresentano i cinque approcci diversi  dal punto di vista filosofico della estrazione di conoscenza dai dati.

5-tribes-machine-learning

Ognuno di questi approcci ha tassi di successo diversi nei differenti campi di applicazione scientifici e di business. La corsa verso un “learner universale”, molto vicino al concetto stretto di intelligenza artificiale, è ormai più che aperta e lo stesso team di Domingos ne propone una versione molto prototipale (se volete dare un’occhiata o provarla visto che il progetto è open source lo trovate qui http://alchemy.cs.washington.edu/). Il concetto su cui molti, non solo Domingos, stanno cercando di convergere è di trovare punti di analogia tra le cinque famiglie e, semplificando un poco, riuscire a programmare un learner che utilizza la migliore strategia in funzione del contesto.

La corsa verso il sacro Graal del machine learning è aperta e giornalmente contribuiamo al suo raggiungimento con il nostro piccolo contributo di dati che, in maniera non sempre consapevole, condividiamo. Esserne consapevoli è già un primo passo per minimizzare anche gli aspetti negativi che inevitabilmente ogni innovazione porta con sè.

A piccoli passi verso l’Algoritmo Definitivo

Domande non risposte sono il futuro dei data scientist?

La domanda da cui parte questo post sembra allo stato attuale poco più che una provocazione ma se si analizza con attenzione il fenomeno big data potrebbe non esserlo tra poco.
Per spiegare il concetto in un intervento sui possibili futuri della datascience ho rielaborato una slide di una recente mia presentazione pubblica in cui evidenziavo le attività principali del data scientist.
DataScience
In questa analisi evidenziavo come i processi sempre più strategici sono, nella modellazione a cinque step, il primo e l’ultimo cioè il porsi le domande giuste e comunicare i risultati in maniera efficace.
Certo la mia considerazione non vuole svilire i passaggi forse più tipici e anche più tecnici della datascience ma vuole evidenziare quali sono oggi e sempre più in futuro gli skill che serviranno a rendere “utile” un progetto o prodotto ad alto contenuto di dati e algoritmi.
Data-intelligence e data-telling saranno fattori chiave per due motivi fondamentali:

1) Oggi all’interno delle aziende e della società  i team di data scientist sono percepiti, magari non sempre a torto, come un circolo di iniziati. Questo non favorisce l’integrazione dei data scientist per esempio in ambito aziendale con strutture più vicino ai clienti o agli utenti escludendoli dal contesto dove è presente il processo creativo delle domande “interessanti”, quelle che partendo dal contesto e quindi dai dati creano prodotti innovativi o risolvono problemi alla comunità (data-intelligence). In aggiunta la comunicazione e il racconto (data-telling) dei risultati ottenuti dalla analisi dei dati e dalla creazione di modelli diventa importante per trasmettere il valore della risposta e a stimolare, in un circolo virtuoso e agile, le successive domande “intelligenti”. Ecco che la data-intelligence e il data-telling diventano gli strumenti per i data scientist per entrare sempre di più nel centro dei sistemi decisionali aziendali contribuendo a realizzare quel concetto di “data-driven organization” che è il presente di poche organizzazioni ma che deve essere il futuro di tutte quelle che vogliono averlo (il futuro). Essendo, almeno per ancora qualche decennio (Kurzweil permettendo), immersi in organizzazioni fatte di persone umane è fondamentale fare crescere i due skill dei datascientist che hanno a che fare con la relazione con altri team e con la società civile.

2) Il trend di miglioramento tecnologico che afferisce ai tre step centrali della datascience, e cioè ottenere i dati, lavorarli e creare algoritmi, è in crescita esponenziale. Visti i massicci investimenti che in tutto il mondo start-up e grande aziende stanno mettendo in questa area assistiamo all’uscita sul mercato di tantissimi strumenti nuovi che hanno come obiettivo la facilitazione se non in alcuni casi il tentativo di automatizzazione di ciascuno di questi step. Senza spingerci a estremi ancora lontani, vedi l’algoritmo definivo , già oggi il tempo che ciascun data scientist deve dedicare alle parti centrali del processo si è sensibilmente ridotto e non è facile immaginare un miglioramento incrementale veloce nei prossimi anni. Non ritengo, come scritto in questo peraltro interessante articolo, che il lavoro dei data scientist possa essere automatizzato entro il 2025 ma sono invece convinto che si sposterà pesantemente dal punto di vista della distribuzione del tempo sicuramente verso gli estremi.

Solo il futuro saprà togliere il punto interrogativo alla domanda da cui siamo partiti ma mi sento di condividere quello che il sociologo Derrick de Kerckove scrive nel consigliatissimo piccolo saggio “la rete ci renderà stupidi?”  sull’importanza di allenare alcuni skill piuttosto di altri :

“Nell’era dei big data, le risposte dipendono unicamente dalle domande. Meglio imparare a fare bene le domande che a dare le risposte, benchè giuste”

 

Domande non risposte sono il futuro dei data scientist?

Ma di chi sono i big data? e chi li regola?

Sono chiaro fin dall’inizio: non riuscirò a rispondere completamente a questa provocatoria domanda in questo post ma vorrei partire da questo interrogativo per esplorare e stimolare la discussione su alcune tematiche legali sempre più cruciali per l’importanza che i dati stanno assumendo sia a livello economico sia all’interno della nostra vita.
Il 1° Giugno al Polo Tecnologico di Pavia ho tenuto una conferenza sul tema Big Data cercando di incrociare e raccontare una serie di tematiche non solo tecnologiche del fenomeno. Come si può vedere dalle slides presenti sul mio profilo di SlideShare ma anche dal numero elevato di domande e di interventi all’evento, argomenti come la proprietà dei dati e la modalità con cui questi sono gestiti e utilizzati sta diventando oggetto di attenzione anche da parte di noi “consumatori” e non più solo delle aziende.
Questa attenzione è sicuramente aumentata nel corso del tempo perchè il volume dei dati disponibili è cresciuto grazie e soprattutto alle nostre interazioni nel web (web 2.0) e a quello delle nostre cose (Internet of Things)

Dati_BigData Diventa quindi lecita la domanda: ma di chi è la proprietà di questi dati? Per esempio di chi è la proprietà dei dati relativi ai comportamenti di guida raccolti dalle scatole nere sempre più presenti sulle nostre automobili e che influenzano il prezzo delle nostre polizze assicurative? Di chi li genera cioè nostri? Di chi è proprietario dello strumento di raccolta? Delle compagnie assicurative che li usano? Oppure di chi è la proprietà del  dato relativo ad un like di un nostro amico  su un nostro post di Facebook? del nostro amico? di chi ha scritto il post cioè noi? di Facebook stessa che ha memorizzato il dato?
Alla conferenza l’amico nonchè giurista Simone Aliprandi proponeva la puntuale e corretta risposta “i dati non sono di nessuno” spostando giustamente l’accento sul concetto più proprio di banca dati (e quindi per quanto riguarda l’Europa del “diritto sui generis“) e su quello di copyright (diritto d’autore) delle informazioni che nascono da connessione creative degli stessi dati.  Questa è un’ottima risposta sul piano legale ma che non è facile risolvere univocamente  al pari di un’equazione matematica per chi lavora in ambito dati e deve ricondurla nella concretezza del suo contesto/progetto. Oltre a questi due “ostici” concetti (banca dati e diritto d’autore) si aggiungono, quando si parla di big data e in più in generali di dati, le problematiche legate al diritto alla privacy e all’oblio.
Privacy e oblio hanno avuto una dilatazione spazio-temporale con l’avvento di Internet per una serie di motivi precisi che provo ad elencare:
1) i motori di ricerca hanno reso disponibile il dato in qualunque parte del mondo  ci sia un accesso alla rete.
2) la memoria digitale, la replicazione esponenziale dei dati e i motori di ricerca stessi hanno dilatato lo spazio temporale in cui i dati e le informazioni possono essere ricercate e reso assolutamente economica la ricerca stessa. Fino a meno di 30 anni fa solo pochi luoghi, le biblioteche in primis, consentivano le ricerche all’interno di documenti cartacei in maniera abbastanza estesa (scala nazionale).
3) gli algoritmi dei motori di ricerca in qualunque ambito hanno e continuano a migliorare la ricerca utilizzando sempre di più la grande mole di dati relativi agli ambiti in cui stiamo cercando. Emblematico è il caso segnalato dal giurista Carlo Piana in questo articolo e relativo all’uso che viene fatto dei big data da parte dell’algoritmo di autocompletamento di Google per migliorare la nostra ricerca e che incappa, a volte, anche in contestazioni legali.

In questo contesto, in presenza di regolamentazioni nazionali profondamenti differenti, non è strano che Internet sia diventato un ente sovrannazionale che spesso sovverte le regole presenti e le “big corporation” che dominano i servizi sulla rete diventano loro stesse  giudici gestendo per esempio il diritto all’oblio. Non è un caso che nel 2014 con una sentenza storica la corte di giustizia Europea abbia obbligato Google (e non il gestore del server dove era presente il documento) a de-indicizzare un documento contenente informazioni relativo ad un pignoramento immobiliare di un cittadino spagnolo. In questo contesto Google è diventato di fatto giudice di se stesso, stabilendo chi possa o meno avere diritto all’oblio.
Post3In questo contesto molto “liquido” e con una regolamentazione disomogenea a livello mondiale ma in cui i servizi a base “big data” vengono gestiti, realizzati ed erogati  in  aziende e/o  datacenter di tutto il mondo è stata approvata nel Maggio 2016 la nuova data-protection law europea che nell’arco di due anni deve essere recepita da tutti gli stati membri.

post5

Per una volta la comunicazione dei contenuti dell’ambiziosa normativa è stato curato abbastanza bene e nel sito sono disponibili documenti (factshhets) che sinteticamente e con un lessico non estremamente complesso cercano di far comprendere l’utilità e lo scopo della nuova regolamentazione a tutti gli stakeholder.
Cerco di seguito di evidenziare i punti più importanti del regolamento perchè in parte prova a rispondere alla domanda iniziale del post, cioè chi regolamenta i big data:

  1. il diritto all’oblio : specifica in dettaglio come deve essere consentito a ciascuna persona il diritto a gestire i propri dati presenti on-line.
  2. data-protection by default: le proprietà relative alla condivisione dei dati (per esempio nei social network) devono essere il più cautelative possibili nelle condizioni standard, lasciando solo all’esplicità volontà dell’utente allargarne le maglie.
  3. data-protection by design: fin dalla fasi di progettazione di un servizio gli aspetti relativi alla protezione dei dati personali devono essere esplicitamente considerate.
  4. interoperabilità dei dati: deve essere facilitato al consumatore il passaggio dei propri dati da un servizio ad un altro analogo definendo standard di interoperabilità. Deve essere possibile, per esempio, come evidenziato da Ernesto Belisario al data-driven innovation summit di Roma, passare i propri dati storici della corsa da Runtastic a Strava in maniera semplice e veloce senza alcuna barriera.
  5. Armonizzazione delle leggi sulla protezione dei dati all’interno della UE: non potranno esistere all’interno dell’UE stati con leggi diverse relativamente a questo ambito legislativo.
  6. Adeguamento al rispetto delle leggi UE anche dei paesi non UE per poter erogare servizi a cittadini UE: di fatto questo obbliga le grandi Corporation americane a rispettare questa normativa pena la perdita del mercato europeo. L’applicazione di questo punto sarà una vera scommessa e sono molto curioso di vedere cosa succederà in concreto.
  7. Semplificazione normativa: si vorrebbe aumentare la consapevolezza del cittadino e del consumatore in tema di protezione dei propri dati semplificando la scrittura e quindi la compresione dei documenti di consenso e trattamento dei dati personali.
  8. Big data enabler: aumentando la fiducia dei consumatori si pensa che questa data protection law potrebbe favorire l’uso dei dati e quindi l’allargamento del mercato dei servizi. Questo punto dipenderà molto da quanto saremo bravi in Europa a concretizzare questo regolamento e a renderlo veramente semplice e facile da adottare da parte delle imprese non facendolo rimanere terreno per adepti

Post2

I prossimi due anni saranno molto importanti per verificare se, anche in Europa, sapremo finalmente superare la dicotomia tra tecnologia e legge supportando la crescita anche in questo ambito e andando oltre il pasticcio improduttivo della cookie law

Ma di chi sono i big data? e chi li regola?

Perchè le API sono necessarie in un mondo “big data” che cerca di decentralizzarsi

Come avevo scritto qualche settimana fa  la decentralizzazione è il cuore pulsante dei big data o meglio di quel fenomeno che a partire dagli anni ’90 attraverso la nascita del web ha accelerato la creazione di quello che in un eccellente libro , Stefano Quintarelli ha definito il nostro “futuro immateriale”.
Quasi quattro anni (Agosto 2012) sono passati da quando Forbes in un celebre articolo dal titolo “Welcome to the API economy” annunciava la sempre più forte centralità di questo paradigma che si stava affermando  non solo dal punto di vista tecnologico ma anche da quello economico, culturale e sociale.

Api
Ma partiamo dalla definizione di Wikipedia che descrive le API come un “insieme di procedure disponibili al programmatore, di solito raggruppate a formare un set di strumenti specifici per l’espletamento di un determinato compito all’interno di un certo programma”: nulla di nuovo rispetto a quello che succedeva anche qualche decennio fa in campo informatico. Ma quello che è cambiato negli ultimi 15 anni e che ne ha fatto crescere l’importanza in maniera progressiva sono stati queste “piccole” evoluzioni tecnologiche:
l’utilizzo del procollo http che ha portato le api a poter sfruttare la rete per interconnettere applicazioni e sistemi distribuiti sulla rete internet (Web service)
l’evoluzione del fenomeno mobile che ha moltiplicato i sistemi distribuiti in rete (smartphone e ora anche Internet of Things) che necessitano di scambiarsi dati in modo resiliente e veloce. Da qui l’evoluzione delle API verso il paradigma REST e dal formato XML a quello Json, più leggero e meglio gestibile dalle applicazioni.
la crescita enorme di dati generati e quindi disponibili (fenomeno Big data) che ha reso fortemente economico gestire il relativo scambio senza flussi massivi ma con veloci e leggere interfacce e transazioni quando gli utenti (uomini o macchine) ne hanno bisogno e questi sono disponibili in qualunque server in giro per il mondo.

APIFramework

Questa evoluzione tecnologica delle API ha facilitato da una lato il superamento di una serie di problematiche funzionali e di business e dall’altro ha consentito di creare nuovi mercati dove nel giro di poco tempo aziende da piccole start-up si sono trasformate in colossi economici mondiali. Di seguito proviamo ad elencare i 7 principali benefici e casi d’uso che afferiscono al paradigma della API economy:

1) Sicuramente la monetizzazione di asset strategici e immateriali quali dati, informazioni e algoritmi ha avuto dalla diffusione di uso delle API un’accelerazione enorme. Questo ha portato dall’inizio degli anni 2000 alla creazione di aziende che hanno fondato una parte considerevole del loro business su questo tipologia di transazioni. E’ il caso per esempio di Twitter che ha in questo tipo di business una delle componenti più importanti del suo fatturato. Ma anche Google e Facebook hanno ulteriormente accelerato in questa direzione recentemente creando prodotti sulla base di algoritmi creati per realizzare prodotti per i propri clienti: il caso del recente lancio delle Vision Api di Google ne è un caso emblematico. Ma anche aziende più tradizionali, che non nascono con il Web, come il New York Times stanno spingendo molto nel creare piattaforme API che facilitino l’integrazione e l’uso dei propri asset. Data e information provider in giro per il mondo traggono ovviamente grossi benefici da questa evoluzione tecnologica che facilita la diffusione dei propri asset in maniera liquida: il portale API di Dun & Bradstreet ne è un ottimo esempio perchè evidenzia la capacità di integrare in un marketplace anche dati esterni (di altri data-provider) concretizzando quello che mi piace definire come il “dato aumentato”.

2) La distribuzione e conseguente decentralizzazione che il paradigma API ha portato è stato sicuramente abilitante alla sempre più forte diffusione del Cloud nelle sue diverse forme comprese quella ibrida. Poter integrare facilmente diverse API nelle proprie soluzioni permette di cogliere tutti i benefici di scalabilità del Cloud quando per specifiche API si evidenza necessità di performance molto variabili nel tempo. Sulla facilità di integrazione proprio delle API, semplificando la complessità architetturale sottostante, ha creato la sua posizione dominante la soluzione cloud di Amazon che ha non a caso il nome Amazon Web Services. Bluemix di IBM è un altro esempio dove API Economy e Cloud si fondono per dar vita ad un tentativo di facilitare l’innovazione facendo incontrare in maniera virtuosa domanda e offerta.

3) La capacità di integrare API di terze parti costruendo un’esperienza di valore per segmenti di utenti/mercati è un’altra tendenza abilitata dalla API economy. Molte aziende stanno creando o espandendo i propri business sfruttando questo paradigma. Forse il caso più recente ed ecclatante è quello di Slack, una piattaforma di team collaboration orientata al mondo tech, che ha fatto dell’integrazione con altri servizi  e con la possibilità addirittura di crearli ex-novo la forse primaria ragione di successo portandolo ad una diffusione veloce  (2.7 milioni di uenti attivi al giorno, inclusi 800.000 utenti a pagamento) e di conseguenza ad una valutazione elevatissima di circa 3,8 miliardi di dollari. Ma anche Uber ha per esempio aperto una piattaforma API per consentire a terze parti di sfruttare la sua flotta per le consegne, un uso creativo e innovativo del proprio asset immateriale.

4) L’utilizzo di framework API anche all’interno di organizzazioni strutturate e dove il tempo ha costruito, soprattutto a livello dati, silos molto difficili da superare è una altra direzione di applicazione molto interessante. Nei casi in cui non è necessaria una integrazione diretta a livello di sistema di persistenza del dato le API consentono di far dialogare diversi sistemi dipartimentali evitando costosi progetti di integrazione rendendo tra l’altro possibile la reingegnerizzazione di sistemi legacy per fasi successive. SalesForce ha creato una straordinaria storia di successo sulla base del superamento attarverso la propria applicazioni di silos dati aziendali che confluiscono nella sua soluzione automatizzando tutta la parte di gestione delle reti commerciali. E lo ha fatto integrando nella sua piattaforma, spesso via API,  dati sia dai silos aziendali sia da servizi di altri fornitori.

5) Il fenomeno OpenData trova nella forma di utilizzo via API la forma migliore per garantire l’utilizzo del dato in real time (non fattibile utilizzando forme batch come i file csv) e per l’interoperabilità in applicazioni di facile uso da parte degli utenti, come più volte evidenziato da Alfonso Fuggetta. In area anglosassone i portali api sono ormai ampiamenti diffusi nelle pubbliche amministrazioni sia locali che nazionali. Ne sono uno splendido esempio quello della città e dello stato di New York. Anche in Italia qualcosa si sta muovendo a traino dei casi più interessanti come quello dei dati relativi ai fondi strutturali erogati dalla Unione Europea ed esposti dal sito  Open Coesione.

6) Per favorire uno sviluppo di applicazioni in modo agile, incrementale e modulare le API sono un ottimo strumento che consente di definire in itinere il Minimum Viable Product (MVP) permettendo di integrare nelle applicazione i servizi più a valore e testando con i Clienti direttamente sul campo il loro utilizzo. L’integrazione di API rest oltre a disaccoppiare i sistemi consente una modalità più semplice di gestire l’interattività tra team diversi di sviluppo magari localizzati in aree diverse del globo. Le API sono un facilitatore del paradigma agile consentendo un time to market più veloce al business.

7) Si stanno anche creando anche marketplace specifici, con propri modeli di business, che aggregano API di terze parte consentendo a sviluppatori, accedendo ad un solo ambiente di trovare diverse soluzioni per differenti problemi. Oltre al caso già citato di Bluemix un esempio eccellente di origine italiana ma trapiantato in Silicon Valley è quello di Mashape che oltre ad offrire l’infrastruttura per pubblicare API private (come per esempio anche Apigee) fornisce anche un “mercato” dove si possono pubblicare API per vendita diretta di dati e servizi. Ad oggi ce ne sono più di 1350 pubblicate in questa forma

Insomma i motivi per entrare nella API economy sono tanti: l’interoperabilità tra sistemi, aziende e team di sviluppo è sicuramente il più importante ma non è facile  trarne beneficio perchè non è solo una questione tecnologica ma di cultura e di visione di business. Insomma come recita un famoso aforisma di W.Gibson “il futuro è già qui, solo che non è distribuito in maniera uniforme”.

 

 

Perchè le API sono necessarie in un mondo “big data” che cerca di decentralizzarsi

Il valore del poliglottismo tecnologico nell’era dei “Big Data”

L’uscita di questo recente post  nel sito Dzone che parla di come sia percepita e gestita all’interno delle più importanti organizzazioni internazionali la tematica della persistenza dei dati mi permette di approfondire il suo valore strategico nell’ottica di sfruttare al meglio il fenomeno big data.
Partiamo dalla definizione di persistenza dei dati: la capacità di rendere utilizzabile e accessibile un dataset nel tempo e su diversi tipi di memorie e di sistemi. In particolare, in ottica big data, la capacità di rendere accessibile una base dati in diversi tipi di sistemi di memorizzazione  è il fattore chiave per sfruttare al meglio quello che l’evoluzione tecnologica ci ha messo a disposizione. Avevo già parlato in uno dei primi post di come una delle direzioni in cui si sta sviluppando il fenomeno big data sia proprio quello della tecnologie NoSQL ovvero quei database che si differenziano dai database relazionali che hanno (e continuano parzialmente a farlo) dominato la scena dagli anni ’80. Sarebbe tra l’altro più corretto sia dal punto di vista etimologico che semantico definire questo tipo di database “Not only SQL” proprio per sottolineare come esistono diversi casi d’uso, soprattutto quando le quantità di dati crescono, per i quali il modello relazionale non rappresenta la soluzione migliore. Come si può vedere dalla classifica più diffusa a livello mondiale dei sistemi di gestione dati, db.engine.com, i database relazionali sono largamente utilizzati ma non sono più l’unica scelta a disposizione e soprattutto il trend è tutto a favore dei sistemi NoSQL
Poli2
Tipicamente si  classificano i sistemi NoSQL  in 5 categorie:
1) Graph database: sistemi che memorizzano i dati in nodi e relative relazioni e che sono molto adatti a supportare algoritmi che “attraversano” in modo intensivo la rete del grafo. Un esempio tipico di questi algoritmi è  il calcolo del cammino minimo tra due o più nodi che sfrutta strutture più efficientin presenti  nei graph database rispetto al  classica “join” dei database relazionali.
2) Document database: sistemi che non memorizzano i dati in tabelle con campi uniformi per ogni record come nei database relazionali, ma in cui ogni record è memorizzato come un documento che possiede determinate caratteristiche. Tipicamene la forma in cui sono memorizzati i dati è XML o Json. Questa tipologia di sistemi è molto adatta a dati in cui non è molto importante e dinamica la parte relativa alle relazioni e dove sono molto frequenti gli accessi in lettura.
3) Key-value database: sono abbastanza simili ai document database ma il volume di dati associato a ciascuna chiave è tipicamente molto più piccola e sono ancora meno adatti a gestire le relazioni. La loro struttura è praticamente quella, per chi conosce Python, della struttura dato dizionario. Sono adatti per grandi volumi di operazioni sia di scrittura che di lettura .
4) Columnar database: hanno una tipologia di memorizzazione dei dati orientata alla colonna piuttosto che alla riga, come succede nei database relazionali. Questo li porta ad essere più efficienti nell’analizzare e aggregare i dati per colonna piuttosto che analizzare il singolo record in tutti i suoi campi. Sono molto più adatti quindi ad utilizzi di tipo OLAP (online analytical processing) più che che OLTP (online transactional processing).
5) Search engine database: sono molto orientati alla ricerca di dati anche e soprattutto attraverso un utilizzo di fitri in successione da parte degli utenti (faceting). Questa tipologia di sistemi non sono veri database primari ma sono sempre più affiancanti a database NOSQL o relazionali perchè facilitano e rendono efficiente una delle operazioni che in questi non è sempre ottimale e  cioè la ricerca in grossi moli di dati.

La numerosità di queste nuove forme di sistemi di gestione dei dati rende quanto mai importante saper scegliere la tipologia che più si adatta allo scopo della nostra applicazione. Addirittura è sempre più frequente la presenza di più sistemi di persistenza dei dati all’interno di una sola applicazione.Come si può vedere da questa figura
Poliglottismo1in una recente indagine, condotta a livello mondiale sul numero di sistemi di persistenza dati usati all’interno della stessa applicazione il numero due è appaiato con il 38%  all’uno  con il 40%. Ormai più del 50% delle applicazioni usano più di un sistema di persistenza dati! Con ormai oltre 150 sistemi di gestione dati con una importanza e diffusione rilevante (assumendo come soglia lo score 0.50 della classifica di db.engine.com) a livello mondiale saper scegliere al momento giusto non basta più perchè l’inerzia dovuta ad acquisire le conoscenze necessarie per usare questi sistemi all’interno di progetti è alta. Diventa sempre più strategico investire a livello aziendale e anche di singoli team nella conoscenza delle diverse tipologie e di alcuni istanze di queste magari anche utilizzandoli in proof of concept per essere pronti a sceglierli ma soprattutto ad averne una buona esperienza pratica.
Il poliglottismo tecnologico e in particolare il poliglottismo dei sistemi di persistenza dati è sempre più un fattore strategico di successo soprattutto per le data-driven company che vogliono sfruttare a pieno la grande e diversificata mole di dati che sempre più in tempo reale guida il business e le relative strategie. E se con i DBaas (Db as a service) la complessità sistemistica si abbassa, si alza sempre di più all’interno di questa diversificazione tecnologica a crescita esponenziale la capacità di scegliere e usare in tempi rapidi il sistema più adatto.

Il valore del poliglottismo tecnologico nell’era dei “Big Data”

Limiti & innovazione, dati & tecnologia

La recente lettura di due piccoli ma intensi saggi sul concetto di limite e innovazione mi permette di fare qualche osservazione su queste due tematiche e su come si intreccino sempre di più, nella civiltà moderna, con i dati e la tecnologia.

Partiamo dal primo: il piccolo saggio “limite” di Remo Bodei, filosofo dell’università di Pisa e della Università della California a Los Angeles.
LimiteRemoBodeiNel libro Bodei, raccontando come nella storia dell’uomo il concetto di limite abbia avuto differenti interpretazioni, arriva a riflettere su come il suo superamento sia diventato, in moltissime discipline, una caratteristica della società moderna. Ma non è sempre stato così: a lungo le innovazioni tecnologiche e la creatività sono state viste con sospetto o considerate nocive. Si parte nel mondo greco-romano dalla frase “Niente di troppo” sul muro esterno del tempio di Apollo a Delfi, al mito di Icaro per passare all’artigiano che sotto Tiberio inventò il vetro infrangibile ma che fu decapitato per la paura che il suo uso facesse deprezzare l’oro. Ma forse il caso più “attuale” fu quello di Vespasiano che premiò l’inventore di una macchina per spostare grandi pesi in campo edilizio, ma che ne vietò la diffusione per non togliere lavoro alla sua plebicula. Riuscite forse ad immaginare qualcosa di simile oggi? Per esempio la proibizione dell’uso di algoritmi, di intelligenza artificiale o della robotica per difendere l’occupazione degli strati meno istruiti della popolazione mondiale?
Mi verrebbe da rispondere che questo non è possibile perchè oggi il superamento dei limiti, in campo tecnologico e economico, è chiamato innovazione ed è considerato un valore su cui si fonda il progresso e la società capitalistica in particolare.

E qui entra in campo l’altro saggio di cui parlavo e cioè “Per un pugno di idee” di Massimiano Bucchi che racconta in maniera leggera, quella leggerezza tanto cara a Italo Calvino, storie di innovazione che hanno cambiato la nostra vita (dalla tastiera all’iPod passando per il Walkman arrivando fino al genoma da 1000 dollari).
InnovazioneBucchi

Dalle storie del libro e  dalla sua introduzione emergono idee e considerazioni  importanti che mi permetto, aggiungendo alcuni atomi di storia personale, di parafrasare in cinque piccoli punti e cioè che l’innovazione:
1)«È un processo complesso e non lineare in cui entrano in gioco numerosi
elementi , processi e attori»
2) È qualcosa di più di una nuova tecnologia anche se nel mondo attuale spesso la tecnologia è un elemento fortemente abilitante
3) È spesso un «momento di cambiamento concettuale, sociale e culturale»
4) Non è fatta di «Venture capital, start-up e spin-off»: questi  sono strumenti che possono facilitarla, ma non sono l’innovazione stessa.
5)  Non è in una persona o in un team ma deve permeare le organizzazioni.

Ma cosa c’entrano i dati e la tecnologia con il concetto di limite e di innovazione in concreto? Diciamo che oggi, forse con una accelerazione fortissima negli ultimi 15 anni, l’innovazione, in tutte le discipline, si è nutrita e si nutre di dati e di tecnologia relativa al processo degli stessi per produrre risultati importantissimi. Dal bosone di Higgs alle onde gravitazionali, dalla mappatura del genoma al riconoscimento delle immagini nei social network e non solo, tutto passa attraverso la capacità di processare grosse moli di dati. Questo sia per realizzare algoritmi sia per utilizzarli real time: le driverless car sono un esempio concreto. Ma anche recentissime forme di intelligenza artificiale, forse le prime degne della definizione più canonica, passano proprio da nuove forme di apprendimento di grosse moli di dati, come ha dimostrato il recente super-algoritmo di Google, che sfruttando algoritmi deep-learning ha battuto il campione mondiale di Go.

Ma in questo contesto ha ancora senso parlare di limiti? La domanda è lecita proprio per l’aumentata rapidità con cui l’uomo riesce a superarli.
In questo caso la mia risposta è affermativa perchè il senso del riflettere sta soprattutto nel provare a capire cosa oggi non abbia funzionato a dovere  in questa corsa sfrenata dell’innovazione moderna e cioè per esempio:
1) i necessari limiti relativi alla privacy e alla gestione dei dati personali non ancora gestiti al meglio e in maniera disomogenea a livello mondiale
2) il limite del sistema economico attuale che non è riuscito a distribuire in maniera omogenea i miglioramenti economici e sociali che il progresso ci ha regalato. E l’aumento dell’indice di Gini relativo alla distribuzione dei redditi a livello mondiale è il migliore indicatore di questo limite
3) il limite, espresso dalla legge di Martec, dovuto al fatto che la tecnologia progredisce esponenzialmente mentre le organizzazioni secondo una curva logaritmica e forse la mente umana cambia con una velocità ancora più bassa adattandosi molto lentamente ai processi dell’innovazione

MartecsLaw

Proprio sulla base di questi limiti , senza proporre provvedimenti alla Vespasiano, penso sia fondamentale portare al centro dei processi di cambiamento, nelle organizzazioni e nella società, l’uomo: ma l’innovazione ce ne darà il tempo? Forse questo sta diventando un’emergenza per la nostra specie …

Limiti & innovazione, dati & tecnologia

Data value per il Cliente prima della data monetization

Appare sempre forte in tutte le organizzazioni che hanno come asset i dati o che si stanno accorgendo di avere dati nei loro asset  quella che io chiamo “l’ansia da data-monetization”. Il fenomeno “Big data”, che ho cercato di inquadrare in questo blog nel giusto contesto, ha contribuito ad accrescere la consapevolezza, all’interno di aziende di qualsiasi settore, che la crescita del volume dei dati e la tecnologia possano creare nuovi asset di valore. Ma dalla consapevolezza o dall’idea all’effettiva creazione di valore esiste una distanza siderale che la maggior parte delle organizzazioni non sa colmare in maniera corretta per la mancanza di fattori umani e strategici sui quali l’innovazione procede molto lenta.
RicercaBigDataOsservatoriCome avevo già scritto, infatti, capire il problema che viene risolto con specifici dataset, algoritmi o framework tecnologici è l’aspetto più complesso della datascience, perchè significa avere consapevolezza contemporaneamente della semantica dei dati e dei bisogni del Cliente. Questa difficoltà porta ad anteporre troppo spesso la creazione di prodotti che siano vendibili sul mercato all’analisi delle reali esigenze dei Clienti che useranno i prodotti stessi. Questa è, a mio giudizio, una delle tre principali cause del fallimento dei progetti Big Data a livello mondiale.
La seconda causa nasce spesso dall’approccio organizzativo di questi progetti: anzichè usare approcci lean e agile, che si adatterebbero molto bene alla complessità del contesto, si usano più frequentemente approcci waterfall tradizionali con la creazione di molti “strati” decisionali e operativi che rallentano i primi rilasci e allontano il team di progetto dal Cliente. Proprio in questa ottica di diminuire la distanza con il Cliente il numero 3 è già un numero imperfetto! Infatti oltre al Product owner, che secondo la migliore definizione di Pichler deve avere un piede nel team e uno nel mercato, solo una figura di Product Manager che conosca in maniera approfondita Clienti e mercato è a mio giudizio accettabile. Ma in molte start-up di successo questa figura collide. In aggiunta l’approccio agile e la sua logica di Minimum Valuable Product portano a capire molto presto con il Cliente eventuali errori di progettazione o di analisi che possono essere corretti in maniera iterativa in tempi rapidi. Solo in questo modo, accorciando la distanza tra il progetto e chi lo usa, si riesce a fare in modo che il data value non sia sacrificato troppo presto sull’altare di ricavi e profitti che invece sul medio periodo, non tanto paradossalmente, vengono penalizzati proprio da questa miope strategia.
La terza causa è probabilmente dovuta all’evoluzione che questo tipo di progetti ha avuto negli ultimi 10 anni e che ha di fatto fornito molta più centralità, rispetto al passato, ai datascientist, o comunque a figure che conoscono dati e tecnologia e che invece hanno poca centralità nei processi decisionali dei progetti stessi. E questo diminuisce ulteriormente la capacità di capire il valore che si sta creando ai Clienti.

Sono sempre più convinto che se la maggior parte delle aziende non risolverà queste tre problematiche, cioè non metterà al centro dei progetti “data-driven” l’analisi delle esigenze del Cliente, l’approccio agile e le figure che meglio conoscono i dati, “l’ansia da data-monetization” diventerà presto “nevrosi da data-monetization” a vantaggio di quelle realtà, spesso geograficamente posizionate in area anglofona, che lo hanno capito.

Insomma tra big data e big profit la via non è breve e scontata e passa sempre attraverso il valore che si crea al Cliente. Le modalità per provare a percorla al meglio sono e saranno oggetto di discussione di questo blog senza presunzione di dare risposte definitive!

Data value per il Cliente prima della data monetization