Domande non risposte sono il futuro dei data scientist?

La domanda da cui parte questo post sembra allo stato attuale poco più che una provocazione ma se si analizza con attenzione il fenomeno big data potrebbe non esserlo tra poco.
Per spiegare il concetto in un intervento sui possibili futuri della datascience ho rielaborato una slide di una recente mia presentazione pubblica in cui evidenziavo le attività principali del data scientist.
DataScience
In questa analisi evidenziavo come i processi sempre più strategici sono, nella modellazione a cinque step, il primo e l’ultimo cioè il porsi le domande giuste e comunicare i risultati in maniera efficace.
Certo la mia considerazione non vuole svilire i passaggi forse più tipici e anche più tecnici della datascience ma vuole evidenziare quali sono oggi e sempre più in futuro gli skill che serviranno a rendere “utile” un progetto o prodotto ad alto contenuto di dati e algoritmi.
Data-intelligence e data-telling saranno fattori chiave per due motivi fondamentali:

1) Oggi all’interno delle aziende e della società  i team di data scientist sono percepiti, magari non sempre a torto, come un circolo di iniziati. Questo non favorisce l’integrazione dei data scientist per esempio in ambito aziendale con strutture più vicino ai clienti o agli utenti escludendoli dal contesto dove è presente il processo creativo delle domande “interessanti”, quelle che partendo dal contesto e quindi dai dati creano prodotti innovativi o risolvono problemi alla comunità (data-intelligence). In aggiunta la comunicazione e il racconto (data-telling) dei risultati ottenuti dalla analisi dei dati e dalla creazione di modelli diventa importante per trasmettere il valore della risposta e a stimolare, in un circolo virtuoso e agile, le successive domande “intelligenti”. Ecco che la data-intelligence e il data-telling diventano gli strumenti per i data scientist per entrare sempre di più nel centro dei sistemi decisionali aziendali contribuendo a realizzare quel concetto di “data-driven organization” che è il presente di poche organizzazioni ma che deve essere il futuro di tutte quelle che vogliono averlo (il futuro). Essendo, almeno per ancora qualche decennio (Kurzweil permettendo), immersi in organizzazioni fatte di persone umane è fondamentale fare crescere i due skill dei datascientist che hanno a che fare con la relazione con altri team e con la società civile.

2) Il trend di miglioramento tecnologico che afferisce ai tre step centrali della datascience, e cioè ottenere i dati, lavorarli e creare algoritmi, è in crescita esponenziale. Visti i massicci investimenti che in tutto il mondo start-up e grande aziende stanno mettendo in questa area assistiamo all’uscita sul mercato di tantissimi strumenti nuovi che hanno come obiettivo la facilitazione se non in alcuni casi il tentativo di automatizzazione di ciascuno di questi step. Senza spingerci a estremi ancora lontani, vedi l’algoritmo definivo , già oggi il tempo che ciascun data scientist deve dedicare alle parti centrali del processo si è sensibilmente ridotto e non è facile immaginare un miglioramento incrementale veloce nei prossimi anni. Non ritengo, come scritto in questo peraltro interessante articolo, che il lavoro dei data scientist possa essere automatizzato entro il 2025 ma sono invece convinto che si sposterà pesantemente dal punto di vista della distribuzione del tempo sicuramente verso gli estremi.

Solo il futuro saprà togliere il punto interrogativo alla domanda da cui siamo partiti ma mi sento di condividere quello che il sociologo Derrick de Kerckove scrive nel consigliatissimo piccolo saggio “la rete ci renderà stupidi?”  sull’importanza di allenare alcuni skill piuttosto di altri :

“Nell’era dei big data, le risposte dipendono unicamente dalle domande. Meglio imparare a fare bene le domande che a dare le risposte, benchè giuste”

 

Annunci
Domande non risposte sono il futuro dei data scientist?

Ma di chi sono i big data? e chi li regola?

Sono chiaro fin dall’inizio: non riuscirò a rispondere completamente a questa provocatoria domanda in questo post ma vorrei partire da questo interrogativo per esplorare e stimolare la discussione su alcune tematiche legali sempre più cruciali per l’importanza che i dati stanno assumendo sia a livello economico sia all’interno della nostra vita.
Il 1° Giugno al Polo Tecnologico di Pavia ho tenuto una conferenza sul tema Big Data cercando di incrociare e raccontare una serie di tematiche non solo tecnologiche del fenomeno. Come si può vedere dalle slides presenti sul mio profilo di SlideShare ma anche dal numero elevato di domande e di interventi all’evento, argomenti come la proprietà dei dati e la modalità con cui questi sono gestiti e utilizzati sta diventando oggetto di attenzione anche da parte di noi “consumatori” e non più solo delle aziende.
Questa attenzione è sicuramente aumentata nel corso del tempo perchè il volume dei dati disponibili è cresciuto grazie e soprattutto alle nostre interazioni nel web (web 2.0) e a quello delle nostre cose (Internet of Things)

Dati_BigData Diventa quindi lecita la domanda: ma di chi è la proprietà di questi dati? Per esempio di chi è la proprietà dei dati relativi ai comportamenti di guida raccolti dalle scatole nere sempre più presenti sulle nostre automobili e che influenzano il prezzo delle nostre polizze assicurative? Di chi li genera cioè nostri? Di chi è proprietario dello strumento di raccolta? Delle compagnie assicurative che li usano? Oppure di chi è la proprietà del  dato relativo ad un like di un nostro amico  su un nostro post di Facebook? del nostro amico? di chi ha scritto il post cioè noi? di Facebook stessa che ha memorizzato il dato?
Alla conferenza l’amico nonchè giurista Simone Aliprandi proponeva la puntuale e corretta risposta “i dati non sono di nessuno” spostando giustamente l’accento sul concetto più proprio di banca dati (e quindi per quanto riguarda l’Europa del “diritto sui generis“) e su quello di copyright (diritto d’autore) delle informazioni che nascono da connessione creative degli stessi dati.  Questa è un’ottima risposta sul piano legale ma che non è facile risolvere univocamente  al pari di un’equazione matematica per chi lavora in ambito dati e deve ricondurla nella concretezza del suo contesto/progetto. Oltre a questi due “ostici” concetti (banca dati e diritto d’autore) si aggiungono, quando si parla di big data e in più in generali di dati, le problematiche legate al diritto alla privacy e all’oblio.
Privacy e oblio hanno avuto una dilatazione spazio-temporale con l’avvento di Internet per una serie di motivi precisi che provo ad elencare:
1) i motori di ricerca hanno reso disponibile il dato in qualunque parte del mondo  ci sia un accesso alla rete.
2) la memoria digitale, la replicazione esponenziale dei dati e i motori di ricerca stessi hanno dilatato lo spazio temporale in cui i dati e le informazioni possono essere ricercate e reso assolutamente economica la ricerca stessa. Fino a meno di 30 anni fa solo pochi luoghi, le biblioteche in primis, consentivano le ricerche all’interno di documenti cartacei in maniera abbastanza estesa (scala nazionale).
3) gli algoritmi dei motori di ricerca in qualunque ambito hanno e continuano a migliorare la ricerca utilizzando sempre di più la grande mole di dati relativi agli ambiti in cui stiamo cercando. Emblematico è il caso segnalato dal giurista Carlo Piana in questo articolo e relativo all’uso che viene fatto dei big data da parte dell’algoritmo di autocompletamento di Google per migliorare la nostra ricerca e che incappa, a volte, anche in contestazioni legali.

In questo contesto, in presenza di regolamentazioni nazionali profondamenti differenti, non è strano che Internet sia diventato un ente sovrannazionale che spesso sovverte le regole presenti e le “big corporation” che dominano i servizi sulla rete diventano loro stesse  giudici gestendo per esempio il diritto all’oblio. Non è un caso che nel 2014 con una sentenza storica la corte di giustizia Europea abbia obbligato Google (e non il gestore del server dove era presente il documento) a de-indicizzare un documento contenente informazioni relativo ad un pignoramento immobiliare di un cittadino spagnolo. In questo contesto Google è diventato di fatto giudice di se stesso, stabilendo chi possa o meno avere diritto all’oblio.
Post3In questo contesto molto “liquido” e con una regolamentazione disomogenea a livello mondiale ma in cui i servizi a base “big data” vengono gestiti, realizzati ed erogati  in  aziende e/o  datacenter di tutto il mondo è stata approvata nel Maggio 2016 la nuova data-protection law europea che nell’arco di due anni deve essere recepita da tutti gli stati membri.

post5

Per una volta la comunicazione dei contenuti dell’ambiziosa normativa è stato curato abbastanza bene e nel sito sono disponibili documenti (factshhets) che sinteticamente e con un lessico non estremamente complesso cercano di far comprendere l’utilità e lo scopo della nuova regolamentazione a tutti gli stakeholder.
Cerco di seguito di evidenziare i punti più importanti del regolamento perchè in parte prova a rispondere alla domanda iniziale del post, cioè chi regolamenta i big data:

  1. il diritto all’oblio : specifica in dettaglio come deve essere consentito a ciascuna persona il diritto a gestire i propri dati presenti on-line.
  2. data-protection by default: le proprietà relative alla condivisione dei dati (per esempio nei social network) devono essere il più cautelative possibili nelle condizioni standard, lasciando solo all’esplicità volontà dell’utente allargarne le maglie.
  3. data-protection by design: fin dalla fasi di progettazione di un servizio gli aspetti relativi alla protezione dei dati personali devono essere esplicitamente considerate.
  4. interoperabilità dei dati: deve essere facilitato al consumatore il passaggio dei propri dati da un servizio ad un altro analogo definendo standard di interoperabilità. Deve essere possibile, per esempio, come evidenziato da Ernesto Belisario al data-driven innovation summit di Roma, passare i propri dati storici della corsa da Runtastic a Strava in maniera semplice e veloce senza alcuna barriera.
  5. Armonizzazione delle leggi sulla protezione dei dati all’interno della UE: non potranno esistere all’interno dell’UE stati con leggi diverse relativamente a questo ambito legislativo.
  6. Adeguamento al rispetto delle leggi UE anche dei paesi non UE per poter erogare servizi a cittadini UE: di fatto questo obbliga le grandi Corporation americane a rispettare questa normativa pena la perdita del mercato europeo. L’applicazione di questo punto sarà una vera scommessa e sono molto curioso di vedere cosa succederà in concreto.
  7. Semplificazione normativa: si vorrebbe aumentare la consapevolezza del cittadino e del consumatore in tema di protezione dei propri dati semplificando la scrittura e quindi la compresione dei documenti di consenso e trattamento dei dati personali.
  8. Big data enabler: aumentando la fiducia dei consumatori si pensa che questa data protection law potrebbe favorire l’uso dei dati e quindi l’allargamento del mercato dei servizi. Questo punto dipenderà molto da quanto saremo bravi in Europa a concretizzare questo regolamento e a renderlo veramente semplice e facile da adottare da parte delle imprese non facendolo rimanere terreno per adepti

Post2

I prossimi due anni saranno molto importanti per verificare se, anche in Europa, sapremo finalmente superare la dicotomia tra tecnologia e legge supportando la crescita anche in questo ambito e andando oltre il pasticcio improduttivo della cookie law

Ma di chi sono i big data? e chi li regola?