Machine learning: una sfida tanto umana …

machinelearningTra le tante definizioni di machine learning quella che preferisco è stata data da uno dei più importanti computer scientist viventi Tom Mitchell, professore al Carnegie Mellon University a Pittsburgh, che lo definisce come “un programma informatico che apprende dall’esperienza E con riferimento a qualche classe di compiti  con performance P in modo tale che le sue performance nello svolgere il compito T, misurato da P, migliora con l’esperienza E“. Trovo questa definizione particolarmente adatta anche a definire il percorso di apprendimento che segue qualunque essere umano a partire dal parto e forse, come si è scoperto da poco, anche qualche tempo prima durante tutta la fase di gestazione.

bambinocomputer

Il punto sicuramente cruciale che ha portato all’evoluzione degli ultimi 15 anni del machine learning è stato come siamo riusciti a trasferire l’esperienza E ai programmi informatici. La digitalizzazione, la facilità (economicità tecnologica) di raccogliere dati e la contribuzione di massa (Web 2.0) hanno consentito di avere una quantità impressionante di esperienze facilmente utilizzabili dai computer. Chiaramente facendo un parallelismo tra l’apprendimento del uomo e quella della macchina esistono ancora grandissimi vantaggi a favore dell’uomo poichè siamo ancora lontani dal riuscire a codificare ad un sistema informatico la ricchezza dell’esperienza umana (fattore E). Ma il gap si sta comunque riducendo grazie all’evoluzioni recentissime del deep learning e del reinforcement learning che sono riusciti a migliorare moltissimo su aspetti quali la visione, l’elaborazione di un testo (es: problema della traduzione) e anche la strategia. Gli aspetti dove invece i sistemi non umani ci stanno superando sono la capacità elaborativa di questa esperienza sia per la legge di Moore sia per l’evoluzioni delle architetture deputate a questo tipo di elaborazione (evoluzioni dei sistemi a GPU in primis). Inoltre la continuità di energia a disposizione (i computer non dormono …) è un fattore fortemente a vantaggio di un sistema che non si è evoluto in miliardi di anni ma è stato progettato in pochi decenni.
Non dimentichiamoci che è comunque l’uomo a guidare l’evoluzione di questi sistemi ed è fondamentale che ne comprenda a pieno il loro funzionamento sia per continuare a guidare sia per coglierne benefici di massa.
In questo senso credo siano cruciali alcuni aspetti che vanno gestiti con consapevolezza sempre più allargata. Provo ad elencarne alcuni in maniera non esaustiva:

  1. La logica di funzionamento dei sistemi di machine learning vanno capiti da un numero sempre più vasto di individui e di aziende perchè solo dalla loro conoscenza può scaturire l’elaborazione di domande e quindi di soluzioni a beneficio della collettività e non di oligopoli di individui (nerd) o di aziende (big tech companies). E su questo l’educazione di massa, soprattutto delle nuove generazioni, è il fattore più strategico.
  2. Per favorire il punto 1 i principali algoritmi, tecniche e strumenti che ruotano attorno al machine learning devono essere il più possibile Open. Esperimenti quali OpenAi vanno in questo senso ma andrebbero ulteriormente incentivati e allargati.
  3. Andrebbe sfavorito l’accentramento di oligopoli di dati non tanto con politiche protezionistiche nazionali o restrittive nei confronti delle aziende detentrici degli stessi ma con politiche che favoriscano la valorizzazione dei dati individuali e con l’allargamento dell’utilizzo degli stessi da parte di nuove organizzazioni attraverso l’eliminazione di barriere anche tecnologiche (formati non standard) al loro scambio. In questo senso politiche eccessivamente conservatrici nella protezione dei dati individuali finiscono per favorire gli oligolipoli sfavorendo ulteriormente l’individuo/consumatore.
  4. Politiche fortemente diverse tra stati nella regolamentazione di un fenomeno così globale quale il machine learning potrebbero portare ad aumentare ulteriormente la differenza di produttività e reddito in differenti aree del pianeta. Non essendo possibile, in senso realistico, accordi internazionali globali ritengo che sia fondamentale che ogni stato nazionali adotti politiche molto “agili” e sperimentatrici ma vigili in ambito legale per evitare di avere gap difficilmente colmabili.

La sfida per tutta l’umanità resta complessa e non facilmente indirizzabile. Tuttavia sono convinto che solo consapevolezza, investimenti in educazione specifica e una regolamentazione leggera lontana dalla burocrazia possano mantenere “umana” la guida di questo fenomeno che non investe solo la tecnologia ma anche e soprattutto l’economia e l’etica.

Machine learning: una sfida tanto umana …

A piccoli passi verso l’Algoritmo Definitivo

La lettura dello stupendo libro “l’Algoritmo Definitivo” di Pedro Domingos, professore e ricercatore presso l’università di Washington nell’area del machine learning e data-mining, mi fornisce lo spunto per riflettere sull’importanza esponenziale che gli algoritmi hanno sempre più nella vita di tutti i giorni e in sempre maggiori aree di business.

algoritmodefinitivo

La modalità con cui Domingos affronta il non semplice argomento è particolarmente gradevole perchè il testo è privo di quegli aspetti tecnici e matematici che rendono spesso molto elitarie queste letture. Nel libro si  preferisce una narrazione funzionale e filosofica del fenomeno riuscendo a tenere la lettura accessibile a un pubblico più vasto.
Questo fatto è tanto più apprezzabile proprio per l’importanza che gli algoritmi stanno assumendo in ogni aspetto socio-economico della vita rendendo necessario aprire e rendere accessibile il dibattito a un pubblico il più ampio possibile e comunque in generale rendere alto il livello di consapevolezza.
Particolarmente stimolante è l’approfondimento (a cui Domingos dedica un capitolo intero) sul “mondo che nascerà dal machine learning” perchè già oggi interagiamo con versioni embrionali dell’Algoritmo Definitivo e “noi abbiamo il compito di capirli e plasmarne la crescita perchè ci aiutino sempre di più”.
Di fatto già oggi utilizziamo versioni “verticali” di algoritmi che, alimentati e “allenati dai nostri dati”, ci forniscono informazioni che aumentano la nostra conoscenza e supportano le nostre decisioni. E’ così per esempio per l’algoritmo di ricerca di Google che, funzione del nostro profilo e delle nostre ricerche, ci facilità l’accesso alla conoscenza ma anche gli algoritmi di Linkedin che ci suggeriscono, funzione dei dati che abbiamo nel nostro profilo, opportunità di lavoro che possono cambiare la nostra vita professionale. Ma la lista di queste interazioni con algoritmi machine learning sta aumentando esponenzialmente e questo nostro “specchio digitale” per usare le parole di Domingos cresce ogni giorno la sua importanza e il relativo sfruttamento è e sarà sempre più determinante per la nostra vita sociale e lavorativa. In questo senso  piattaforme sicure dove, senza delegare a una singola Corporation, conserviamo i nostri digital footprint mantenendone il controllo diventa un fattore sempre più importante. Così anche ecosistemi di algoritmi machine learning open-source usabili da una molteplicità di organizzazioni sono punti fondamentali che, in linea con quello che Domingos auspica, potranno delineare un sviluppo democratico e positivo della relazione tra uomo e macchina o meglio tra “io fisico” e “io digitale” anche perchè questo “io digitale” sta diventando il nostro più rapido estrattore di conoscenza.

knowledge2

Del resto, ma questo non è oggetto del libro, lo sviluppo in parallello delle nanotecnologie o meglio della nanoinformatica potrebbe portare a nuove interazioni tra io fisico e io digitale, evocate peraltro anche da Kurzweil nei sui scritti sulla singolarità. Quello che può stupire, in questo caso, è la scala temporale  di questa evoluzione perchè la nostra interazione con altri organismi esiste fin dalle nostre origini vista la presenza all’interno del nostro corpo di circa l’1-3% (in termini di massa) di microrganismi simbiotici.

Ma sicuramente altrettanto affascinante a queste riflessioni sul futuro è la prima parte del libro dove Domingos fotografa l’attuale stato dell’arte del machine learning suddividendolo in cinque tribù, come descritto da una sua slide tratta da questo suo intervento a “Talk at Google”, in cui si rappresentano i cinque approcci diversi  dal punto di vista filosofico della estrazione di conoscenza dai dati.

5-tribes-machine-learning

Ognuno di questi approcci ha tassi di successo diversi nei differenti campi di applicazione scientifici e di business. La corsa verso un “learner universale”, molto vicino al concetto stretto di intelligenza artificiale, è ormai più che aperta e lo stesso team di Domingos ne propone una versione molto prototipale (se volete dare un’occhiata o provarla visto che il progetto è open source lo trovate qui http://alchemy.cs.washington.edu/). Il concetto su cui molti, non solo Domingos, stanno cercando di convergere è di trovare punti di analogia tra le cinque famiglie e, semplificando un poco, riuscire a programmare un learner che utilizza la migliore strategia in funzione del contesto.

La corsa verso il sacro Graal del machine learning è aperta e giornalmente contribuiamo al suo raggiungimento con il nostro piccolo contributo di dati che, in maniera non sempre consapevole, condividiamo. Esserne consapevoli è già un primo passo per minimizzare anche gli aspetti negativi che inevitabilmente ogni innovazione porta con sè.

A piccoli passi verso l’Algoritmo Definitivo

L’importanza degli algoritmi nel futuro della datascience

In uno dei post precedenti avevo evidenziato le 4 principali “forze” grazie alle quali si sta  sviluppando il fenomeno “big data” e cioè: la crescita della disponibilità dei dati, l’evoluzione della tecnologia di gestione dei dati, lo sviluppo e il miglioramento degli algoritmi e le nuove figure professionali, i datascientist, che sono i protagonisti umani di questa rivoluzione in corso. Oggi mi vorrei soffermare a considerare la diversa velocità di queste forze e cosa serve, probabilmente, in questo momento storico per uniformarle il più possibile, rendendo il tutto a maggior valore per gli utilizzatori.

CrescitaDati
Da un lato infatti abbiamo due forze: quella della crescita dei dati e della relativa  tecnologia che in maniera virtuosa si accelerano in maniera esponenziale. Negli ultimi 2 anni sono stati generati il 90% dei dati attualmente disponibili su scala planetaria e contestualmente tutta la filiera tecnologica legata ai dati, dalla memoria alla capacità elaborativa, è migliorata in qualità (robustezza e disponibilità) e diminuita in costo ($/byte e $/capacità computazionale) grazie al cloud e ai nuovi paradigmi di calcolo distribuito (per esempio l’ecosistema Hadoop).

A fronte di questo miglioramento non c’è stato una equivalente crescita in termini numerici di esperti di dati (sia datascientist che manager) e la capacità di utilizzo dei dati stessi non è cresciuta nelle linee di business e nei decisori delle organizzazioni.
Ancora in questi giorni è stato pubblicato un studio McKinsey molto importante sui fattori strategici che portano valore ai progetti “big data” nelle aziende dove si individua proprio nella capacità di “scalare” nei data-analytics skills il fattore più critico di successo. Ma la scarsità di competenze in questo settore è un trend mondiale su cui nessuno ha dubbi ed è anche misurato dalla grande crescita salariale di queste professioni negli ultimissimi anni.

PostAlgoritmo
Di conseguenza gli algoritmi, che si posizionano tra questi due poli (dati e tecnologia da un lato e fattore umano dall’altro) rivestono a mio parere un ruolo fondamentale per la capacità di semplificazione e sintesi che possono rivestire rendendo di valore reale e attuale quella grande massa di dati che oggi la tecnologia ci mette a disposizione. In aggiunta sono la componente che può mitigare la scarsità di persone capaci di analizzare i dati in azienda, accelerando e semplificando le analisi stesse e  democratizzandole di conseguenza.PostAlgoritmi6
Non è un caso che Evagelous Simoudis, uno dei più importanti investitori di lungo corso in Silicon Valley nel settore dei dati e degli analytics, qualche giorno fa in un popolare post uscito sul sito della O’Relley scrive a chiare lettere che “per sostenere il fenomeno big data e migliorare l’uso delle informazioni, abbiamo bisogno di applicazioni che velocemente ed in maniera poco costosa estraggano correlazioni associando le intuizioni ad azioni concrete di business”.
PostAlgortimi3
Del resto la stessa Gartner, nell’ultimo Symposium 2015 a Orlando, aveva evidenziato la prossima  evoluzione della “Data Economy” nella “Algorithmic Economy perchè non sono importanti i “big data” in sè ma quello che si riesce a fare con essi.

LegoVerdeAlgoritmi
Il nostro mattoncino “verde” è quindi fondamentale per riuscire a realizzare costruzioni “lego” big data sempre più grandi e utili: ne parleremo e lo analizzeremo in concreto in prossimi post.

 

 

L’importanza degli algoritmi nel futuro della datascience