Era il 2012 quando, sulla Harvard Business Review, compariva un articolo che definiva quello del data scientist come “Il lavoro più sexy del 21esimo secolo”. Molti fattori (su tutti le offerte di lavoro e i salari medi) suggeriscono che probabilmente era vero (la parola sexyqui è usata per intendere “persona con qualità rare, la cui domanda è alta”). Quell’articolo però, così come altri commenti entusiasti intorno ai big data e all’intelligenza artificiale, evita di porre una domanda: chi inserisce tutti quei dati? Questi ultimi, prima di essere dati in pasto a un’intelligenza artificiale che possa analizzarli, interpretarli, imparare a farci qualcosa e poi aiutare qualcuno a fare delle scelte (o scegliere per lui), vanno raccolti e organizzati.

I dati sono tanto più efficaci quanto più sono precisi e attendibili. E il device più affidabile per questo tipo di cose è sempre lo stesso, da migliaia di anni: l’essere umano. Il data tagging (o data labelling) è già un lavoro per decine di migliaia di persone, la maggior parte delle quali si trova in Cina. Si tratta di una mansione che non richiede particolari competenze, se non quelle già “preinstallate” in un cervello umano sano (riconoscere oggetti o persone in un’immagine, per esempio), e che si candida quindi a diventare ciò che tempo fa era il lavoro in fabbrica: un’operazione ripetitiva, mentalmente e fisicamente stressante, e poco retribuita. Può sorprendere che in un momento di così rapido sviluppo tecnologico ci sia ancora bisogno di qualcuno che, manualmente, guardi il video di una telecamera di sicurezza per riconoscere il modello dei veicoli che passano.

«Alcuni lavoratori potrebbero aiutare i robot che puliscono il pavimento a riconoscere mobili o altri ostacoli. Altri potrebbero raccogliere ed etichettare vari modi di dire “25 gradi Celsius” per aiutare un software a riconoscere meglio i comandi vocali che controllano un condizionatore», scrive Sarah Dai sul South China Morning Post. Guru Banavar, ex capo di una divisione tecnologica di IBM, lo spiegava già in un articolo uscito nel 2016 su TechRepublic. «Se si guarda a uno qualsiasi dei complicatissimi progetti di analisi dati che si fanno oggi, si scopre che il 70 per cento del lavoro consiste probabilmente nell’organizzare e “pulire” i dati». Lavoro sporco, in sostanza, che non richiede nessuna delle qualifiche che contraddistinguono un data scientist o un data analyst.

«Senza il labelling (etichettatura), non puoi insegnare a una macchina nuovi compiti – aggiungeva Banavar –. Poniamo si voglia insegnare a un software a riconoscere aeroplani, e che si abbia a disposizione un milione di foto: alcune di esse ritraggono anche aeroplani, altre no. C’è bisogno di qualcuno che dica al computer quali foto hanno gli aeroplani e quali no, altrimenti il software non saprà da dove cominciare». Sembra assurdo, eppure non dobbiamo mai dimenticare una regola fondamentale che distingue nettamente le abilità delle macchine da quelle dell’uomo. La riassume Banavar: «[Per un computer] le cose difficili sono facili, quelle facili sono difficili. Per un computer è molto più semplice risolvere un’equazione differenziale, piuttosto che capire perché, per esempio, le automobili devono sempre poggiare per terra».

Accennavamo al fatto che la maggior parte degli “etichettatori” che spiegano il mondo alle intelligenze artificiali si trova in Cina. Purtroppo questo riflette la tendenza diffusa nel Paese asiatico a basare lo sviluppo economico sullo sfruttamento delle ampie sacche di povertà diffuse nel Paese. Spesso queste strategie sono favorite da politiche di sviluppo finanziate dal governo, che spingono gli imprenditori a concentrare i propri investimenti su un certo territorio. Il risultato è che si dà un lavoro a persone che prima non ne avevano. Il problema è che queste lavoreranno molte ore, per una paga che difficilmente arriva ai 2 euro l’ora.

Il sito Sixth Tone ha visitato la data farm di Guizhou, e vi ha trovato centinaia di studenti, affiancati su lunghe file, impegnati a etichettare foto e analizzare frammenti audio per otto ore al giorno. È anche grazie a loro se sempre più persone nel mondo salgono su auto che si guidano da sole o utilizzano oggetti che “capiscono” cosa devono fare prima che glielo chiedano. È il lato meno sexy della data science, ma non per questo possiamo fare finta che non esista.

(Foto di Joshua Rodriguez su Unsplash)