L’any de la dada

“Necessito una apocalipsi o, com a mínim unes vacances”. Amb aquesta frase comença la novel·la de “L’any de la plaga” (2010) de Marc Pastor. Un dels millors inicis de llibre que recordo i des de gener una veu dins del meu cap. Vist des del 2020 el llibre resulta estranyament premonitori: una invasió que arriba d’Àsia que es comença a manifestar en la gent gran i que acaba paralitzant el planeta. Avui ho tenim tot: plaga, apocalipsi i vacances.

L’edició del 2017 ocupa la posició 98.018 de llibres més venuts a Amazon.es, la 6.847 de llibres en català.

Per damunt seu hi trobem una biografia de Barack Obama. No em refereixo a “A Promised Land” de 751 pàgines i que ocupa la primera posició a Amazon, sinó a un llibre d’University Press intitulat “The Biography of Barack Obama” de 61 pàgines. El llibre ocupa la posició 20.611 a Amazon.es i la 44.044 a Amazon.com. El llibre pertany a una col·lecció de biografies entre les que hi trobem les de Joe Biden, Donald Trump, Dolly Parton, Bruce Lee i Pablo Escobar. Des del febrer del 2019 University Press ha publicat 55 llibres en aquest format.

Deu anys, cinc iteracions de la llei de Moore, 228 zettabytes i un humà separen aquest llibre de “L’any de la plaga” (1 zettabyte són 1.000 milions de terabytes i l’humà és el Marc Pastor).

Sí, “The Biography of Barack Obama” és un llibre que ha estat escrit per un sistema d’intel·ligència artificial. El resultat és un llibre ben estructurat, amb una prosa plana que en algun tram provoca una sensació estranya de tan previsible (trets que d’altra banda comparteix amb molts autors humans). Tot i això el llibre es llegeix bé i en vint minuts el lector mancat de temps és capaç de conèixer el personatge.

En realitat el procés de generar un llibre és molt similar al d’escriure’l. Es comença amb una paraula o amb una frase i a continuació es tracta d’endevinar la paraula que un humà s’esperaria a continuació. És similar al que fem quan utilitzem el text predictiu del mòbil o quan deixem que l’autocompletar de Google ens acabi la frase a cercar. El text predictiu del mòbil endevina la paraula següent en base a allò que hi hem escrit prèviament i l’autocompletar de Google en base a les nostres cerques prèvies i les dels altres milions d’usuaris.

El Mare Nostrum va fer el seu debut literari com un personatge a Origin de Dan Brown. Ben aviat podria fer el seu debut com a autor.

De fet es pot fer poesia amb Google. Escriviu un inici de frase al camp de cerca i llegiu en veu alta les propostes que us hi apareixen. Sabent que cada vers es genera amb les cerques —les preocupacions— de milions de persones, l’exercici resulta més profund del que podria semblar a primera vista. Proveu d’escriure “La vida es” al camp de cerca de Google i meravelleu-vos. També podeu provar de generar textos dadaistes a partir de seleccionar sempre la paraula del mig del text predictiu del mòbil.

Si bé el mecanisme de generació d’un llibre és essencialment aquest, el que marca la diferència és el conjunt de paraules disponibles a l’hora seleccionar-ne una i el criteri al moment d’escollir-la. A l’any de “L’any de la plaga” els grans corpus lingüístics —biblioteques, diccionaris, enciclopèdies— només eren accessibles a universitats, institucions de recerca i grans corporacions. Amb l’arribada de la web oberta primer, i la web social i la mòbil després, la quantitat de dades de les que disposem per compilar un corpus a l’abast de tothom i alhora inabastable. Als corpus de sempre els podem afegir webs, diaris, la Viquipèdia, Twitter, Facebook i en general qualsevol text publicat en obert, amb els problemes de qualitat que comporta. Els zettabytes de dades que hem generat en els darrers deu anys són un bé comú no sotmès a la tragèdia dels comuns, només calen prou recursos per minar-lo.

Aquesta és la feina que està fent l’experta en mineria de text Marta Villegas del Barcelona Super Computing Center amb el superordinador Mare Nostrum per al projecte Aina. Aina és un projecte del Departament de Polítiques Digitals de la Generalitat de Catalunya que té com a objectiu dotar la llengua catalana d’un corpus lingüístic que puguin fer servir traductors automàtics, generadors de text i assistents de veu El Mare Nostrum amb l’equivalent a 2.000 hores de feina de processador (ho pot fer en unes hores) ha construït el corpus més gran mai creat en llengua catalana: 1.770 milions de paraules amb les seves corresponents metadades. Les fonts que ha utilitzat són: la web oberta, la Viquipèdia, l’ACN, el DOGC i les 500 webs més rellevants del domini .cat.

El superordinador Mare Nostrum 4 al Barcelona Supercomputing Center.

I si per compilar, catalogar i desbrossar aitals volums d’informació cal un supercomputador com el Mare Nostrum, per entrenar una xarxa neuronal i crear un model de llenguatge, en cal un altre. El GPT-3 és un model de llenguatge de l’empresa OpenAI, un model que fa això del text autopredictiu del mòbil però del futur. Literalment. Ha après tot el que sap llegint parts enormes de la web oberta, el que li permet completar qualsevol frase relacionada amb Barack Obama, Marc Pastor i amb tothom que tingui un perfil públic.

Però al mateix fer ha après les regles de creació; ha après els mecanismes que hi ha darrera l’escriptura, la traducció, l’aritmètica, la geometria, la programació, la cuina, els acudits, els sil·logismes, les entrevistes de feina, els CV o la poesia de Shakespeare. Això vol dir que no només sap completar frases del tipus “El segon llibre del Marc Pastor és…” sinó que en podria escriure un a partir de “Necessito una apocalipsi o, com a mínim unes vacances”, això sí, l’hi hauríem de traduir a l’anglès abans. El GPT-3 no només ha après a pescar el peix, sinó que ha aprés a dissenyar la canya, la barca , la xarxa, i el buc de pesca amb procés d’ultracongelació en alta mar.

El GPT-3 és el model de llenguatge més complex que existeix. La seva xarxa neuronal consta de 175 mil milions de paràmetres (penseu en dials com els de la ràdio) que s’han d’ajustar amb un entrenament costosíssim a l’abast de pocs: el model ocupa 350GB de memòria i un entrenament equivalent amb processadors al núvol sortiria per uns 4 milions d’euros.

El model utilitzat per University Press per a generar el llibre sobre Barack Obama no és ni de lluny tan sofisticat com el GPT-3 i malgrat tot aconsegueix fer una feina decent a l’hora de resumir-nos la biografia del personatge.

Em faria molt feliç poder llegir algun dia la biografia del Marc Pastor escrita per Universtity Press, però res no em faria més feliç que poder llegir la segona part del seu “L’any de la plaga”, aquest cop escrita pel Mare Nostrum amb el corpus de l’Aina. Si el model de llenguatge és prou espavilat segur que el titularà “L’any de la dada”.

ganyet.cat

Josep M. Ganyet

Butlletí

L’any de la dada

L’estat contra Darwin

L’any de l’exponent

Josep M. Ganyet

Butlletí