Generative Art: orizzonti e limiti delle AI “creative”

Scritto da Neosperience | 01 settembre 2022

In copertina: Dall-E Mini, “Generative Art About Empathy In Blue Tones”, medium digitale, 2022

Può una macchina generare opere d’arte in autonomia? Se sì, qual è il futuro della produzione artistica nel momento in cui non è più un’esclusiva dell’umanità?

Dai bizzarri accostamenti di immagini creati da Dall-E Mini al mercato degli NFT: le immagini generate da algoritmi di Intelligenza Artificiale stanno entrando sempre di più nell’immaginario comune. Al tempo stesso questa stretta intersezione tra arte e tecnologia solleva diversi interrogativi.

Può una macchina generare opere d’arte in autonomia? Se sì, qual è il futuro della produzione artistica nel momento in cui non è più un’esclusiva dell’umanità? Quali sono i limiti e i rischi, ma anche le potenzialità, di questo tipo di arte?

Cos’è la Generative Art?

La Generative Art è un tipo di arte, nella maggior parte dei casi visiva, che si basa sulla cooperazione tra un essere umano e un sistema autonomo. Per “sistema autonomo” si intende un software, algoritmo o modello di IA in grado di eseguire operazioni complesse senza bisogno dell’intervento del programmatore.

La casualità (randomness) è una proprietà fondamentale della Generative Art. A seconda del tipo di software il sistema autonomo è in grado di elaborare risultati sempre diversi e unici ogni volta che si esegue il comando di generazione, o può restituire un numero variabile di risultati in risposta all’input dell’utente.

I primi esperimenti di Generative Art risalgono agli anni Sessanta con gli esperimenti di Harold Cohen e del suo programma AARON. Cohen utilizzò per primo software autonomi per generare opere d’arte astratte e ispirate alle serigrafie della Pop Art. Le opere di Cohen sono oggi esposte alla Tate Gallery di Londra.

Un altro attributo della Generative Art, che però rappresenta sempre meno una prerogativa, è la ripetizione di pattern o elementi astratti forniti dal programmatore e implementati all’interno del codice del software.

Lo sviluppo di reti neurali sempre più complesse che operano sull’associazione testo-immagine ha permesso d’altra parte lo sviluppo di modelli generativi in grado di creare immagini sempre più realistiche e accurate. L’esempio più noto di questa categoria di Generative Art è Dall-E.

Dall-E e CLIP: la rivoluzione nel riconoscimento per immagini

Dall-E è un una rete neurale multimodale basata sul modello di deep learning GPT-3 di OpenAI. Questo sistema è capace di generare immagini a partire da una descrizione testuale sulla base di un dataset di coppie testo-immagine.

La prima versione di Dall-E, presentata al pubblico a gennaio del 2021 e rimasta prerogativa di un numero ristretto di professionisti del settore, ha rappresentato una vera e propria rivoluzione per quanto riguarda questo tipo di modelli generativi, superando le innovazioni dello stesso GPT-3.

Dall-E è infatti in grado di generare immagini plausibili da una grande varietà di frasi e prompt testuali, anche caratterizzati da una struttura linguistica composita. Il modello di OpenAI si dimostra in grado di comprendere e realizzare:

La struttura prospettica dell’immagine
La struttura interna ed esterna di un oggetto
Confronti e sequenze tra diverse immagini
La collocazione spazio-temporale degli oggetti.

L’accuratezza dei risultati elaborati da Dall-E si è rivelata il campo di applicazione perfetto per un’altra soluzione di OpenAI: CLIP (Contrastive Language–Image Pre-training), una rete neurale di classificazione e ranking di immagini addestrata sulla base di associazioni testo-immagine, come le didascalie presenti su Internet.

Grazie all’intervento di CLIP, che riduce a 32 il numero di risultati proposti all’utente per ogni prompt, Dall-E si è rivelata in grado di restituire immagini soddisfacenti nella maggior parte dei casi. I risultati ottenuti sono tuttavia di qualità bassa e presentano ancora evidenti limiti nell’elaborazione di alcuni tipi di associazioni logiche tra elementi, come la collocazione all’interno di uno spazio.

Dall-E Mini conquista Internet

Nel mondo dell’arte l’imitazione è la forma più sincera di complimento. OpenAI non ha mai reso pubblico il codice di DALL-E, ma ci sono voluti solo pochi mesi prima che comparisse una versione meno raffinata della rete neurale, basata tuttavia sugli stessi principi di associazione e combinazione di immagini appartenenti a un database di circa 30 milioni di elementi.

Si tratta di Dall-E Mini, un progetto del developer americano Boris Dayma rilasciato sulla piattaforma di hosting open-source HuggingFace. Resa disponibile a tutti sotto forma di una semplice web app nella primavera del 2022, Dall-E Mini è presto diventata, per definizione della testata Wired, “Internet’s favorite meme machine”.

La possibilità di generare 9 immagini in bassa risoluzione a partire da qualunque prompt, anche i più bizzarri, ha scatenato la fantasia degli utenti, che si sono divertiti a creare combinazioni divertenti e surreali e a condividerle su piattaforme come Twitter e Reddit.

In poche settimane Dall-E si è trovata a elaborare circa 50mila immagini al giorno e ha attirato l’attenzione di utenti normalmente poco interessati agli sviluppi dell’Intelligenza Artificiale, fornendo allo stesso tempo ai professionisti diversi spunti di riflessione sull’applicazione di queste tecnologie su più vasta scala.

Limiti e autoimposizioni della Generative Art

Il grado di popolarità raggiunto da Dall-E Mini ha aperto fin da subito interrogativi sui possibili rischi che si possono nascondere nella Generative Art, in particolare per quanto riguarda i modelli in grado di elaborare immagini contenenti persone e oggetti reali.

Le immagini elaborate da Dall-E Mini hanno un aspetto inconfondibile: spesso i contorni dei soggetti sono poco definiti o distorti, mentre i volti umani sono quasi sempre deformati al punto da non essere più riconoscibili. Nella maggior parte dei casi, dunque, la natura artificiale delle immagini generate è ben chiara all’utente, così da ridurre al minimo la probabilità di generare deepfake con intenti malevoli.

Ciononostante, la natura open-source di Dall-E Mini e la vasta quantità di prompt inseriti dagli utenti hanno ben presto fatto emergere la necessità di regolamentare i risultati generati dalla rete neurale. Il database di Dall-E blocca le parole chiave più esplicite o violente: un sistema che, anche se ancora imperfetto, permette agli sviluppatori di mantenere sotto controllo i risultati restituiti all’utente.

D’altra parte, come accade per ogni Intelligenza Artificiale, all’interno di Dall-E e della sua versione Mini si annidano pregiudizi e bias sociali comuni agli esseri umani che hanno sviluppato queste tecnologie.

La rete neurale di OpenAI, per esempio, riflette gli stereotipi più superficiali sul cibo o sulla popolazione di un luogo quando i prompt contengono indicazioni geografiche; Dall-E Mini restituisce invece solo immagini di uomini al prompt “medico” e di donne al prompt “infermiere” (n.d.r. entrambi i termini sono di genere neutro in lingua inglese).

Tornando invece alle problematiche relative alla privacy, l’eventualità che la Generative Art possa mettere a repentaglio la sicurezza degli individui ritratti assume carattere di maggiore urgenza se si considera lo sviluppo di reti neurali sempre più avanzate, in grado di restituire risultati di qualità più alta e dai dettagli più precisi rispetto a Dall-E.

Dall-E 2, la seconda generazione della rete neurale di OpenAI presentata ad aprile 2022, cerca anch’essa di ridurre questo tipo di rischi rafforzando le regole di filtraggio dei dati di addestramento del sistema e delle parole chiave accettate. I pochi professionisti che finora hanno ottenuto accesso a Dall-E 2 rispondono inoltre a norme ancora più rigide, almeno finché le capacità e i limiti della nuova tecnologia saranno ancora in fase di test.

Dall-E 2, verso un modello subscription-based

Come già anticipato nel paragrafo precedente, in poco più di un anno i progressi nell’ambito della Generative Art sono stati sostanziali: Dall-E 2 è infatti in grado di generare immagini ancora più realistiche e accurate con una risoluzione quattro volte superiore alla prima generazione.

I miglioramenti di Dall-E 2 si concentrano soprattutto sulla combinazione di concetti, attributi e stili artistici. La rete neurale può ora apportare diverse modifiche a immagini pre-esistenti a partire da una descrizione in linguaggio naturale, aggiungendo o spostando elementi all’interno di una scena, ma anche creando variazioni a partire da un soggetto o un’opera originale.

Dopo un periodo iniziale di accesso limitato, OpenAI è pronta a rilasciare Dall-E 2 in beta al primo milione di utenti in lista d’attesa. Al contrario di quanto accaduto con la prima versione, tuttavia, il consorzio fondato tra gli altri da Elon Musk e finanziato da Microsoft è pronto ad adottare un modello subscription-based strutturato in base a crediti.

Nello specifico, ogni utente della beta di Dall-E 2 riceverà un numero predefinito di crediti (50 all’iscrizione e 15 ogni mese seguente), ciascuno dei quali equivarrà a un’immagine generata dalla rete neurale. Una volta esauriti i crediti, gli utenti potranno acquistare un pacchetto da 115 crediti al costo di 15 dollari.

Generative Art: applicazioni presenti e future

Dalle bizzarre creazioni di Dall-E Mini, condivise ironicamente sul Web, a vere e proprie opere d’arte vendute all’asta per cifre astronomiche, la Generative Art sta raggiungendo negli ultimi anni un pubblico sempre più vasto.

Le immagini generate saranno per la prima volta utilizzabili per scopi commerciali oltre che personali. Gli utenti in lista d’attesa, spiega OpenAI, hanno già intenzione di utilizzare le immagini generate da Dall-E 2 per diversi tipi di progetti, tra cui alcuni più tradizionali:

Illustrazioni di libri per bambini
Concept art e storyboard per videogiochi e film
Moodboard per le consulenze in ambito design.

Uno degli sbocchi commerciali più fruttuosi per questo tipo di arte “nativa digitale” è tuttavia rappresentato senza dubbio dal mercato degli NFT.

Le immagini generate dalle reti neurali, combinate e rielaborate da artisti multimediali o proposte così come l’algoritmo le ha generate, possono essere caricate su blockchain e messe in vendita su marketplace come OpenSea o su piattaforme per la gestione indipendente dei propri token non fungibili, come ad esempio NFT Commerce.

D’altra parte, i risultati ottenuti da reti neurali come Dall-E assumono una grande importanza non solo per il loro valore estetico, ma anche per l’utilizzo in svariate applicazioni pratiche. Proprio sulla ricerca per immagine si sono concentrati gli sforzi di Google, che ha annunciato lo sviluppo di due AI dal funzionamento simile a quello di Dall-E, Imagen e Parti, nessuna delle quali è stata ancora condivisa con il pubblico.

Generative Art (?)

L’entrata in campo delle Intelligenze Artificiali ha aperto, all’interno della storia dell’arte, un capitolo ancora in gran parte da scrivere.

Già negli scorsi decenni la Pop Art ha sdoganato la serialità dei processi industriali all’interno delle arti visive, mentre il postmodernismo ha sciolto i nodi della società di massa in un ironico gioco di combinazioni. Ancora prima il Dadaismo ha invece contrapposto all’intenzione creativa la casualità giocosa delle libere associazioni.

Dal punto di vista culturale la Generative Art inserisce un’altra fondamentale variabile a questa cronologia: l’autonomia dello strumento rispetto all’autore. Questa autonomia mette in crisi e fa sorgere domande su alcuni punti essenziali.

Paternità dell’opera

La paternità dell’opera è una questione aperta nel mondo dell’arte contemporanea. Lo dimostra la recente causa intentata a Maurizio Cattelan da parte di Daniel Druet, scultore che ha realizzato alcune delle installazioni più famose dell’artista senza mai comparire tra i crediti o nei cataloghi.

Se un’opera di arte visuale è generata da un’Intelligenza Artificiale, la paternità dell’opera spetta a quest’ultima, ai professionisti che l’hanno sviluppata o all’artista digitale che ha fornito il prompt? Infatti come può un dataset di associazioni testo-immagine, essere considerato un adeguato corrispettivo della facoltà di immaginazione?

Modelli a subscription

La produzione stessa delle Generative Art coinvolge inoltre modelli di business ancora in via di definizione. Il modello subscription-based è al momento quello più utilizzato nella creazione e distribuzione di contenuti, ma è anche quello che limita in misura maggiore l’indipendenza dello strumento e la libertà dei creativi.

Con una penna e un foglio un artista può creare ciò che vuole in libertà: la stessa cosa non avviene quando per dare voce alla propria creatività l’artista deve pagare mensilmente o “ad uso” una piattaforma di Generative Art, che peraltro può essere limitata e censurata da chi la gestisce.

I modelli a subscription sono complessi da gestire correttamente, proprio perché prevedono un continuo scambio di valore e libertà tra l’utente e l’azienda. Noi di Neosperience, dopo aver realizzato progetti sul tema con alcune delle aziende più importanti a livello nazionale e internazionale, offriamo le nostre competenze in materia attraverso sia un lavoro di business design, sia attraverso lo sviluppo di prodotti digitali dedicati.

Un’Intelligenza Artificiale libera da pregiudizi

Come abbiamo visto, per esaltare le potenzialità della Generative Art è necessario impiegare al meglio le specificità di questo mezzo nei diversi settori di applicazione; ma più di questo è essenziale progettare le intelligenze artificiali in modo empatico. È infatti possibile slegare i nostri pregiudizi come esseri umani dal codice che da vita alle Intelligenze Artificiali che andiamo a sviluppare?

Per raggiungere questo obiettivo occorre comprendere a fondo la natura ibrida della Generative Art, che chiama in causa tanto la cultura quanto la tecnologia. Sarà quindi necessario far dialogare in fase di progettazione data scientist e umanisti, per fornire alle intelligenze artificiali dataset capaci di produrre risultati spogli di preconcetti e al tempo stesso accurati e rappresentativi.

Visualizza articolo completo