Sora di OpenAI addestrato con i video di Netflix?

Sora è uno dei migliori modelli text-to-video sul mercato. Quando è stato annunciato da OpenAI all’inizio di dicembre 2024 sono stati mostrati video quasi fotorealistici (anche se con alcuni evidenti errori). Il Washington Post ha scoperto che potrebbero essere stati utilizzati i contenuti di Netflix, TikTok e Twitch per l’addestramento.

Addestramento solo con dati pubblici?

Al momento dell’annuncio, OpenAI ha comunicato che l’addestramento di Sora è avvenuto con dati pubblici e dati ottenuti in licenza, senza specificare chiaramente le fonti. Il Washington Post (che ha una collaborazione con l’azienda californiana) ha generato centinaia di video, scoprendo che molti sono simili a quelli mostrati in film, serie TV, giochi e social media.

Alcuni video generati da Sora (circa 20 secondi senza audio) sembrano clip prese da serie TV di Netflix (Mercoledì), giochi molto popolari (Minecraft) e TikTok. Nei video finali ci sono anche logo e watermark delle aziende che offrono i contenuti originali. Ciò conferma che sono stati utilizzati per l’addestramento del modello.

Non è detto però che i contenuti siano stati copiati o ottenuti dal proprietario. Potrebbe essere stati “prelevati” da piattaforme di condivisione video (come YouTube) o dai social media, sui quali sono stati caricati senza consenso del titolare del copyright. I portavoce di Netflix e Twitch hanno dichiarato che le rispettive aziende non hanno accordi con OpenAI.

I termini di YouTube vietano il download dei video. L’anno scorso, un gruppo di creatori ha denunciato OpenAI perché le trascrizioni audio dei video sono state utilizzate per l’addestramento del modello usato da ChatGPT. L’azienda californiana ha ricevuto varie denunce per l’uso di libri, articoli e altri fonti. OpenAI non ha ancora ricevuto una denuncia per i dati usati per l’addestramento di Sora, probabilmente perché la qualità finale è bassa.

Fonte: The Washington Post