Vai al contenuto

SingleScenes – Un Benchmark per Sceneggiature scritte da IA

Valutare le capacità creative ed intelligenti dei Large Language Models è una task difficile che oggigiorno viene eseguita per mezzo dei cosidetti “benchmarks”, cioè piccoli test su tematiche specifiche dove poter confrontare le risposte di LLM e tecniche di prompting diverse. Ad oggi non esistono benchmarks per la scrittura di sceneggiature ed altri test per la scrittura creativa sono molto limitati.

Nello spirito pioniere di SophIA abbiamo deciso di fare la nostra piccola parte progettando e pubblicando una primissima bozza di benchmark per la scrittura di sceneggiature: SingleScenes.

SingleScenes è un benchmark in lavorazione che mira a fornire un punto di riferimento per tutti tecnici e artisti che desiderano applicare i modelli generativi di testo per fini di scrittura cinematografica creativa. Partendo da sceneggiature concesse in utilizzo dal The Internet Movie Database (stiamo lavorando anche a recuperare sceneggiature in italiano!) il benchmark propone una semplice challange per ogni film presente: a partire da un riassunto delle scene in sceneggiatura viene chiesto al modello di ricreare lo script originale. Infine, tramite un LLM o un giudice umano, viene determinato quale dei due testi (originale e sinetico) è preferibile. La percentuale dei testi prodotti dal LLM “sceneggiatore” determina il punteggio ottenuto del sistema sul benchmark.

Tramite questo semplice sistema comparativo (non possiamo rivelare il prompt usato dai LLM “critici” per ovvie ragioni) ipotizziamo di poter misurare due cose:

  1. La capacità dei LLM di produrre sceneggiature interessanti e creative.
  2. La capacità dei LLM di valutare sceneggiature interessanti e creative.

SingleScenes è un primo esperimento che richiederà diverso lavoro per essere ottimizzato. Appaiono evidenti diversi limiti del processo di valutazione proposto (es. un LLM che scrive ottime singole scene non è detto che sappia scrivere sceneggiature intere), confidiamo nelle nostre capacità di proseguire ed aggiornare il progetto in base a gli insights che otterremo dai partecipanti di volta in volta.

(Per ottenere i riassunti che in alcune scene prevedevano riferimenti sessuali o alla violenza abbiamo dovuto utilizzare modelli locali come Mistral Instruct che non hanno certi limiti e, forse, presentano maggiori capacità creative!)

Potete ispezionare il benchmark e partecipare nelle challanges qui.