Vai al contenuto

Modelli LLM aperti con dataset trasparenti

Un autore ci scrive: “Vorrei partecipare al contest Cort-IA utilizzando però un modello “pulito”, addestrato con contenuti che non siano frutto di violazioni del diritto d’autore.”

Precisiamo che è difficile parlare di modelli “puliti” in toto, in quanto la perfetta tracciabilità è impossibile ma, nello stesso tempo, possiamo segnalare modelli che forniscono alcune garanzie sui dataset utilizzati. Sono modelli “leggeri” open source e open weights che sono in grado di girare anche in locale, su computer dotati di buon hardware (in particolare GPU).

Modello Dove trovarlo Numero parametri
GPT4All di Nomic AI GitHub / App desktop 3 – 13 mld (~6 mld tipico)
Granite 3.1 8B Instruct di IBM Hugging Face 8 mld
KL3M kl3m.ai (demo in arrivo) 170 mln – 3,7 mld
Mistral 7B Hugging Face / Sito Mistral 7,3 mld

La tabella è stata realizzata in collaborazione con chatGPT o3.