Un benchmark per il topic modeling sulle origini dell’antisemitismo moderno
DOI:
https://doi.org/10.6092/issn.2532-8816/14767Parole chiave:
Corpus, Benchmark dataset, NLP, Topic Model, Anti-Semitism, DrumontAbstract
Negli ultimi anni il ritmo di accumulazione della conoscenza collettiva digitalizzata è divenuto sempre più rapido. Ciò significa che abbiamo enormi quantità di contenuto informativo da organizzare, ricercare e analizzare: una serie di compiti che possono essere svolti soltanto impiegando metodi automatici. Nel caso dell'analisi dei dati testuali, il topic modeling, un metodo di apprendimento automatico, è sicuramente la via più nota per cogliere gli argomenti latenti all’interno dei testi. L'adozione di approcci di topic modeling per lo studio delle fonti testuali è una pratica consolidata in molti campi di studi scientifici e umanistici, incluso quello della ricerca storica. In questo articolo presentiamo un benchmark per il topic modeling, un dataset contenente una collezione di testi annotati incentrati sul tema dell'antisemitismo nella Francia del XIX secolo. Il benchmark è stato sviluppato per affrontare un compito specifico di apprendimento automatico, ma può anche consentire il miglioramento di altri studi basati sull'elaborazione del linguaggio naturale, in particolare, quelli riguardanti l’ambito storico.
Downloads
Pubblicato
Versioni
- 2022-10-24 (2)
- 2022-10-21 (1)
Come citare
Fascicolo
Sezione
Licenza
Copyright (c) 2022 Giorgia Minello, Deborah Paci
Questo lavoro è fornito con la licenza Creative Commons Attribuzione 4.0 Internazionale.