A Benchmark Corpus for Topic Modeling on the Origins of Modern Antisemitism

Giorgia Minello; Deborah Paci

doi:10.6092/issn.2532-8816/14767

Autori

Giorgia Minello Università Ca' Foscari Venezia
Deborah Paci Università di Modena e Reggio Emilia

DOI:

https://doi.org/10.6092/issn.2532-8816/14767

Parole chiave:

Corpus, Benchmark dataset, NLP, Topic Model, Anti-Semitism, Drumont

Abstract

Negli ultimi anni il ritmo di accumulazione della conoscenza collettiva digitalizzata è divenuto sempre più rapido. Ciò significa che abbiamo enormi quantità di contenuto informativo da organizzare, ricercare e analizzare: una serie di compiti che possono essere svolti soltanto impiegando metodi automatici. Nel caso dell'analisi dei dati testuali, il topic modeling, un metodo di apprendimento automatico, è sicuramente la via più nota per cogliere gli argomenti latenti all’interno dei testi. L'adozione di approcci di topic modeling per lo studio delle fonti testuali è una pratica consolidata in molti campi di studi scientifici e umanistici, incluso quello della ricerca storica. In questo articolo presentiamo un benchmark per il topic modeling, un dataset contenente una collezione di testi annotati incentrati sul tema dell'antisemitismo nella Francia del XIX secolo. Il benchmark è stato sviluppato per affrontare un compito specifico di apprendimento automatico, ma può anche consentire il miglioramento di altri studi basati sull'elaborazione del linguaggio naturale, in particolare, quelli riguardanti l’ambito storico.

Un benchmark per il topic modeling sulle origini dell’antisemitismo moderno

Autori

DOI:

Parole chiave:

Abstract

Downloads

Pubblicato

Versioni

Come citare

Fascicolo

Sezione

Licenza

Lingua

Fai una proposta

Ultimo numero