Correzione dell'OCR per Corpus-assisted Discourse Studies: un caso di studio su vecchi quotidiani

Dario Del Fante; Giorgio Maria Di Nunzio

doi:10.6092/issn.2532-8816/13689

Autori

Dario Del Fante Istituto di Linguistica Computazionale “A.Zampolli” - Consiglio Nazionale delle Ricerche
Giorgio Maria Di Nunzio Università di Padova http://orcid.org/0000-0001-9709-6392

DOI:

https://doi.org/10.6092/issn.2532-8816/13689

Parole chiave:

Corpus-assisted Discourse Studies, OCR detection, OCR correction, OCR post-processing, Text Mining

Abstract

L'uso di software di riconoscimento OCR per convertire i caratteri stampati in testo digitale è uno strumento fondamentale per quanto riguarda l'ambito di studio degli approcci diacronici all’analisi del discorso politico attraverso i corpora (CADS studies). Tuttavia, i software OCR non sono totalmente affidabili, e il loro tasso di fallibilità può compromettere l'analisi. Questo articolo propone un approccio qualitativo-quantitativo al rilevamento e alla correzione degli errori post scansione OCR al fine di sviluppare una metodologia per migliorare la qualità dei corpora all’interno degli studi storici. Abbiamo applicato la metodologia sviluppata a due casi di studio su giornali dell'inizio del XX secolo per l'analisi linguistica delle rappresentazioni metaforico delle migrazioni e delle pandemie. Il risultato di questo progetto consiste in un insieme di regole che sono valide per diversi contesti e applicabili a diversi corpora e che possono essere riutilizzate. La procedura proposta, in termini di leggibilità computazionale, ha lo scopo di rendere più leggibile e ricercabile la vasta gamma di corpora di testi storici che sono, al momento, solo parzialmente utilizzabili dato l'alto tasso di errore derivante da un software di riconoscimento OCR.

Correzione dell'OCR per Corpus-assisted Discourse Studies: un caso di studio su vecchi quotidiani

Autori

DOI:

Parole chiave:

Abstract

Downloads

Pubblicato

Come citare

Fascicolo

Sezione

Licenza

Lingua

Fai una proposta

Ultimo numero