Correzione dell'OCR per Corpus-assisted Discourse Studies: un caso di studio su vecchi quotidiani

Autori

  • Dario Del Fante Istituto di Linguistica Computazionale “A.Zampolli” - Consiglio Nazionale delle Ricerche
  • Giorgio Maria Di Nunzio Università di Padova http://orcid.org/0000-0001-9709-6392

DOI:

https://doi.org/10.6092/issn.2532-8816/13689

Parole chiave:

Corpus-assisted Discourse Studies, OCR detection, OCR correction, OCR post-processing, Text Mining

Abstract

L'uso di software di riconoscimento OCR per convertire i caratteri stampati in testo digitale è uno strumento fondamentale per quanto riguarda l'ambito di studio degli approcci diacronici all’analisi del discorso politico attraverso i corpora (CADS studies). Tuttavia, i software OCR non sono totalmente affidabili, e il loro tasso di fallibilità può compromettere l'analisi. Questo articolo propone un approccio qualitativo-quantitativo al rilevamento e alla correzione degli errori post scansione OCR al fine di sviluppare una metodologia per migliorare la qualità dei corpora all’interno degli studi storici. Abbiamo applicato la metodologia sviluppata a due casi di studio su giornali dell'inizio del XX secolo per l'analisi linguistica delle rappresentazioni metaforico delle migrazioni e delle pandemie. Il risultato di questo progetto consiste in un insieme di regole che sono valide per diversi contesti e applicabili a diversi corpora e che possono essere riutilizzate. La procedura proposta, in termini di leggibilità computazionale, ha lo scopo di rendere più leggibile e ricercabile la vasta gamma di corpora di testi storici che sono, al momento, solo parzialmente utilizzabili dato l'alto tasso di errore derivante da un software di riconoscimento OCR.

Pubblicato

2022-01-25

Come citare

Del Fante, D., & Di Nunzio, G. M. (2021). Correzione dell’OCR per Corpus-assisted Discourse Studies: un caso di studio su vecchi quotidiani. Umanistica Digitale, 5(11), 99–124. https://doi.org/10.6092/issn.2532-8816/13689