Correzione dell'OCR per Corpus-assisted Discourse Studies: un caso di studio su vecchi quotidiani
DOI:
https://doi.org/10.6092/issn.2532-8816/13689Parole chiave:
Corpus-assisted Discourse Studies, OCR detection, OCR correction, OCR post-processing, Text MiningAbstract
L'uso di software di riconoscimento OCR per convertire i caratteri stampati in testo digitale è uno strumento fondamentale per quanto riguarda l'ambito di studio degli approcci diacronici all’analisi del discorso politico attraverso i corpora (CADS studies). Tuttavia, i software OCR non sono totalmente affidabili, e il loro tasso di fallibilità può compromettere l'analisi. Questo articolo propone un approccio qualitativo-quantitativo al rilevamento e alla correzione degli errori post scansione OCR al fine di sviluppare una metodologia per migliorare la qualità dei corpora all’interno degli studi storici. Abbiamo applicato la metodologia sviluppata a due casi di studio su giornali dell'inizio del XX secolo per l'analisi linguistica delle rappresentazioni metaforico delle migrazioni e delle pandemie. Il risultato di questo progetto consiste in un insieme di regole che sono valide per diversi contesti e applicabili a diversi corpora e che possono essere riutilizzate. La procedura proposta, in termini di leggibilità computazionale, ha lo scopo di rendere più leggibile e ricercabile la vasta gamma di corpora di testi storici che sono, al momento, solo parzialmente utilizzabili dato l'alto tasso di errore derivante da un software di riconoscimento OCR.Downloads
Pubblicato
2022-01-25
Come citare
Del Fante, D., & Di Nunzio, G. M. (2021). Correzione dell’OCR per Corpus-assisted Discourse Studies: un caso di studio su vecchi quotidiani. Umanistica Digitale, 5(11), 99–124. https://doi.org/10.6092/issn.2532-8816/13689
Fascicolo
Sezione
Dossier
Licenza
Copyright (c) 2021 Dario Del Fante, Giorgio Maria Di Nunzio
Questo lavoro è fornito con la licenza Creative Commons Attribuzione 4.0 Internazionale.