Testi in maschera: nuovi strumenti per la sicurezza e l’analisi linguistica di corpora giuridici

Autori

  • Laura Clemenzi Università degli Studi della Tuscia
  • Francesca Fusco Università degli Studi di Padova
  • Daniele Fusi Università degli Studi di Venezia Ca' Foscari - Venice Centre for digital and public humanities (VeDPH)
  • Giulia Lombardi Università di Genova

DOI:

https://doi.org/10.6092/issn.2532-8816/15608

Parole chiave:

AIUCD2022, linguistica giuridica, scrittura forense, pseudonimizzazione, Pythia, TEI

Abstract

Il progetto Atti Chiari, volto a raccogliere il primo grande corpus italiano di atti di parte, presenta stringenti requisiti di ordine legale e numerose peculiarità sul piano della lingua e dei contenuti, che hanno reso necessario progettare e implementare una serie di processi e di strumenti ad hoc. In particolare, al fine di eliminare ogni dato personale dai documenti, senza tuttavia distruggerne il tessuto linguistico e comprometterne la leggibilità, si è creata una procedura di pseudonimizzazione basata su un preliminare stadio di annotazione, che aggiunge informazione per poterla poi rimuovere in modo diverso a seconda dei fini (analisi linguistica, analisi giuridica, ecc.). Nel contempo, questa leggera annotazione contribuisce a fornire dati funzionali non solo alla pseudonimizzazione del testo, ma anche alla sua conversione dal loro originale formato di presentazione a uno semantico basato su TEI. I documenti così preparati vengono poi centralizzati in un corpus, destinato a indicizzazione a scopo di ricerca linguistica. Dati i molteplici criteri di ricerca di cui si richiede la combinazione, quale che sia la loro provenienza e modello, è stato utilizzato un nuovo tipo di motore di ricerca, disegnato anzitutto in ambito filologico, per ottenere la necessaria apertura e granularità dei metadati.

Downloads

Pubblicato

2023-12-14

Come citare

Clemenzi, L., Fusco, F., Fusi, D., & Lombardi, G. (2023). Testi in maschera: nuovi strumenti per la sicurezza e l’analisi linguistica di corpora giuridici. Umanistica Digitale, 7(16), 1–32. https://doi.org/10.6092/issn.2532-8816/15608

Fascicolo

Sezione

Articoli