Testi in maschera: nuovi strumenti per la sicurezza e l’analisi linguistica di corpora giuridici
DOI:
https://doi.org/10.6092/issn.2532-8816/15608Parole chiave:
AIUCD2022, linguistica giuridica, scrittura forense, pseudonimizzazione, Pythia, TEIAbstract
Il progetto Atti Chiari, volto a raccogliere il primo grande corpus italiano di atti di parte, presenta stringenti requisiti di ordine legale e numerose peculiarità sul piano della lingua e dei contenuti, che hanno reso necessario progettare e implementare una serie di processi e di strumenti ad hoc. In particolare, al fine di eliminare ogni dato personale dai documenti, senza tuttavia distruggerne il tessuto linguistico e comprometterne la leggibilità, si è creata una procedura di pseudonimizzazione basata su un preliminare stadio di annotazione, che aggiunge informazione per poterla poi rimuovere in modo diverso a seconda dei fini (analisi linguistica, analisi giuridica, ecc.). Nel contempo, questa leggera annotazione contribuisce a fornire dati funzionali non solo alla pseudonimizzazione del testo, ma anche alla sua conversione dal loro originale formato di presentazione a uno semantico basato su TEI. I documenti così preparati vengono poi centralizzati in un corpus, destinato a indicizzazione a scopo di ricerca linguistica. Dati i molteplici criteri di ricerca di cui si richiede la combinazione, quale che sia la loro provenienza e modello, è stato utilizzato un nuovo tipo di motore di ricerca, disegnato anzitutto in ambito filologico, per ottenere la necessaria apertura e granularità dei metadati.
Downloads
Pubblicato
Come citare
Fascicolo
Sezione
Licenza
Copyright (c) 2023 Laura Clemenzi, Francesca Fusco, Daniele Fusi, Giulia Lombardi
Questo lavoro è fornito con la licenza Creative Commons Attribuzione 4.0 Internazionale.