Corpus Corporum
Una panoramica dello sviluppo attuale
DOI:
https://doi.org/10.60923/issn.2532-8816/23668Parole chiave:
Linguistica computazionale, Letteratura latina, Banche datiAbstract
Il progetto Corpus Corporum, ospitato dall’Università di Zurigo, costituisce la più ampia raccolta digitale strutturata di testi latini (dall’antichità al XX secolo) e comprende attualmente circa 226 milioni di parole distribuite in 30 corpora. Concepito come infrastruttura di ricerca ad accesso libero, il progetto offre a filologi, linguisti, storici e studiosi di latino un ambiente unificato per la lettura, la ricerca e l’analisi dei testi, che devono essere codificati in formato TEI XML. Importanti dizionari di Latino sono integrati nel sito. La piattaforma, basata su tecnologie open source quali BaseX, Sphinx e TreeTagger, mantiene una chiara distinzione tra i livelli di corpus, autore, opera ed edizione e integra identificatori persistenti (VIAF, Wikidata), nonché risorse esterne come geschichtsquellen.de. Nell’articolo vengono presentati gli sviluppi più recenti del sito, in particolare due nuovi strumenti di analisi: 'Text Reuse' e 'Metrical Analysis'. Il modulo 'Text Reuse' consente un’analisi intertestuale basata su algoritmi k-skip-n-gram, mentre il modulo 'Metrical Analysis' identifica automaticamente i metri dei versi latini. Tali innovazioni rendono possibili nuove indagini sulla trasmissione testuale e sulla struttura poetica dei testi. Viene brevemente discusso un caso studio tratto dalle Etymologiae di Isidoro di Siviglia. Gli sviluppi futuri prevedono la traduzione assistita dall’intelligenza artificiale, l’indicizzazione semantica e la ricerca basata sui sinonimi, accrescendo così il potenziale della piattaforma come risorsa completa e interoperabile per la filologia latina digitale e, più in generale, per il vasto ambito delle scienze umane computazionali.
Riferimenti bibliografici
[1] Jacobsen, Peter Christian, and Peter Orth. 2002. Materialien zu einem Lexikon der irregulären lateinischen Prosodie. Erlangen. https://kups.ub.uni-koeln.de/62924.
[2] Roelli, Philipp, and Jan Ctibor. 2022. "A New Version of Corpus Corporum, the Latin Full-Text Database and Tool". Archivum Latinitatis Medii Aevi (ALMA): Bulletin Du Cange 80 (3): 251–266. https://doi.org/10.5167/uzh-265929.
[3] Roelli, Philipp. 2025. "An Introduction and a Status-Report on the Latin Database Corpus Corporum". Indo-European Linguistics and Classical Philology 29 (2): 359–374. https://doi.org/10.5167/uzh-279205.
[4] Verkerk, Philippe. 2022. "Elaboration of a Practical Lemmatiser for Latin using Artificial Intelligence". Archivum Latinitatis Medii Aevi (ALMA): Bulletin Du Cange 80 (3): 267–294. https://hal.science/hal-04721577v1.
Downloads
Pubblicato
Come citare
Fascicolo
Sezione
Licenza
Copyright (c) 2026 Philipp Roelli

Questo lavoro è fornito con la licenza Creative Commons Attribuzione 4.0 Internazionale.