Corpus Corporum: An Overview of the Current Development

Philipp Roelli

doi:10.60923/issn.2532-8816/23668

Autori

Philipp Roelli University of Zurich

DOI:

https://doi.org/10.60923/issn.2532-8816/23668

Parole chiave:

Linguistica computazionale, Letteratura latina, Banche dati

Abstract

Il progetto Corpus Corporum, ospitato dall’Università di Zurigo, costituisce la più ampia raccolta digitale strutturata di testi latini (dall’antichità al XX secolo) e comprende attualmente circa 226 milioni di parole distribuite in 30 corpora. Concepito come infrastruttura di ricerca ad accesso libero, il progetto offre a filologi, linguisti, storici e studiosi di latino un ambiente unificato per la lettura, la ricerca e l’analisi dei testi, che devono essere codificati in formato TEI XML. Importanti dizionari di Latino sono integrati nel sito. La piattaforma, basata su tecnologie open source quali BaseX, Sphinx e TreeTagger, mantiene una chiara distinzione tra i livelli di corpus, autore, opera ed edizione e integra identificatori persistenti (VIAF, Wikidata), nonché risorse esterne come geschichtsquellen.de. Nell’articolo vengono presentati gli sviluppi più recenti del sito, in particolare due nuovi strumenti di analisi: 'Text Reuse' e 'Metrical Analysis'. Il modulo 'Text Reuse' consente un’analisi intertestuale basata su algoritmi k-skip-n-gram, mentre il modulo 'Metrical Analysis' identifica automaticamente i metri dei versi latini. Tali innovazioni rendono possibili nuove indagini sulla trasmissione testuale e sulla struttura poetica dei testi. Viene brevemente discusso un caso studio tratto dalle Etymologiae di Isidoro di Siviglia. Gli sviluppi futuri prevedono la traduzione assistita dall’intelligenza artificiale, l’indicizzazione semantica e la ricerca basata sui sinonimi, accrescendo così il potenziale della piattaforma come risorsa completa e interoperabile per la filologia latina digitale e, più in generale, per il vasto ambito delle scienze umane computazionali.

Riferimenti bibliografici

[1] Jacobsen, Peter Christian, and Peter Orth. 2002. Materialien zu einem Lexikon der irregulären lateinischen Prosodie. Erlangen. https://kups.ub.uni-koeln.de/62924.

[2] Roelli, Philipp, and Jan Ctibor. 2022. "A New Version of Corpus Corporum, the Latin Full-Text Database and Tool". Archivum Latinitatis Medii Aevi (ALMA): Bulletin Du Cange 80 (3): 251–266. https://doi.org/10.5167/uzh-265929.

[3] Roelli, Philipp. 2025. "An Introduction and a Status-Report on the Latin Database Corpus Corporum". Indo-European Linguistics and Classical Philology 29 (2): 359–374. https://doi.org/10.5167/uzh-279205.

[4] Verkerk, Philippe. 2022. "Elaboration of a Practical Lemmatiser for Latin using Artificial Intelligence". Archivum Latinitatis Medii Aevi (ALMA): Bulletin Du Cange 80 (3): 267–294. https://hal.science/hal-04721577v1.

Corpus Corporum

Una panoramica dello sviluppo attuale

Autori

DOI:

Parole chiave:

Abstract

Riferimenti bibliografici

Downloads

Pubblicato

Come citare

Fascicolo

Sezione

Licenza

Lingua

Fai una proposta

Ultimo numero