Il Latin Text Archive. Una piattaforma per l'analisi semantica storica e il text mining
Un progetto pluriennale della serie Archivi testuali dell’Accademia delle Scienze e delle Lettere di Berlino-Brandeburgo (BBAW)
DOI:
https://doi.org/10.60923/issn.2532-8816/23548Parole chiave:
Text Mining, Lemmatizzazione, Latino medievale, Costruzione di corpora, Latino antico, Semantica storicaAbstract
Il Latin Text Archive (LTA) è una piattaforma online ospitata dalla Berlin-Brandenburg Academy of Sciences (BBAW) dal 2020 (https://LTA.bbaw.de). Il suo obiettivo principale è facilitare l’analisi semantica di testi e corpora latini appartenenti a epoche e generi differenti. Il LTA collabora con importanti provider di testi e con progetti affini nel settore. Le sue attività principali riguardano la preparazione editoriale post–filologica dei testi, fondamentale per l’applicazione di tecniche di text mining nella semantica storica basata su corpora. L’archivio lemmatizza e archivia testi latini, li arricchisce con metadati pertinenti e li organizza in corpora tematici o legati a specifici generi. I testi possono essere letti online e scaricati in diversi formati. Attualmente in versione beta, il LTA offre già 12.960 testi, prodotti da 1.280 autori identificati, per un totale di 54 milioni di parole. Inoltre, il LTA mette a disposizione il proprio lessico morfologico a supporto del processo di lemmatizzazione. Attraverso il 'Latin Universe', gli utenti possono anche accedere a testi curati solo parzialmente. Sia i testi sia i corpora sono interrogabili tramite strumenti di terze parti come 'Voyant-Tools' e tramite funzionalità integrate, come la query a serie temporali — che consente il confronto diacronico tra parole chiave e lemmi — e 'Diacollo', che analizza la co–occorrenza dei lemmi nel tempo.
Riferimenti bibliografici
[1] Brunner, Otto, Werner Conze, and Reinhart Koselleck. 1972–1992. Geschichtliche Grundbegriffe: Historisches Lexikon zur politisch-sozialen Sprache in Deutschland. Ernst Klett Verlag.
[2] Cimino, Roberta, Tim Geelhaar, and Silke Schwandt. 2015. “Digital Approaches to Historical Semantics: New Research Directions at Frankfurt University”. Storicamente 11 (7): 1-16. http://dx.doi.org/10.12977/stor594
[3] Eger, Steffen, Tim vor der Brück, and Alexander Mehler. 2015. “Lexicon-assisted tagging and lemmatization in Latin: A comparison of six taggers and two lemmatization methods”. In Proceedings of the 9th Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (Latech 2015). https://doi.org/10.18653/v1/W15-3716
[4] Geelhaar, Tim. 2025. “Hospitalitas: A Virtue in Danger: Semantic Observations on the Use of hospitalitas in Latin Narrative Sources, 1000–1400”. In Guests, Strangers, Aliens, Enemies: Ambiguities of Hospitality in the Middle Ages, c. 1000–1350, edited by Wojtek Jezierski, and Lars Kjaer, 39-73. Brepols. https://doi.org/10.1484/M.CURSOR-EB.5.149651
[5] Gippert, Jost. 2015. “Preface”. In Historical corpora. Challenges and perspectives, edited by Jost Gippert, and Ralf Gehrke, 9-12. Narr Dr. Gunter.
[6] Jussen, Bernhard, and Gregor Rohmann. 2015. “Historical Semantics in Medieval Studies. New Means and Approaches”. Contributions to the History of Concepts 10 (2): 1-6. https://doi.org/10.3167/choc.2015.100201.
[7] Jussen, Bernhard, and Karl Ubl. 2022. “Die Sprache der Kapitularien. Einleitung”. In Die Sprache des Rechts. Historische Semantik und karolingische Kapitularien, edited by Bernhard Jussen, and Karl Ubl, 9-32. Vandenhoeck&Ruprecht. https://doi.org/10.1515/hzhz-2024-1267.
[8] Mehler, Alexander, Bernhard Jussen, and Tim Geelhaar. 2020. “The Frankfurt Latin Lexicon: From morphological expansion and word embeddings to SemioGraphs”. Studi e Saggi Linguistici 58 (1): 121-155. https://doi.org/10.4454/ssl.v58i1.276.
[9] Perreaux, Nicolas. 2021. “Possibilities, Challenges and Limits of a European Charters Corpus (Cartae Europae Medii Aevi – CEMA)”. arXiv:2105.00932.
[10] Reynolds, Susan. 1994. Fiefs and Vassals. The Medieval Evidence Reinterpreted. Oxford University Press.
[11] Schiel, Juliane, Ludolf Kuchenbuch, Isabelle Schürch, Nicolas Perreaux, and Tim Geelhaar. 2023. ”Historical Semantics: A Vade Mecum”. Österreichische Zeitschrift für Geschichtswissenschaften (OeZG) 34 (2): 18-47. https://doi.org/10.25365/oezg-2023-34-2-2.
[12] Schonhardt, Michael, Tim Geelhaar, Tobias Hodel, and Jan Odstrčilík. 2025. Automated Text Recognition: Theory, Platforms, Best Practices. Bielefeld University Press.
[13] Sinclair, John. 2005. “Corpus and Text – Basic Principles”. In Developing Linguistic Corpora: a Guide to Good Practice, edited by Martin Wynne, 1-16. Oxbow Books.
Downloads
Pubblicato
Come citare
Fascicolo
Sezione
Licenza
Copyright (c) 2026 Tim Geelhaar

Questo lavoro è fornito con la licenza Creative Commons Attribuzione 4.0 Internazionale.