<i>Philo-L1</i>: L’emendatio dei testi latini come problema di denoising

Giuseppe Ferrara

doi:10.60923/issn.2532-8816/23602

Autori

Giuseppe Ferrara University of Siena, Italy

DOI:

https://doi.org/10.60923/issn.2532-8816/23602

Parole chiave:

filologia digitale, Large Language Model, Ianus AI, Philo-L1, emendazione

Abstract

L’emendazione dei testi letterari antichi rappresenta una delle sfide più complesse della filologia classica. I modelli esistenti per semplificare questo task (Latin BERT e Logion) adottano un approccio di tipo fill-mask che presenta alcuni limiti significativi. Questo contributo introduce Philo-L1, un LLM di tipo seq2seq di circa 297 milioni di parametri basato sull'architettura T5, che tratta l'emendatio dei testi letterari latini come un task di generazione di testo con denoising dell’input del modello, e Ianus AI, la piattaforma web pensata per il suo utilizzo. Philo-L1, ottenuto dal fine-tuning di Philo-1-preview (a sua volta, risultato del fine-tuning di PhilTa), è stato addestrato su un dataset sintetico di circa 5 milioni di coppie di frasi contenenti nove classi di corruttele: errori paleografici, di pronuncia, di divisio, di inversione, di eco, saut du même au même, errori da integrazione con parola-segnale, aplografie e dittografie. In fase di valutazione, il modello ha raggiunto un’exact match accuracy (EMA) del 74.01%, una perplexity di 1.17 e un BLEU score di 94.51. Il confronto diretto con Latin BERT conferma la validità dell'approccio proposto (EMA: 77.96% vs 0.50%). In futuro, si prevede di ampliare le funzionalità del modello e di integrare tecniche di chain of thought ed Explainable AI.

Riferimenti bibliografici

[1] Assael, Yannis, Thea Sommerschield, Alison Cooley, Brendan Shillingford, John Pavlo-poulos, Priyanka Suresh, Bailey Herms, et al. 2025. "Contextualizing Ancient Texts with Generative Neural Networks". Nature 645 (8079): 141–147. https://doi.org/10.1038/s41586-025-09292-5.

[2] Assael, Yannis, Thea Sommerschield, Brendan Shillingford, Mahyar Bordbar, John Pa-vlopoulos, Marita Chatzipanagiotou, Ion Androutsopoulos, Jonathan Prag, e Nando de Freitas. 2022. "Restoring and Attributing Ancient Texts Using Deep Neural Networks". Nature 603 (7900): 280–83. https://doi.org/10.1038/s41586-022-04448-z.

[3] Assael, Yannis, Thea Sommerschield, e Jonathan Prag. 2019. "Restoring ancient text using deep learning: a case study on Greek epigraphy". arXiv preprint aXiv:1910.06262.

[4] Bamman, D., e P. J. Burns. 2020. "Latin BERT: A Contextual Language Model for Classical Philology". arXiv preprint arXiv:2009.10053.

[5] Braccini, Tommaso. 2017. La scienza dei testi antichi. Introduzione alla filologia classi-ca. Le Monnier Università.

[6] Cowen-Breen, Charlie, Creston Brooks, Johannes Haubold, e Barbara Graziosi. 2023. "Logion: Machine Learning for Greek Philology". arXiv preprint arXiv:2305.01099.

[7] Ferrara, Giuseppe. 2025. "Philo-1-preview. Un modello T5-Base per l’emendazione dei testi antichi". In Diversità, Equità e Inclusione: Sfide e Opportunità per l’Informatica Umanistica nell’Era dell’Intelligenza Artificiale, Proceedings del XIV Convegno Annuale AIUCD2025, a cura di Simone Rebora, Marco Rospocher, e Stefano Bazzaco, 404-410. AIUCD. https://doi.org/10.6092/unibo/amsacta/8380.

[8] Graziosi, Barbara, Johannes Haubold, Charlie Cowen-Breen, e Creston Brooks. 2023. "Machine Learning and the Future of Philology: A Case Study". TAPA 153 (1): 253–84. https://doi.org/10.1353/apa.2023.a901022.

[9] Havet, Louis. 1911. Manuel de critique verbale appliquée aux textes latins. Hachette.

[10] Johnson, Justin M. e Taghi M. Khoshgoftaar. 2019. "Survey on Deep Learning with Class Imbalance". Journal of Big Data 6 (1): 27. https://doi.org/10.1186/s40537-019-0192-5.

[11] Kernighan, Mark D., Kenneth W. Church, e William A. Gale. 1990. "A spelling correction program based on a noisy channel model". In Proceedings of the 13th conference on Computational linguistics - Volume 2 (USA), 205–10. https://doi.org/10.3115/997939.997975.

[12] Raffel, Colin, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Ma-tena, Yanqi Zhou, Wei Li, e Peter J. Liu. 2023. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer". arXiv preprint arXiv:1910.10683.

[13] Riemenschneider, Frederick e Anett Frank. 2023. "Exploring Large Language Models for Classical Philology". arXiv preprint arXiv:2305.13698.

[14] Shannon, Claude E. 1948. "A Mathematical Theory of Communication". Bell System Technical Journal 27 (3): 379–423. https://doi.org/10.1002/j.1538-7305.1948.tb01338.x.

[15] Shannon, Claude E. e Warren Weaver. 1998. The Mathematical Theory of Communica-tion. University of Illinois Press. https://books.google.it/books?id=IZ77BwAAQBAJ.

[16] Singh, Pranaydeep, Gorik Rutten e Els Lefever. 2021. "A Pilot Study for BERT Language Modelling and Morphological Analysis for Ancient and Medieval Greek". In Proceedings of the 5th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, a cura di Stefania Degaetano-Ortlieb, Anna Kazantseva, Nils Reiter, Stan Szpakowicz, 128–37. Association for Computational Lin-guistics. https://doi.org/10.18653/v1/2021.latechclfl-1.15.

[17] Sommerschield, Thea, Yannis Assael, John Pavlopoulos, Vanessa Stefanak, Andrew Senior, Chris Dyer, John Bodel, Jonathan Prag, Ion Androutsopoulos, e Nando de Frei-tas. 2023. "Machine Learning for Ancient Languages: A Survey". Computational Lingui-stics 49 (3): 703–47. https://doi.org/10.1162/coli_a_00481.

[18] Straka, Milan, Jana Straková, e Federica Gamba. 2024. "ÚFAL LatinPipe at EvaLatin 2024: Morphosyntactic Analysis of Latin". arXiv preprint arXiv:2404.05839.

[19] Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, e Denny Zhou. 2023. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models". arXiv preprint arXiv:2201.11903.

[20] Wróbel, Krzysztof, e Krzysztof Nowak. 2022. "Transformer-based Part-of-Speech Tag-ging and Lemmatization for Latin". In Proceedings of the Second Workshop on Langua-ge Technologies for Historical and Ancient Languages, a cura di Rachele Sprugnoli e Marco Passarotti, 193–97. European Language Resources Association. https://aclanthology.org/2022.lt4hala-1.31/.

Philo-L1

L’emendatio dei testi latini come problema di denoising

Autori

DOI:

Parole chiave:

Abstract

Riferimenti bibliografici

Downloads

Pubblicato

Come citare

Fascicolo

Sezione

Licenza

Lingua

Fai una proposta

Ultimo numero