Nei giorni 22-23 giugno 2020 si è tenuto il webinar Fonti archivistiche
medievali nel digitale. La sfida di trattare e visualizzare dati
semi-strutturati
, organizzato dal Laboratorio di Cultura Digitale
e dal responsabile del progetto Engineering Historical
Memory. Questo dossier tematico vuole offrire un breve resoconto
dei risultati del workshop tenuto su piattaforma virtuale, con particolare
attenzione per quanto riguarda future iniziative di collaborazione e
sperimentazione nel campo dell’elaborazione ed estrazione di informazioni da
edizioni semi-strutturate di documenti archivistici. Funzionalità avanzate
di questo tipo sono infatti essenziali per ampliare la fruizione delle
edizioni digitali di fonti archivistiche e di altri documenti scritti,
rendendole strumenti di ricerca più flessibili ed aperti alla lettura da
parte di algoritmi. Il problema centrale riguarda il rapporto tra la
codifica e la creazione di interfacce quanto più possibile semplici ed
immediate, in cui l’utente (umano o artificiale) possa accedere
intuitivamente.
The webinar Medieval archival sources in the digital world. The challenge of
treating and visualizing semi-structured data
, organized by the Laboratorio di Cultura Digitale
and the head of the Engineering Historical Memory project, was held on 22-23 June
2020. This thematic dossier aims to offer a brief account of the results of
the workshop held on a virtual platform, with particular attention to future
collaboration and experimentation initiatives in the field of processing and
extracting information from semi-structured editions of archival documents.
Advanced functionalities of this type are in fact essential to broaden the
use of digital editions of archival sources and other written documents,
making them more flexible and open to algorithms' reading tools. The central
problem concerns the relationship between coding and the creation of
interfaces that are as simple and immediate as possible, in which the user
(human or artificial) can intuitively access.
Uno dei vantaggi delle edizioni scientifiche digitali rispetto alle tradizionali versioni a stampa è il fatto che si tratta di strumenti dinamici, all’interno dei quali i testi sono rappresentati in un formato che permette la loro elaborazione per fini che vanno al di là della semplice lettura. Grazie all’uso di linguaggi formali come l’XML, in particolare nella versione TEI P5, i dati testuali di un’edizione possono essere interrogati per ricavare rapidamente molti tipi di informazione.
Questa caratteristica risulta quindi particolarmente interessante non solo sul piano strettamente filologico (ad esempio per definire e visualizzare una tipologia di varianti testuali o collegare specifiche lezioni alle scansioni dei manoscritti), ma anche per l’esegesi di fonti primarie, fondamentali per gli studi storici.
La prassi più frequente in quest’ambito, tuttavia, consiste nell’uso di database per archiviare e analizzare i dati, e questo porta in alcuni casi a uno sdoppiamento di funzioni tra le edizioni critiche digitali, utilizzate soprattutto per la visualizzazione di testi e di immagini, e il riuso dei dati di tali edizioni in ambienti in cui si possono effettuare operazioni di ricerca e data mining.
La domanda che ha animato l’incontro e la successiva rielaborazione delle singole relazioni è stata la seguente: è possibile individuare metodi alternativi che permettano di elaborare dati testuali in formato semi-strutturato all’interno di una edizione critica digitale e fornire almeno parte del processing utile agli storici? Come si possono strutturare edizioni digitali di fonti storiche che non rispondano a un’unica categoria di utenti, di solito coincidente con quella da cui origina l’edizione stessa? È possibile, infine, applicare la stessa metodologia a documenti di altro tipo, ad esempio opere letterarie? Quali sono i casi d’uso possibili e quali gli strumenti più idonei?
Le domande prima evidenziate sono state sviluppate nei singoli progetti operativi in cui gli autori sono a vario titolo coinvolti.
Enrica Salvatori (L’appetito vien mangiando. La never
ending digital edition del Codice Pelavicino) enuclea alcune
caratteristiche dell’edizione digitale del liber iurium del vescovo
di Luni (fine XIII secolo), che nel corso del tempo si è arricchita nella
codifica e negli strumenti messi a disposizione degli utenti per la ricerca,
ma che è anche arrivata a una impasse relativamente alla gestione
di alcuni dati storicamente rilevanti e semi-strutturati contenuti nei
documenti. Mentre alcune tipologie di informazioni hanno trovato in EVT un
contenitore adeguato, altri sono stati posti nel sito/blog dell’edizione,
altri invece, come ad esempio le liste dei censi, non hanno trovato ancora
un trattamento adeguato. Come consentire l’analisi allo studioso?
Internamente all’edizione o esternamente, tramite la semplice messa a
disposizione dei file XML? Parallelamente il Codice Pelavicino ha riscosso
un insperato successo presso un pubblico di studiosi locali e appassionati,
che contribuiscono giornalmente alla individuazione di toponimi e alla
correzione di errori. Questo apre altri problemi: in che modo preservare o
migliorare la navigabilità dell’edizione anche per un pubblico di non
addetti ai lavori? L’implementazione di funzioni rischia di complicare la
fruibilità del servizio? E in ultimo, aprendo ai contributi del pubblico
l’edizione digitale diventa una neverending edition
sempre mutevole:
come gestirla?
Andrea Nanetti (Engineering Historical Memory and the Interactive Exploration of Archival Documents. The Online Application for Pope Gregory X’s Privilege for the Community of Mount Sinai (1274) as a Prototype) esamina i documenti pubblicati sulla piattaforma Engineering Historical Memory (EHM), che permette la lettura di fonti primarie a utenze di livelli di competenza e conoscenza diverse. Qui, come caso di studio, presenta la ricerca interdisciplinare (diplomatica, storia, animazione) che ha consentito la pubblicazione online dell’originale del privilegio concesso da papa Gregorio X alla comunità monastica del Monte Sinai nel 1274, il privilegio Religiosam vitam. L’insediamento monastico fortificato da Giustiniano e sopravvissuto alla conquista araba, alla controversia iconoclasta e alle crociate, ottenne tra 1211 e 1276 numerose lettere e concessioni sia dalla Chiesa di Roma sia dalla Repubblica di Venezia, a causa degli interessi in larga parte coincidenti delle due istituzioni. Roma cercava il sostegno della comunità per ogni progetto di crociata diretto al Mediterraneo orientale e nei tentativi di unione delle chiese latina ed orientale. Dal XIII secolo, con il passaggio dei territori di lingua greca dell'impero bizantino all'amministrazione veneziana (Stato da mar), Venezia vide nei monaci del Sinai un supporto per perseguire la pacificazione sociale con i sudditi greco-ortodossi principalmente a Creta. Nonostante questo, l’analisi dei testi conservati dimostra che spesso concessioni e privilegi erano più fittizi che reali. La pubblicazione online MountSinai offre alla ricerca e alla didattica un sistema interattivo per 1) leggere il documento; 2) visualizzare e conoscere attraverso un grafico ad albero il tenor formularis del documento; 3) esplorare l’aggregazione del patrimonio di informazione multidisciplinare prodotto da discipline quali la paleografia, la diplomatica e la storia e utile alla interpretazione del documento in esame; 4) condividere in anteprima testi destinati alla rielaborazione per la pubblicazione accademica commerciale; 5) aggregare in tempo reale la letteratura secondaria (e.g., Europeana, Scopus Elsevier, Taylor and Francis) eventualmente utile alla discussione degli elementi via via presi in esame dall’utente. Questa metodologia in parte risponde all'esigenza emersa nel webinar, ma soprattutto permette l’avanzamento della conoscenza in un sistema di pubblicazione aperto, proponendo edizioni digitali di fonti storiche fruibili da varie categorie di utenti.
Antonella Ambrosio e Vera Isabell Schwarz-Ricci (Un’esperienza al di fuori di EVT: l’edizione digitale dei documenti dell’abbazia di S. Maria della Grotta sul portale internazionale Monasterium.Net) riportano una panoramica dei principali risultati dell’edizione critica digitale dei documenti dell’abbazia di S. Maria della Grotta risalenti alla prima metà del XIII secolo (d’ora in poi SMG), intrapresa qualche anno fa grazie agli sforzi di un gruppo di ricerca italo-austriaco e ormai conclusa. SMG ha avuto sostanzialmente tre obiettivi: innanzitutto quello di sperimentare per la prima volta EditMOM3, l’editor presente nell’ambiente MOMCA, sulla piattaforma Monasterium.Net, per effettuare una edizione critica digitale online; tale sperimentazione ha riguardato i documenti, perlopiù privati e nelle forme di chartae, brevia e scripta, conservati prima presso l’archivio dell’abbazia sita a Vitulano (BN) e poi presso la Biblioteca della Società Napoletana di Storia Patria. Il secondo obiettivo è consistito nel compiere un’edizione collaborativa in grado di stimolare una riflessione sui vantaggi e le criticità che comporta un’operazione del genere nell’ambiente MOMCA; per il terzo obiettivo si è pensato di testare una strategia adatta a far fronte alla ricezione di un prodotto editoriale di tal genere da parte della comunità scientifica di riferimento. Essa, composta soprattutto di storici e di diplomatisti, risulta, in modo particolare in Italia, ancora troppo legata all’edizione a stampa, percepita quasi come più attendibile rispetto all’omologa digitale. Da queste finalità sono discese le differenti versioni dell’edizione oggi disponibili: 1) l’edizione digitale nativa su Monasterium.Net, accessibile e visualizzabile in modalità user-friendly e composta di documenti scaricabili in formato XML; 2) il PDF dei soli testi, generati attraverso una trasformazione delle edizioni su Monasterium.Net (grazie al linguaggio di trasformazione XSLT, ad un file XSL-FO e a un processore FO) e 3) l’edizione cartacea (2018) disponibile a stampa e in Open Access su FEDOA, che contiene il testo delle edizioni dei singoli documenti comparse nel PDF sopra citato, corredate per la stampa di parti supplementari che non compaiono online su Monasterium, quali introduzione, indici, elenchi, etc.
Il problema di visualizzare e di trattare i dati dell’edizione, la risoluzione del quale è affidata attualmente agli strumenti e alle risorse del portale Monasterium.Net e che è oggetto di sviluppo da parte di altre altre équipes di ricerca, non è stata concepita come una priorità durante il lavoro di edizione di SMG sia perché il portale permette a ciascun utente, da remoto, il download delle riproduzioni fotografiche ad alta risoluzione dei documenti e dei dati dell’edizione in vari formati, tra i quali l’XML e una versione a stampa in PDF, sia perché le differenti versioni dell’edizione prodotte, pienamente accessibili, soddisfano, nel loro complesso, molte delle esigenze di chi voglia elaborare i dati per altri scopi.
In relazione al problema discusso nell’incontro SMG, quindi, non rappresenta un caso di studio per le ragioni sopra riportate, ma è solo in grado di evidenziare alcuni elementi di riflessione, sulla base delle esperienze compiute. Più deciso, e sicuramente più originale, è il contributo che SMG può dare a questa pubblicazione collettanea evidenziando una sua peculiarità che costringe ad interrogarci riguardo a quale pubblico possa rivolgersi un’edizione oggi, grazie alle possibilità offerte dai portali internazionali online e dalla collaborazione di estese reti internazionali di ricerca e di lavoro. SMG appare difatti, attualmente, un unicum nel panorama nazionale ed un esempio raro anche nel contesto internazionale, almeno per quanto riguarda le edizioni di documenti a carattere giuridico. Tale specificità consiste nel fatto che SMG non è una monade, scaturita da una singola iniziativa di ricerca, ma un progetto che, pur essendo contraddistinto da una propria autonomia, fa parte di un contesto più ampio, un consistente e articolato framework di fonti storiche digitalizzate, quale è appunto Monasterium, collocato a sua volta in un network sovranazionale di istituzioni, quale è ICARUS, l’International Centre for Archival Research. Il portale conta attualmente online più di novecentomila immagini di documenti e di dati ad essi connessi, materiale che è in continuo aumento man mano che essi vengono messi a disposizione da archivi, istituzioni di ricerca, università in quindici Paesi europei. Questa caratteristica di SMG se da una parte consente di risolvere oggi, anche se parzialmente, il problema dell’ulteriore trattamento dei dati dell’edizione, e di avere prospettive future al riguardo nell’ambito della progettualità concreta di sviluppo del portale internazionale al quale appartiene, dall’altra permette di evidenziare come la platea dei destinatari e dei fruitori dell’edizione stessa abbia grandi potenzialità di ampliarsi e di diversificarsi proprio grazie al portale e all’associazione internazionale ai quali essa fa riferimento.
Marco Giacchetto (Problemi e questioni nello studio
delle fonti fiscali tardomedievali: la Lira
senese nel XV
secolo) nota come a Siena negli ultimi anni siano state avviate
alcune esperienze di ricerca che, mosse da un condiviso approccio di storia
sociale, sono finite per convergere verso una metodologia di analisi
prosopografica applicata alla storia cittadina. La serie di database
realizzati nel corso del tempo ha creato l’esigenza di far interagire tra
loro ed implementare queste banche dati facendo dialogare fonti diverse, di
periodi diversi. Si tratta quindi di iniziative che non hanno guardato in
primo luogo a progetti di edizione ma delle vere e proprie esperienze di
lavoro e di schedatura condotte sui dati storici ricavati da estimi e
catasti senesi Tre-Quattrocenteschi. L’aumento della massa dei dati ha
permesso certo di ampliare la ricerca in termini cronologici e qualitativi
ma ha evidenziato talvolta le criticità nel far comunicare fra loro
informazioni diverse.
Ultimo in ordine di tempo è la schedatura degli imponibili fiscali e delle denunce autografe dei contribuenti del 1453. Tale lavoro permette adesso di collegare immediatamente sia l’imponibile che le denunce di 3.745 nuclei familiari senesi. A questo primo database è stato affiancato un altro relativo al contenuto delle denunce espandendo i contenuti anagrafici, patrimoniali e sociali di ogni individuo. Tuttavia, l’elaborazione delle informazioni in banche dati non permette al momento di creare in maniera agile interrogazioni complesse mantenendo, al contempo, un rapporto diretto con i circa 9.000 documenti originali. Questi, infatti, in assenza di trascrizioni integrali, rimangono colmi di informazioni paleografiche, linguistiche e storiche difficilmente frazionabili in database. In altre parole, risulta ancora deficitaria la possibilità di effettuare calcoli complessi sui dati raccolti. Quanti imprenditori, originari di un’altra regione, residenti in un’area specifica della città, investirono in società laniere con un capitale superiore ai 500 fiorini? Quante di queste avevano almeno due soci? Quanti individui, all’interno di nuclei formati da 5 componenti, contribuivano al reddito familiare? Quali erano gli immobili di maggior valore in un determinato quartiere e da chi erano posseduti? Quanti di questi avevano al proprio interno un’attività produttiva? Queste sono solo alcune delle domande possibili che al momento trovano, invero, ugualmente risposta a discapito però del tempo necessario dettato dalla consueta analisi da parte dello storico. Se quindi da una parte le competenze informatiche degli addetti ai lavori rimangono indispensabili per la risoluzione di tali questioni, d’altra parte è doveroso chiedersi quanto e come gli storici possano ricorrere ai linguaggi di markup già nelle fasi iniziali di schedatura e/o trascrizione delle fonti storiche al fine di agevolare i successivi sviluppi.
Roberto Rosselli Del Turco (Elaborazione di dati semi-strutturati: ipotesi implementative e casi d’uso tratti da testi in inglese antico) estende infine lo sguardo ad ambiti diversi da quello prettamente storico e descrive l’evoluzione di EVT da strumento inizialmente concepito per la pubblicazione del Vercelli Book Digitale, e di altre edizioni similmente incentrate su testi medievali, a uno strumento versatile per il trattamento di una larga varietà di fonti e opere letterarie. La radicale trasformazione della base di codice di EVT non ha tuttavia cambiato molto per quanto riguarda il trattamento dei dati. Anche una funzionalità aggiunta di recente, il supporto per i fogli di stile VisColl, è incentrata sul duplice obiettivo di visualizzazione e navigazione dei dati dell’edizione. La codifica utilizzata, tuttavia, rappresenta un potenziale tesoro di informazioni che attende solo di essere interrogato e messo a disposizione dell’utente. I tre casi d’uso individuati, che non rappresentano certo la totalità di quanto possibile con un sistema più avanzato dell’attuale, sono:
l’elaborazione dei dati relativi ai caratteri speciali inseriti per mezzo della <charDecl> e <g>: questi caratteri rappresentano una preziosa fonte di informazione per individuare le abitudini e idiosincrasie scribali, in casi di studio precedenti questi calcoli sono stati fatti a mano (Conner 1986), mentre in un’edizione digitale potrebbero essere automatizzati;
per le named entities si applica lo stesso paradigma di elaborazione finalizzata a visualizzazione (nel contesto dell’edizione) e navigazione (grazie a liste separate, collegate al testo), ma sarebbe possibile aggiungere un livello di interrogazione dei dati del tutto nuovo, incrociando le informazioni disponibili in maniera tale da rispondere a interrogazioni complesse (v. le domande di ricerca relative alla Lira senese del XV sec.);
questo tipo di funzionalità potrebbe essere implementato grazie all’uso di ontologie, direttamente nella marcatura TEI se possibile, altrimenti usando gli strumenti più appropriati come il linguaggio RDF.
Grazie a questi contributi relativi ai singoli casi di studio è stato possibile arrivare ad alcune conclusioni preliminari utili a implementare le funzionalità nel software EVT (http://evt.labcd.unipi.it/) e in una versione di tipo stand-alone da integrare con il sistema interattivo EHM (www.engineeringhistoricalmemory.com). Una prima sperimentazione si è svolta nella prima metà del 2021 con l’obiettivo di rendere più sofisticato il motore di ricerca di EVT, in modo da rendere possibile una interrogazione dei dati del tipo sopra descritto. Caratteristica precipua dello sviluppo di questo strumento è sempre stata l’attenzione all’interfaccia utente e alla facilità d’uso, obiettivo specifico sarà l’individuazione di una interfaccia sufficientemente flessibile da prestarsi a esigenze diverse. I metodi e gli algoritmi di interrogazione dei dati non saranno implementati direttamente nella base di codice di EVT, ma come libreria JavaScript separata, in modo da poterla utilizzare direttamente anche per le altre piattaforme citate.
Al di là degli sviluppi dei singoli software e delle peculiari edizioni, quelle presentate e discusse sono esperienze che, dal punto di vista del trattamento dei dati che offrono agli studiosi, presentano alcune problematiche comuni.
Innanzitutto, la questione del legame tra interfaccia, strumenti di ricerca e dati. Chi fa un’edizione digitale si deve porre il problema di presentare il testo in forma tale da poter servire o da vera propria base di ricerca per quanto riguarda il testo stesso, o da punto di partenza per ricerche interdisciplinari: filologiche, storiche, geografiche e economiche, tanto per partire dalle principali domande che si possono porre a una fonte scritta.
L’altra problematica, condivisa pur nelle specificità di ciascun progetto di ricerca, è quella dell’uso limitato che si fa di dati spesso marcati in maniera complessa e sofisticata. Riuscire a sfruttare tali dati per rispondere alle domande fondamentali del ricercatore, oppure per sollevarlo da un’indagine manuale che risulterebbe del tutto anacronistica al momento in cui si dispone di mezzi di calcolo così potenti, costituirebbe un importante servigio reso alla comunità scientifica e del più ampio pubblico.
I metodi possono ovviamente essere diversi, come diversi i pubblici a cui si pensa di rivolgersi, ma si deve resistere anche alla tentazione dell’originalità e dell’esaustività a ogni costo e valutare con cautela rapporto tra qualità scientifica e costo di fabbricazione, tra preziosità del tessuto e vestibilità per tutti.
Discutere di interfaccia e di strumenti di ricerca significa quindi di fatto discutere di diversi pubblici, quindi di utenti, quindi di accessibilità e di pratiche di partecipazione (crowdsourcing). Vediamo troppo di frequente emergere progetti di Storia o di Filologia digitali che riescono a parlare solo alla ristretta comunità scientifica di riferimento. Lo sforzo, che questo gruppo di ricerca ha iniziato a fare, è quello di ragionare su come le DH possono risolvere il problema della scarsa comunicazione tra le discipline e tra un progetto editoriale e il suo potenziale pubblico e come ciò passi attraverso una ricerca vera e propria e una modifica degli strumenti e dei metodi dell’edizione digitale.