Progettazione e sviluppo

Introduzione

Mission del progetto ALPION è quella di preservare e mettere a disposizione della comunità scientifica nazionale e internazionale l’archivio allestito dal Prof. Giuseppe Savoca e dalla sua equipe, integrandolo con nuovi testi sottoposti a lemmatizzazione con relativo corredo di dati statistici. Le modalità di visualizzazione innovative e l’aggiornamento delle metodologie informatiche e di analisi linguistica creano i presupposti necessari per la migrazione dei dati derivanti dalla libreria IBM AS/400 verso sistemi diversi, conferendo al progetto i caratteri della riusabilità e dell’interoperabilità. .



LE CONCORDANZE IN AMBIENTE AS/400

Le concordanze realizzate secondo il modello predisposto dal prof. Savoca, in quanto finalizzate alla lettura paradigmatica di un testo e/o allo studio del sistema linguistico di un autore, forniscono elementi oggettivi, formalizzati e quantificati, relativi a tutto il lessico, comprese le parole cosiddette funzionali – articoli, congiunzioni, preposizioni –, che occupano circa il 30% della lingua di qualunque testo.
I programmi di lemmatizzazione ideati da Savoca lavorano sulla piattaforma IBM AS/400, uno dei pochi sistemi che negli anni ’80 poteva essere in grado di elaborare la quantità di informazioni necessaria al lavoro di catalogazione.
Il software dispone di un dizionario di macchina composto da circa 8.000 forme che gli consentono di avere una sensibilità del 70% e una precisione media del 90%. Si rende dunque necessario l’intervento umano per correggere e completare il processo concordanziale, operazione sicuramente non banale. Quantunque infatti la prima regola lessicografica del concordatore sia quella di adeguarsi al modello adottato dai dizionari (il verbo all’infinito, i sostantivi al singolare, il superlativo degli aggettivi ricondotti al grado positivo, ecc.), egli, tuttavia, si trova a dover elaborare un dizionario del tutto speciale perché limitato a un’opera (o a un corpus), con particolarità linguistiche, testuali e grafiche che non sempre possono trovare riscontro nell’uso medio attestato da un dizionario.

La concordanza in ambiente AS/400 viene generata all'unione del “File versi” (quello del testo immagazzinato e ‘ripulito’) e del “File lemmi” (generato dal primo in ordine sequenziale o alfabetico.
Inoltre, il sistema AS/400 consente la produzione di altri utili strumenti lessicografici di consultazione, come liste di frequenza (lemmi o forme in ordine alfabetico, lemmi o forme per numero di occorrenze in ordine crescente o decrescente, lemmi ordinati per categoria grammaticale, retrograde di forme e/o lemmi, utili ai fini dello studio delle rime), liste di lemmi specifici, liste di lemmi comuni a più opere e a più autori, quadri statistici (totale dei lemmi, delle forme e delle occorrenze del testo concordato, frequenza assoluta e frequenza relativa delle categorie grammaticali, ecc.).
Il numero di concordanze create con questo sistema dagli anni ’80 a oggi è notevole. L'archivio contiene oltre 1.400 file tra “File versi”, “File lemmi” e concordanze generate, per un totale di diversi milioni di record.
Si evince da questa descrizione che l’archivio dati descritto risulta di tipo flat-file, in cui la formattazione dei dati risulta essenziale, limitando però notevolmente l’interoperabilità e la riusabilità degli stessi. Diventa quindi essenziale ripensare questo sistema concordanziale sia come progettazione che come modalità di fruizione.

LA CONCORDANZA SU WINDOWS, MACOSX, WEB: LIOTROCONCORD

Da alcuni anni il Centro di Informatica Umanistica (CINUM) ha implementato un nuovo software per la generazione delle concordanze, chiamato LiotroConcord (versione 2). Il software è un database relazionale puro, creato utilizzando la piattaforma 4D. Quest’ultima integra al suo interno un motore per database SQL, un linguaggio di programmazione proprietario e un server web: un modello LAMP* riunito in un unico strumento.
La creazione di un nuovo software si è resa necessaria per vari motivi. Ad esempio, l’utilizzo di personal computer Windows o MacOSX permette di creare interfacce utente moderne e user-friendly, facilitando l'usabilità e l'interoperabilità con altri dati e altri software.
Il software è utilizzabile indifferentemente e contemporaneamente sia su sistemi Windows che MacOS, nonché via browser web.

UN MODELLO PER IL FUTURO

L’obiettivo principale del processo di trasformazione è quello di evitare l’obsolescenza digitale delle concordanze (dati reperibili e riutilizzabli) e garantirne l’accessibilità e l'interoperabilità. Il problema di fondo è tuttora al centro del dibattito nella comunità scientifica, ma certamente un modo per superarlo è quello di condividere i contenuti in formati aperti come XML-TEI. La concordanza diventa così un prodotto che, come nella menzionata Edizione Digitale dell’Opera omnia di Pirandello (https://www.pirandellonazionale.it), è liberamente consultabile sia attraverso un form d’interrogazione sul web, sia attraverso un pdf scaricabile. La Figura 1 mostra uno specimen dell’output in XML-TEI generato dalla ricerca del lemma «abate» all’interno dell’Enrico IV di Luigi Pirandello
In questo modo la concordanza diventa facilmente importabile e riutilizzabile in qualunque altro sistema per basi di dati. Avendo portato a termine la realizzazione del sistema di migrazione dei dati dal sistema AS/400 ed essendo già in fase avanzata l’importazione dei dati stessi verso il software LiotroConcord, uno degli obiettivi futuri è, oltre al libero accesso agli studiosi attraverso un sistema di interrogazione dei dati su interfaccia web, l’esportazione dei risultati in formato XML-TEI (elaborato direttamente da LiotroConcord) che rispetti le informazioni strutturate della concordanza.
Un ulteriore possibile output è quello della lemmatizzazione integrale del testo, laddove naturalmente i testi siano liberi da diritti d’autore e sia quindi possibile rendere disponibile il testo integrale. Il file così condiviso sarebbe quello della lemmatizzazione, che diverrebbe in tal modo integralmente interoperabile. A mo’ di esempio mostriamo in Figura 2 il possibile output di un verso de Le ceneri di Gramsci di Pier Paolo Pasolini.

In questo caso a essere reso disponibile non sarà tanto il prodotto finale, ma la lemmatizzazione in fieri, che può essere modificata, integrata, revisionata da qualunque studioso.

Gli argomenti qui discussi saranno oggetto di una relazione che si terrà in occasione del prossimo convegno dell'AIUCD (Associazione di Informatica Umanistica e Culture Digitali), dal titolo Culture digitali. Intersezioni: filosofia, arti, media, che si terrà presso l'Università del Salento dal 19 al 21 gennaio 2022.