Introduzione
Mission del progetto ALPION è quella di preservare e mettere a disposizione della comunità scientifica nazionale e internazionale l’archivio allestito dal Prof. Giuseppe Savoca e dalla sua equipe, integrandolo con nuovi testi sottoposti a lemmatizzazione con relativo corredo di dati statistici. Le modalità di visualizzazione innovative e l’aggiornamento delle metodologie informatiche e di analisi linguistica creano i presupposti necessari per la migrazione dei dati derivanti dalla libreria IBM AS/400 verso sistemi diversi, conferendo al progetto i caratteri della riusabilità e dell’interoperabilità. .
LE CONCORDANZE IN AMBIENTE AS/400
Le concordanze realizzate secondo il modello predisposto dal prof. Savoca, in quanto finalizzate alla lettura paradigmatica di un testo e/o allo studio del sistema linguistico di un autore, forniscono elementi oggettivi, formalizzati e quantificati, relativi a tutto il lessico, comprese le parole cosiddette funzionali – articoli, congiunzioni, preposizioni –, che occupano circa il 30% della lingua di qualunque testo.
I programmi di lemmatizzazione ideati da Savoca lavorano sulla piattaforma IBM AS/400, uno dei pochi sistemi che negli anni ’80 poteva essere in grado di elaborare la quantità di informazioni necessaria al lavoro di catalogazione.
Il software dispone di un dizionario di macchina composto da circa 8.000 forme che gli consentono di avere una sensibilità del 70% e una precisione media del 90%. Si rende dunque necessario l’intervento umano per correggere e completare il processo concordanziale, operazione sicuramente non banale. Quantunque infatti la prima regola lessicografica del concordatore sia quella di adeguarsi al modello adottato dai dizionari (il verbo all’infinito, i sostantivi al singolare, il superlativo degli aggettivi ricondotti al grado positivo, ecc.), egli, tuttavia, si trova a dover elaborare un dizionario del tutto speciale perché limitato a un’opera (o a un corpus), con particolarità linguistiche, testuali e grafiche che non sempre possono trovare riscontro nell’uso medio attestato da un dizionario.
La concordanza in ambiente AS/400 viene generata all'unione del “File versi” (quello del testo immagazzinato e ‘ripulito’) e del “File lemmi” (generato dal primo in ordine sequenziale o alfabetico.
Inoltre, il sistema AS/400 consente la produzione di altri utili strumenti lessicografici di consultazione, come liste di frequenza (lemmi o forme in ordine alfabetico, lemmi o forme per numero di occorrenze in ordine crescente o decrescente, lemmi ordinati per categoria grammaticale, retrograde di forme e/o lemmi, utili ai fini dello studio delle rime), liste di lemmi specifici, liste di lemmi comuni a più opere e a più autori, quadri statistici (totale dei lemmi, delle forme e delle occorrenze del testo concordato, frequenza assoluta e frequenza relativa delle categorie grammaticali, ecc.).
Il numero di concordanze create con questo sistema dagli anni ’80 a oggi è notevole. L'archivio contiene oltre 1.400 file tra “File versi”, “File lemmi” e concordanze generate, per un totale di diversi milioni di record.
Si evince da questa descrizione che l’archivio dati descritto risulta di tipo flat-file, in cui la formattazione dei dati risulta essenziale, limitando però notevolmente l’interoperabilità e la riusabilità degli stessi. Diventa quindi essenziale ripensare questo sistema concordanziale sia come progettazione che come modalità di fruizione.