link.nltk - a workbench for text analysis and term extraction
Extension, and integration in Plone, of the NLTK Python library and of linguistic resources for Italian and other languages.
[to be translated; more information in the presentation of Giovanni Toffoli and Stefano lariccia "COACH - Un workbench per l'analisi dei testi e l'estrazione di termini".]
Si tratta di work-in-progress, consistente nell'adattamento, nell'estensione e nell'integrazione in Plone di strumenti per l'elaborazione di testi, con focus sulla lingua italiana.
Il primo obbiettivo è quello di disporre anche per l'italiano di una suite di tool che consentano di effettuare una migliore indicizzazione full-text dei documenti e di estrarre da essi i "termini" rappresentativi candidati ad essere usati per il "tagging" dei contenuti stessi (nel contesto di blog, digital library, ecc.).
Tool di questo tipo sono disponibili per la lingua inglese, sia sotto forma di librerie/package per Python o Plone, sia sotto forma di servizi su web; ma sono praticamente inesistenti per l'italiano.
I principali componenti che intendiamo integrare in Plone sono:
- NLTK (Natural Language ToolKit), una libreria di package Python e un insieme di risorse linguistiche, soprattutto corpora, risultato della più interessante iniziativa open-source nel campo della linguistica computazionale; si tratta di divulgazione ad alto livello
- un paio di risorse linguistiche di libero dominio e di ottima qualità disponibili per l'italiano: costituiscono un'eccezione in un panorama desolante, tenuto conto anche degli ingenti finanziamenti pubblici italiani ed europei che sono stati dedicati a questo campo nel periodo 1990-2010.
A parte PERL, che è un linguaggio di scripting specialistico e dalla sintassi criptica, crediamo che Python sia il linguaggio di programmazione general-purpose che meglio supporta la sperimentazione nel campo dell'analisi dei testi.
Plone di per sé non aggiunge un contributo essenziale, ma
- un sito Plone potrà beneficiare del package in corso di sviluppo
- la piattaforma Zope/Plone è comunque un'ottima base di partenza per qualsiasi applicazione che deve essere accessibile su web; e le funzionalità di content management e di user management di Plone faciliteranno la gestione di risorse linguistiche personalizzate (es: basi di documenti e file di parametri) nell'ottica di installazioni che forniscano un servizio aperto.
L'attività descritta intende anche essere un elemento di aggregazione per iniziative su cui richiedere un contributo di finanziamento pubblico, nell'ambito di programmi di ricerca nazionali ed europei, e di collaborazioni con enti che diffondono la cultura italiana nel mondo.
Una presentazione più dettagliata degli obbiettivi, del metodo di lavoro e dei primi risultati è contenuta in
- un workbench per l'analisi dei testi e l'estrazione di termini
- link.nltk - la versione preliminare del workbench linguistico

