
Presentazione di TaLTaC2
TALTAC sta per Trattamento Automatico Lessicale e Testuale per l'Analisi del Contenuto.
Taltac:
- è un software per l'analisi automatica del testo nella duplice logica di Text Analysis (TA) e di Text Mining (TM). Tale analisi consente di dare delle rappresentazioni del fenomeno studiato su base quantitativa sia a livello di unità di testo (parole) sia a livello di unità di contesto (frammenti/documenti), quindi come linguaggio utilizzato e come contenuti trattati nel testo. Per l'approccio seguito questo è possibile senza leggere materialmente la collezione di testi e quindi indipendentemente dalla dimensione del corpus, che può essere vastissima (milioni di parole).
- ha origine dai risultati di ricerche svolte presso le Università degli Studi di Salerno e di Roma "La Sapienza" nel corso degli anni novanta, coordinate da Sergio Bolasco, ordinario di Statistica presso il Dipartimento di studi geoeconomici, linguistici, statistici e storici per l'analisi regionale della SAPIENZA ed è frutto della collaborazione di ricercatori e colleghi di varie università italiane e francesi. (Credits)
- utilizza risorse sia di tipo statistico, sia di tipo linguistico, altamente integrate fra loro e personalizzabili dall'utente, e consente a due livelli, lessicale e testuale, da un lato l'analisi del testo (text analysis), dall'altro il recupero e l'estrazione d'informazione, secondo i principi del data mining e del text mining.
Con la versione 2.0 del programma, rilasciata nel novembre 2005, l'acronimo si è arricchito di una seconda C - TaLTaC2 - che intende sottolineare un'ulteriore finalità di ricerca: l'analisi del Corpus in quanto tale, ovvero lo studio di alcune sue caratteristiche, a prescindere dal contenuto.
Il trattamento automatico, secondo un approccio lessicometrico, permette infatti di scoprire alcune costanti di un testo, una sorta di Dna del corpus.
Alla fine del 2007 il software è presente in Italia in oltre 50 dipartimenti universitari, in più di 20 centri di ricerca e istituzioni di interesse nazionale, nonché in alcune università straniere.
TaLTaC2 è composto da un insieme di strumenti che consentono lo studio di qualsiasi tipo di dati di natura linguistica, raccolti in forma di collezione di testi come un unico Corpus, utilizzando le tecniche della "statistica testuale" (*). Questo approccio consente di studiare informazioni
non strutturate presenti in una base documentale di ampie dimensioni (centinaia o migliaia di pagine, o file anche di 100MB),
unitamente a informazioni strutturate (variabili quantitative o qualitative) contenute in un database ad essa associato.
TaLTaC2 è predisposto sia nell'input che nell'output per l'utilizzo di altri software di text analysis e text mining, in particolare quelli tipici dell'approccio lessicometrico, quali Alceste, Hyperbase, Lexico, Spad, Sphinx, T-Lab, Tropes. (Links)
In generale, l'analisi svolta in Taltac2 permette di selezionare ed estrarre l'informazione più significativa dal corpus di testi analizzato (linguaggio peculiare, linguaggio rilevante, linguaggio specifico) e di operare secondo i principi del text mining mediante ricerche per parole chiave o per concetti.
I risultati ottenuti in Taltac possono interagire direttamente con altri software linguistici (Tree Tagger, Nooj-Intex, Lexical Studio) e statistici (Spad, Spss, Sas).
La conoscenza del programma è facilitata dalla consultazione di una Guida on-line, di tipo ipertestuale, con consultazione "in context" (l'help si posiziona sull'argomento che si sta trattando).
Dall'uscita della seconda release vengono periodicamente organizzati corsi di formazione per un uso completo del programma. Tali corsi sono abbinati al rilascio di una licenza. Per iscriversi basta compilare il form nel sito del Dipartimento DSGSSAR della SAPIENZA-Università di Roma
TaLTaC2 accetta in input
- Un Corpus di testi che può provenire da un unico file, da una collezione di testi (anche migliaia di files) o da un file strutturato in campi. In quest'ultimo caso, la base documentale è inserita in una tabella di un database, ove coesistono informazioni codificate (quali/quantitative) e testuali.
Ciascun documento del corpus può essere diviso in sezioni, sulle quali operare separatamente analisi di recupero ed estrazione dell'informazione. A ciascun documento si possono associare numerose informazioni strutturate, da mettere in relazione con le informazioni testuali. - Un testo categorizzato grammaticalmente con il software linguistico TreeTagger; il testo può essere scritto in italiano o inglese, francese, spagnolo e tedesco. Questo permette di trattare con Taltac testi in varie lingue.
- Una o più liste di parole e/o inventari di sequenze (segmenti) provenienti da altri programmi di analisi testuale, in formato di files "txt" con tabulatore.
- Una o più tabelle contenenti risorse statistico-linguistiche da utilizzare nelle sessioni di lavoro con Taltac. Tali risorse possono consistere in lessici di frequenza, in dizionari tematici o di lingua, in basi di conoscenza di vario tipo, nonché in metaliste in grado di catturare nel testo un "concetto" frutto dell'applicazione di sistemi ibridi di ricerca (dizionari + regole).
TaLTaC2 produce in output
-
Vari tipi di matrici:
-- frammenti per forme (documenti x parole), nella quale possono essere associate anche le variabili strutturate disponibili a priori, e le variabili ricavate a posteriori dall'analisi testuale o dal text mining in Taltac;
-- forme per testi (parole x parti), contenente i profili di frequenza lessicali secondo le partizioni prescelte nonché le annotazioni relative alle varie unità selezionate (linguaggio peculiare, rilevante, specifico) oltre alle annotazioni grammaticali e semantiche;
-- co-occorrenze (parole x parole), contenente il numero di volte in cui due parole si associano, all'interno di un intervallo predefinito di testo; - Il corpus normalizzato e/o eventualmente etichettato, da sottoporre ad altre analisi con software diverso;
- file (in formato "txt") contenenti liste selezionate o dizionari di parole o espressioni.
(*) Riferimenti bibliografici essenziali:
Bolasco, S. (1997). L'analisi informatica dei testi in
Ricolfi, L. (a cura di) La ricerca qualitativa. Roma: NIS.
Bolasco, S. (1999). L'analisi multidimensionale dei dati. Roma: Carocci
ed., (cf. Cap. 7: Analisi dei dati testuali, pp. 179-248).
Bolasco S. (2002) Integrazione statistico-linguistica nell'analisi del contenuto, in B. Mazzara (a cura di) Metodi qualitativi in Psicologia
Sociale. Prospettive teoriche e strumenti operativi, Carocci Ed. Roma, p. 329-342.
Bolasco S. (2005). Statistica testuale e text mining: alcuni paradigmi applicativi, Quaderni di Statistica, Liguori Ed., 7, p. 17-53.
Cipriani R., Bolasco S. (a cura di), (1995). Ricerca qualitativa e computer,
Milano: Franco Angeli.
Lebart, L., Salem, A. (1994). Statistique textuelle. Paris: Dunod.
Lebart, L., Salem, A., Berry J. (1998). Exploring texual data. Dordrecht:
Kluwer Academic Publisher
Per altri riferimenti vai a Materiali