
Nuove caratteristiche di TaLTaC 2.10
Rispetto alla release 2.9, oltre alla correzione di alcuni bugs segnalati dagli utenti, si segnalano le seguenti nuove funzionalità.
- Rinnovata la finestra della funzione di importazione di liste esterne, che adesso semplifica la definizione del tipo e del ruolo dei campi da importare. Sono stati inoltre aggiunti alcuni ruoli (forma grafica e lemma) e la possibilità di importare liste aventi sub-occorrenze relative a più partizioni.
- Esteso il calcolo dell'Analisi delle Specificità anche a tabelle diverse dal Vocabolario (selezioni o fusioni del Vocabolario, liste importate).
- Esiste adesso la possibilità di esportare la tabella FrammentixForme in forma trasposta (FormexFrammenti), allo scopo di ottenere tabelle con minor numero di colonne che possano essere aperte agevolmente in software che soffrono di un limite nel numero dei campi accettati. La stessa opzione è stata attivata anche per l'esportazione della matrice TFIDF.
- È stata aggiunta una nuova opzione di normalizzazione riguardante il riconoscimento dei verbi idiomatici. A partire da una risorsa linguistica comprendente oltre 5.000 forme canoniche di locuzioni verbali che possiedono un significato idiomatico (ovvero non letterale come, <tagliare la testa al toro>, <fare orecchie da mercante>, <abbassare la guardia>, <mettersi il cuore in pace>, <mettere bocca> ecc.), questo nuovo algoritmo permette di lessicalizzare e categorizzare tutte le flessioni di tali entità, compresa la possibilità di riconoscere forme pro-clitiche (<si metta il cuore in pace>) e/o con inserti (<mettersi per sempre il cuore in pace>).
- Nuovi database di categorizzazione grammaticale, normalizzazione e nuovi lessici di riferimento (Italiano standard-FG e Linguaggio comune-FG). Le tre risorse sono state inoltre armonizzate dal punto di vista grammaticale allo scopo di migliorare la qualità dei risultati, in particolare dei confronti tra liste.
- Introduzione di un nuovo lessico di riferimento, il Lessico economico finanziario. È una risorsa di oltre 15.000 poliformi a carattere economico finanziario attestati in frequenza, con inoltre sub-frequenze ed uso calcolati sia dal punto di vista delle fonti di provenienza dei testi (stampa specializzata stampa non specializzata, libri di testo, documenti, bilanci ecc.), sia dal punto di vista dei temi trattati (borsa, marketing, economia politica, economia aziendale ecc.).
-
Nuovi dizionari di categorizzazione semantica:
- il dizionario enogastronomico contiene 8.894 tra nomi di vini, portate, ingredienti, piatti e utensili/accessori legati alla gastronomia.
- il dizionario dei luoghi delle attività quotidiane comprende oltre 5.000 locuzioni di luogo rilevate tra le descrizioni delle attività svolte durante la giornata (ad esempio: <a ballare>, <a caccia>, <in auto di mamma>, <in balcone>, <nel pianerottolo>, <verso la scuola> ecc.).
