Perché, ad esempio, il traduttore automatico di Google funziona così male con l’italiano, con risultati per lo più grotteschi e maccheronici? Ecco la risposta:
“La maggior parte dei sistemi di tecnologia del linguaggio sviluppati da queste aziende si basano su approcci statistici imprecisi, che non fanno uso di metodi linguistici più sofisticati. Per esempio, le frasi vengono tradotte automaticamente mettendo a confronto una nuova frase contro migliaia di frasi tradotte in precedenza da esseri umani. La qualità del risultato dipende in larga misura dalla dimensione e dalla qualità del corpus campione disponibile. Mentre la traduzione automatica di frasi semplici in lingue con sufficienti quantità di materiale testuale a disposizione può raggiungere risultati utili, detti metodi statistici poco profondi sono destinati a fallire nel caso di lingue che dispongono di molto meno materiale campione, oppure nel caso di frasi con strutture complesse. Analizzare le proprietà strutturali più profonde delle lingue è l’unica strada percorribile se vogliamo creare applicazioni che funzionino bene per tutte le lingue d’Europa”.L’italiano – va detto – è in buona compagnia. Sono a rischio di estinzione digitale altre venti lingue europee. L’indagine è a largo raggio. META-NET (Multilingual Europe Technology Alliance), rete di eccellenza finanziata dalla Commissione Europea, ha prodotto trentuno libri bianchi, uno per ogni lingua.
Li trovate qui http://www.meta-net.eu/whitepapers, se avete interesse ad approfondire.
Inglese a parte, per le lingue con supporto digitale molto scarso è in gioco la sopravvivenza sul web. Stanno messe peggio le lingue islandese, lettone, lituano e maltese. L’italiano, con il francese, l’olandese, e il tedesco sono in una fascia di rischio intermedio.
Dicono i ricercatori – in tutto hanno lavorato 209 esperti – che senza supporti digitali, come correttori ortografici e grammaticali, assistenti interattivi sugli smartphone, sistemi di traduzione automatica su telefoni cellulari e motori di ricerca web, molte lingue europee non saranno in grado di sopravvivere nel mondo digitale.
“Mentre lingue come l’inglese e lo spagnolo probabilmente sopravvivranno nel mercato digitale emergente, molte altre lingue Europee potrebbero diventare irrilevanti all’interno di una società in rete. Questo porterebbe ad un indebolimento dello stato globale dell’Europa e andrebbe contro l’obiettivo strategico di assicurare un’uguale partecipazione a tutti i cittadini europei indipendentemente dalla lingua. Secondo un rapporto dell’UNESCO sul multilinguismo, le lingue rappresentano un mezzo essenziale per poter godere di diritti fondamentali come il diritto di espressione politica, il diritto all’educazione e alla partecipazione nella società”.Quanti parlano l’italiano
Il libro bianco fornisce dati preziosi. “La lingua italiana conta circa 62 milioni di parlanti nativi, il che la colloca tra le 20 lingue più parlate al mondo. 125 milioni di persone la usano come seconda lingua. Diverse comunità di ex-emigranti, ciascuna costituita da più di 500.000 persone che ancora parlano italiano, si trovano in Argentina, Brasile, Canada e Stati Uniti. Secondo un’indagine realizzata nel 2006, con i suoi 56 milioni di parlanti nativi residenti in Italia l’italiano è la seconda lingua nell’Unione Europea per numero di parlanti, dopo il tedesco e alla pari con l’inglese.
Nell’ambito di vari studi condotti in anni diversi, è stato stimato che altri 280.000 parlanti di italiano come prima lingua risiedano in Belgio, 70.000 in Croazia (paese candidato a entrare a far parte dell’Unione Europea), 1.000.000 in Francia, 548.000 in Germania, 20.800 nel Lussemburgo, 27.000 a Malta (esclusi 118.000 parlanti di italiano come seconda lingua), 2.560 in Romania, 4.010 in Slovenia, 200.000 nel Regno Unito e 471.000 in Svizzera.
L’italiano su internet
<a
href='http://adsy.publy.it/www/delivery/ck.php?n=a3776831&amp;cb=397415030'
target='_blank'><img
src='http://adsy.publy.it/www/delivery/avw.php?zoneid=926&amp;cb=397415030&amp;n=a3776831'
border='0' alt='' /></a>
Nel libro bianco si stima “che la penetrazione di
Internet in Italia si attesti al 51,7%, con 30 milioni di utenti su una
popolazione totale di 58 milioni; gli utenti di Internet in Italia sono
cresciuti del 127,5% tra il 2000 e il 2010 e rappresentano circa il 6,3%
degli utenti di Internet nell’Unione Europea. La percentuale di pagine
web in italiano a livello mondiale è raddoppiata passando dall’1,5% nel
1998 al 3,05% nel 2005. È stato stimato che nel 2004 in tutto il mondo
ci fossero 30,4 milioni di parlanti italiani online.Al di fuori dei confini dell’Unione Europea, le stime parlano di 520.000 americani, 200.000 svizzeri e 100.000 australiani che accedono a Internet in italiano.
Il numero di utenti di Internet italiani negli ultimi cinque anni è rimasto relativamente stabile, mentre il numero di nuovi utenti nei paesi in via di sviluppo è aumentato notevolmente. La conseguenza è che la proporzione di utenti Internet che parlano italiano subirà una diminuzione nel prossimo futuro e l’italiano potrebbe andare incontro al problema di essere sotto rappresentato nel Web, specialmente se paragonato all’inglese.
È qui che le tecnologie del linguaggio possono svolgere un ruolo fondamentale per vincere le sfide che aspettano la lingua italiana nell’era digitale”.
Conclusioni
“L’obiettivo a lungo termine di META-NET è introdurre tecnologie linguistiche di alta qualità per tutte le lingue. Ciò richiede che tutti i soggetti interessati – nella politica, nella ricerca, negli affari e nella società – uniscano i propri sforzi. La tecnologia contribuirà ad abbattere le barriere esistenti e a costruire ponti tra le lingue d’Europa, aprendo la strada verso l’unità politica ed economica attraverso la diversità culturale”.
Cioè, il sogno del padre della linguistica computazionale, padre Roberto Busa, il gesuita che si era messo in testa di insegnare le lingue ai computer.
Pino Bruno
http://www.agoravox.it/La-lingua-italiana-in-rete-e-a.html
[1] Istituto di Linguistica Computazionale del CNR
[2] Fondazione Bruno Kessler
Nessun commento:
Posta un commento