Memoria di traduzioneLa memoria di traduzione (in inglese translation memory, TM) è un particolare tipo di database utilizzato in programmi software progettati per assistere e aiutare il processo di traduzione. Alcuni programmi che usano memorie di traduzione sono noti come manager di memorie di traduzione (TMM). Le memorie di traduzione vengono tipicamente utilizzate con strumenti dedicati, ad esempio Traduzione Assistita da Computer Computer Assisted Translation (CAT), programmi per la videoscrittura, sistemi per la gestione della terminologia, dizionari multilingue, o anche risultati grezzi di traduzione automatica. L'idea che sta alla base delle memorie di traduzione risale alla fine degli anni settanta, tuttavia queste sono state immesse per la prima volta sul mercato solo alla fine degli anni '80. Una memoria di traduzione è composta da segmenti di testo del brano da tradurre in una lingua emittente e dalle corrispondenti traduzioni in una o più lingue riceventi. Questi segmenti, o stringhe, possono essere interi blocchi di testo, paragrafi frasi o sintagmi. Le coppie che si creano sono chiamate "unità di traduzione". Le singole parole, invece, non vengono gestite direttamente dalle TM, ma da database terminologici. Alcune ricerche dimostrano che molte ditte produttrici di documentazione multilingue usano sistemi di gestione di memorie di traduzioni. In un'indagine su professionisti della traduzione nel 2006, l'82,5% di 874 questionari ha confermato l'utilizzo di TM.[1] L'uso di TM è correlato con tipi di testo caratterizzati da termini tecnici e strutture di proposizione semplici (tecniche o seppure in minor grado, commerciali e finanziarie), buona esperienza nell'ambito dei computer, e ripetitività dei contenuti[1] Il traduttore fornisce al software di gestione della memoria di traduzione un brano origine da tradurre o prototesto. Il programma quindi divide il prototesto in segmenti, ricerca eventuali corrispondenze tra tali segmenti e i segmenti origine precedentemente tradotti e inseriti in memoria di traduzione disponibili, poi propone le corrispondenze trovate come possibili soluzioni di traduzione. Il traduttore può accettare le corrispondenze proposte ovvero sostituirle o modificarle per adattarle meglio al significato del prototesto e utilizzare la versione modificata. Negli ultimi due casi il segmento di prototesto e il corrispondente segmento tradotto metatesto, abbinati, sono inseriti nella memoria di traduzione. Alcuni programmi per la gestione di memorie di traduzione cercano solo le concordanze al 100% (concordanze esatte), vale a dire recuperano solo segmenti di testo che corrispondono esattamente alle unità di traduzione presenti nelle memorie di traduzione. Altri invece utilizzano algoritmi di corrispondenza approssimati, fuzzy: cercano stringhe che corrispondono parzialmente al segmento origine e le propongono al traduttore evidenziando le differenze; questi potrà peraltro impostare nel programma la percentuale di concordanza minima da considerare. La flessibilità e la robustezza degli algoritmi di ricerca delle concordanze determinano ampiamente le prestazioni del programma di gestione della memoria di traduzione, anche se per alcune applicazioni la percentuale di corrispondenze esatte è tanto alta da giustificare l'utilizzo delle sole concordanze esatte. I segmenti che non hanno nessuna corrispondenza in memoria dovranno essere tradotti manualmente dal traduttore. Questi nuovi segmenti tradotti vengono archiviati nel database, dove possono essere utilizzati per traduzioni future e nelle ripetizioni dello stesso brano in corso di traduzione. Le memorie di traduzione sono particolarmente efficienti per la traduzione di testi molto ripetitivi, come ad esempio i manuali tecnici. Sono utili anche per tradurre cambiamenti aggiunti man mano a un testo già tradotto in precedenza, in quanto permettono, per esempio, di trattare un minor numero di cambiamenti in una nuova versione di un manuale. Al contrario, le TM sono tradizionalmente considerate inadeguate per la traduzione di testi letterari per il semplice motivo che in questo tipo di testi la ripetizione è assente, o quasi. Tuttavia, alcuni le trovano utili anche per testi non ripetitivi, perché le risorse database create per le ricerche di concordanza hanno un valore per determinare l'uso appropriato dei termini, per l'assicurazione della qualità (nessun segmento vuoto), e per la semplificazione del processo di revisione (segmento sorgente e destinazione sono sempre visualizzati insieme, mentre i traduttori, in un ambiente di revisione tradizionale, devono lavorare con due documenti). Principali beneficiI sistemi di gestione di memorie di traduzione sono più adatti per la traduzione di documentazione tecnica e di documenti contenenti vocabolari specializzati. I vantaggi che offrono sono:
Principali ostacoliI principali problemi che ostacolano un uso più ampio di programmi di gestione di memorie di traduzione sono:
Funzioni di una memoria di traduzioneEcco un sommario delle principali funzioni di una memoria di traduzione. Funzione esterneImportaTale funzione serve per trasferire un brano e le sue traduzioni da un file di testo a una TM. Importa può essere fatto da un formato grezzo, in cui un brano esterno è disponibile per importarlo in una TM assieme alla sua traduzione. A volte i testi devono essere riprocessati dall'utente. C'è un altro formato che può essere utilizzato per importare: il formato nativo. Questo formato è quello che usa la TM per salvare le memorie di traduzione in un file. AnalisiIl processo di analisi avviene secondo i passi seguenti: Analisi testuale È molto importante riconoscere correttamente la punteggiatura per distinguere ad esempio tra un punto alla fine di una frase e un punto in un'abbreviazione. Così, il mark-up è una sorta di pre-edizione. Di solito, i materiali che sono stati elaborati attraverso programmi di aiuto ai traduttori contengono mark-up, siccome la fase di traduzione è incorporata in una linea di produzione di documenti multilingue. Altri elementi di testo speciali possono essere impostati da mark-up. Ci sono elementi speciali che non hanno bisogno di essere tradotti, come i nomi propri e i codici, mentre altri possono avere bisogno di essere convertiti in formato nativo. Analisi linguistica La riduzione del modulo di base viene utilizzata per preparare liste di parole e un testo per il recupero automatico di termini da una banca dati specifica. D'altra parte, l'analisi sintattica può essere utilizzata per estrarre termini con più parole o la fraseologia da un testo di partenza. Quindi, l'analisi viene utilizzata per normalizzare variazioni dell'ordine delle parole della fraseologia, cioè quali parole possono formare una frase. Segmentazione Il suo scopo è di scegliere le unità di traduzione più utili. La segmentazione è una specie di analisi. È fatta monolingualmente con analisi superficiale e l'allineamento si basa sulla segmentazione. Se i traduttori correggono manualmente le segmentazioni, le versioni successive del documento non troveranno le corrispondenze con la TM in base alla segmentazione corretta perché il programma ripeterà i propri errori. I traduttori di solito procedono frase per frase, anche se la traduzione di una frase può dipendere della traduzione di quelle circostanti. Allineamento È il compito di definire le corrispondenze di traduzione tra testi origine e destinazione. Dovrebbe esserci feedback dell'allineamento per la segmentazione e un algoritmo di allineamento buono dovrebbe essere in grado di correggere la segmentazione iniziale. Estrazione del termine Esso può avere come ingresso un dizionario precedente. Inoltre, quando si estraggono termini sconosciuti, è possibile utilizzare l'analisi sulla base delle statistiche di testo. Queste sono destinate a stimare la quantità di lavoro svolto in una traduzione. È molto utile per la pianificazione e programmazione del lavoro. Le statistiche sulle traduzioni di solito contano le parole e valutano la quantità di ripetizioni nel testo. EsportaEsporta trasferisce il testo dalla TM in un file di testo esterno. Importazione ed esportazione devono essere inverse. Funzioni on lineQuando si traduce, uno degli scopi principali della tecnologia TM è quello di recuperare le concordanze più utili nella memoria in modo che il traduttore può scegliere la migliore. La TM deve mostrare sia l'origine che testo di destinazione indicando le identità e le differenze. RicercaDiversi tipi di abbinamento possono essere recuperati da una TM.
Le concordanze esatte vengono visualizzate quando la corrispondenza tra il segmento di origine e quello memorizzato è una corrispondenza totale, carattere per carattere. Quando si traduce una frase, una corrispondenza esatta significa la stessa frase è stata tradotta prima. Le concordanze esatte sono anche dette "al 100%" (100% matches).
Una concordanza ICE è una concordanza esatta che si verifica esattamente nello stesso contesto, ovvero nella stessa posizione in un paragrafo. Il contesto spesso è definito dalle frasi circostanti e dagli attributi come il nome del file del documento, la data e le autorizzazioni.
Quando la concordanza non è esatta allora è una concordanza parziale. Alcuni sistemi assegnano le percentuali per questi tipi di abbinamento, nel qual caso una corrispondenza parziale è superiore a 0% e inferiore al 100%. Questi dati non sono comparabili tra diversi sistemi a meno che il metodo di punteggio non sia specificato.
Quando il traduttore seleziona una o più parole nel segmento di origine, il sistema recupera coppie di segmenti che corrispondono ai criteri di ricerca. Questa funzione è utile per trovare le traduzioni di termini e modi di dire in assenza di un database terminologico. AggiornamentoUna TM si aggiorna con una nuova traduzione quando sia stata accettata da parte del traduttore. Come sempre nell'aggiornamento di un database, si pone il problema di che cosa fare con i contenuti precedenti del database. Una TM può essere modificata cambiando o eliminando voci della TM. Alcuni sistemi consentono ai traduttori di salvare più traduzioni dello stesso segmento origine. Traduzione automaticaGli strumenti di memoria di traduzione prevedono spesso il reperimento automatico e la sostituzione.
Nelle TM viene effettuata la ricerca e il risultato è visualizzato automaticamente mentre il traduttore si sposta nel documento.
Con la sostituzione automatica, se una corrispondenza esatta si presenta nella traduzione di una nuova versione di un documento, il software ripete la vecchia traduzione. Se il traduttore non controlla la traduzione nei confronti della sorgente, un errore della traduzione precedente verrà ripetuto. Connessione in reteLa connessione in rete abilita un gruppo di traduttori a tradurre un brano assieme, più rapidamente di quanto ciascuno possa fare lavorando isolato, poiché le proposizioni e le frasi tradotte da un traduttore sono disponibili per gli altri. Inoltre, se le memorie di traduzione sono condivise prima della traduzione finale, vi è la possibilità per eventuali errori di un traduttore di essere corretti da altri membri della squadra. Memoria di testoLa "memoria di testo" è la base della proposta di Lisa OSCAR di uno standard per TM in codice XML.[2] Le memorie di testo comprendono memorie d'autore e memorie di traduzione. Memoria di traduzioneGli identificatori univoci vengono ricordati durante la traduzione in modo che il documento nella lingua di destinazione è 'esattamente' allineato a livello di unità di testo. Se il documento sorgente è successivamente modificato, allora le unità di testo che non hanno subito modifiche possono essere direttamente tradotte nella nuova versione di destinazione del documento, senza bisogno di alcuna interazione del traduttore. È il concetto di 'esatta' o 'perfetta' concordanza con la memoria di traduzione. xml:tm può anche fornire meccanismi per corrispondenze parziali e sfruttate nel documento. Storia delle memorie di traduzioneIl concetto alla base delle memorie di traduzione non è recente - la ricerca universitaria sul concetto iniziò alla fine degli anni '70, e le prime commercializzazioni divennero disponibili alla fine degli anni '80 - ma divennero commercialmente redditizie solo verso la fine degli anni '90. In origine i sistemi di memoria di traduzione memorizzavano allineate tra loro le frasi sorgente e destinazione in un database, da cui potevano essere richiamate durante la traduzione. Il problema con questo approccio 'sfruttato' è che non vi è alcuna garanzia se la nuova frase in lingua sorgente si trovi nello stesso contesto della frase del database sorgente. Di conseguenza tutte le corrispondenze sfruttate richiedono che un traduttore [umano] riveda la concordanza della memoria per pertinenza nel nuovo documento. Anche se inferiore, rispetto alla traduzione vera e propria, il riesame comporta ancora un costo. Supporto per nuove lingueGli strumenti di memoria di traduzione dalla maggioranza delle aziende non supportano molte lingue emergenti. Recentemente i paesi asiatici come l'India si sono buttati nell'elaborazione automatica del linguaggio, e vi è una forte domanda di memorie di traduzione in tali paesi in via di sviluppo. Poiché la maggior parte delle società di software CAT si stanno concentrando sui linguaggi istituzionali, niente sta accadendo sulle lingue asiatiche. Recenti tendenzeUn recente sviluppo è il concetto di 'memoria di testo' a differenza di memoria di traduzione.[3] Questa è anche la base del proposto standard LISA OSCAR.[4] Le 'memorie di testo' nelle xml:tm comprendono 'memorie d'autore' e 'memorie di traduzione'. La memoria d'autore viene utilizzata per tenere traccia delle modifiche durante il ciclo di creazione. Le memorie di traduzione utilizzano l'informazione dalla memoria d'autore per implementare l'abbinamento nelle memorie di traduzione.. Anche se destinata in primo luogo a documenti XML, xml:tm può essere utilizzata su qualsiasi documento che possa essere convertito in [5] formato XLIFF. Memorie di traduzione di seconda generazioneMolto più potenti delle TM di prima generazione, comprendono un motore di analisi linguistica, usano la tecnologia 'chunk' per suddividere i segmenti in gruppi terminologici intelligenti, e automaticamente generano glossari specifici. Memoria di traduzione e relativi standardTMXScambio di memorie di traduzione (Translation Memory eXchange: TMX) è uno standard che favorisce l'interscambio di memorie di traduzione fra fornitori di traduzioni. TMX è stato adottato dalla comunità dei traduttori come miglior metodo per importare ed esportare le memorie di traduzione. La versione attuale, la 1.4b, permette la ri-creazione dell'originale dei documenti sorgente e destinazione dai dati TMX. Una versione aggiornata, 2.0, è in via di sviluppo.[6] TBXTermBase eXchange. Questo standard LISA che è stato rivisto e ripubblicato come ISO 30042, consente lo scambio di dati terminologici comprese informazioni lessicali dettagliate. Il quadro per la TBX è fornito da tre norme ISO: ISO 12620, ISO 12200 e ISO 16642. ISO 12620 fornisce un inventario delle ben definite "categorie di dati" con i nomi standardizzati che funzionano come i tipi di elementi di dati o come valori predefiniti. ISO 12200 (nota anche come MARTIF) fornisce le basi per il nucleo strutturale di TBX. ISO 16642 (noto anche come Terminological Markup Framework) comprende un metamodello strutturale per Terminologia dei Linguaggi di Marcatura in generale.[7] UTXFormato universale per scambio di terminologia (Universal Terminology eXchange format: UTX) è uno standard specificamente progettato per essere utilizzato per dizionari utente di traduzione automatica, ma può essere usato per glossari generali, leggibili dall'utente. Lo scopo della UTX è quello di accelerare la condivisione dei dizionari e il loro riutilizzo tramite le sue specifiche estremamente semplici e pratiche. SRXScambio regole di segmentazione ('Segmentation Rules eXchange': SRX) è destinato a migliorare lo standard TMX così che i dati della memoria di traduzione che vengono scambiati tra applicazioni possano essere utilizzati più efficacemente. La capacità di specificare le regole di segmentazione che sono state usate nella traduzione precedente può aumentare lo sfruttamento che può essere raggiunto. GMXMetrica GILT. GILT sta per (Globalization, Internationalization, Localization, and Translation) Globalizzazione, Internazionalizzazione, Localizzazione e Traduzione. Lo standard metrica GILT consiste in tre parti: GMX-V per la metrica di volume, GMX-C per la metrica di complessità e GMX-Q per la metrica di qualità. La proposta di standard di Metriche GILT ha il compito di quantificare le esigenze del carico di lavoro e di qualità per qualsiasi attività GILT.[8] OLIFFormato aperto per lo scambio di lessici (Open Lexicon Interchange Format). OLIF è uno standard aperto, XML compatibile, per lo scambio di dati terminologici e lessicali0. Anche se originariamente inteso come un mezzo per lo scambio di dati lessicali tra lessici proprietari per la traduzione automatica, si è evoluto in una norma aperta e più generale per lo scambio di terminologia.[9] XLIFFFormati per l'interscambio di file di localizzazione XML (Localisation Interchange File Format) (XLIFF) intende fornire un singolo formato di file di scambio che può essere compreso da qualsiasi fornitore di localizzazione. XLIFF è il metodo d'elezione per l'interscambio di dati in formato XML nell'industria della traduzione.[10] TransWSServizi WEB di traduzione (Translation Web Services). TransWS specifica le chiamate necessarie per utilizzare i servizi Web per la presentazione e il recupero di file e messaggi relativi a progetti di localizzazione. Essa è intesa come un quadro dettagliato per l'automazione di gran parte del processo di localizzazione corrente mediante l'uso di Web service.[11] xml:tmQuesto approccio alla memoria di traduzione si basa sul concetto di memoria di testo che comprende memoria d'autore e memoria di traduzione. xml:tm è stato donato a Lisa OSCAR da XML-INTL POGettext Portable Object format. Anche se spesso non è considerato come un formato di memoria di traduzione, i Gettext file PO sono file bilingue che sono anche utilizzati nei processi di memoria di traduzione nello stesso modo in cui vengono utilizzate le memorie di traduzione. Tipicamente, un sistema di memoria di traduzione PO sarà composto da diversi file in una directory con struttura ad albero.. Comuni strumenti di lavoro con i file PO comprendono gli strumenti GNU gettext e il Translate Toolkit. Esistono anche diversi strumenti e programmi che modificano i file PO come se fossero semplici file di testo sorgente. Software di memoria di traduzione per computer da tavoloI software di memoria di traduzione per computer da tavolo sono ordinariamente utilizzati dai traduttori individuali per completare le traduzioni. Sono uno strumento specializzato per la traduzione nello stesso modo che un elaboratore di testi è uno strumento specializzato per la scrittura. Memoria di traduzione centralizzataI sistemi centralizzati di memoria di traduzione conservano le TM su un server centrale. Lavorano insieme con le TM tavolo e possono aumentare i tassi di concordanza delle TM del 30-60% in più rispetto allo sfruttamento raggiunto dalle sole TM da tavolo. Esportano corredi di traduzione (translation kit) o "t-kit" per gli strumenti di TM per computer da tavolo. Un t-kit contiene unità da tradurre pre-segmentate sul server centrale e un sottoinsieme della TM contenente tutte le vigenti concordanze della TM. La TM centralizzata di solito fa parte di un sistema di gestione della globalizzazione (Globalization Management System: GMS), che può anche contenere un database terminologico centralizzato (glossario), un programma gestionale (workflow engine), controllo dei costi, e altri strumenti. Note
Collegamenti esterni
|