翻譯語(yǔ)種
聊一聊打破!看限定性神經(jīng)網(wǎng)絡(luò)如何讓翻譯更精準(zhǔn)!
上世紀(jì)00年代早期,IBM鉆研核心初次展示了對(duì)規(guī)定和言語(yǔ)學(xué)無(wú)所不知的機(jī)器翻譯系統(tǒng)。
這里就需求業(yè)余的人員設(shè)計(jì)并找出一些特色值,可以形容并轉(zhuǎn)換成指標(biāo)言語(yǔ)。
palace chicken是什么鬼?難道不應(yīng)該是KungPao Chicken嗎?
這種方法,在現(xiàn)有的平行語(yǔ)料庫(kù)中找出與待翻譯局部最相似的翻譯實(shí)例,再對(duì)實(shí)例的譯文經(jīng)過(guò)交流、刪除或許添加等系列操作,完成翻譯。相似的例句越多,翻譯的效果越好。
曾經(jīng),想翻譯一句話,比如:
在一些特定的場(chǎng)景,如天氣預(yù)告、時(shí)間預(yù)測(cè)等,規(guī)定系統(tǒng)在狀態(tài)的準(zhǔn)確性、結(jié)果的可復(fù)現(xiàn)性、針對(duì)特定畛域停止調(diào)整的才能還是十分強(qiáng)的,然而要?jiǎng)?chuàng)造一個(gè)現(xiàn)實(shí)的基于規(guī)定的系統(tǒng),就算讓言語(yǔ)學(xué)家盡力窮盡所有拼寫規(guī)定來(lái)增強(qiáng)它,也總會(huì)遇到例外。英文有不規(guī)定動(dòng)詞、德語(yǔ)有可分離前綴、俄語(yǔ)有不規(guī)定的后綴,在人們談話的時(shí)分又會(huì)有各自的特點(diǎn),別忘了有些詞根據(jù)高低文還會(huì)產(chǎn)生不同的意思。
兩年來(lái),神經(jīng)網(wǎng)絡(luò)超過(guò)了翻譯界過(guò)去幾十年的所有。神經(jīng)翻譯的單詞謬誤縮小了60%,詞匯謬誤縮小28%,語(yǔ)法謬誤縮小20%。
這個(gè)大神,專業(yè)翻譯機(jī)構(gòu),簡(jiǎn)直有點(diǎn)像媒婆!構(gòu)想媒婆在給A引見對(duì)象B的場(chǎng)景,A(原文)只管沒(méi)有見過(guò)B(譯文),然而只需媒婆可以大致的形容B的特色(包括身高、長(zhǎng)相、身體、年齡等),A就能根據(jù)這些形容大致勾畫出這個(gè)指標(biāo)戀人B(譯文)的樣子。
然而如今的結(jié)果是:
咱們給機(jī)器更多的文本,它就給咱們更好的翻譯。然而??!設(shè)定的各種特色值,以及需求N多種人造言語(yǔ)解決的技術(shù)(分詞、詞性標(biāo)注、句法剖析等),每一步的謬誤率,像滾雪球一樣,將導(dǎo)致最終的結(jié)果有很大偏向。而且最大的成績(jī)是調(diào)序模型的不欠缺,籠罩不到全局特色,導(dǎo)致統(tǒng)計(jì)機(jī)器翻譯不斷瀏覽的流利性不是很好。
Crowne Plaza Macau委托我來(lái)翻譯這篇文章。
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(Neural Machine Translation, NMT)相比于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯(SMT)而言,可以訓(xùn)練一張可能從一個(gè)序列映射到另一個(gè)序列的神經(jīng)網(wǎng)絡(luò),輸出的可能是一個(gè)變長(zhǎng)的序列,這在翻譯、對(duì)話和文字概括方面可以獲得十分好的體現(xiàn)。
終于,當(dāng)當(dāng)當(dāng)當(dāng)!在2026年0月,Google宣布了一個(gè)顛覆性的進(jìn)展。這就是神經(jīng)機(jī)器翻譯。
Today we had KungPao Chicken.
Crowne Plaza Macaucommissioned me to translate this article.
4.基于統(tǒng)計(jì)的機(jī)器翻譯
在翻譯的進(jìn)程中,包括筆譯和口譯,假設(shè)把一句話中的關(guān)鍵信息(主從關(guān)系、數(shù)字、日期、人名、地名、機(jī)構(gòu)名、貨幣等)表達(dá)進(jìn)去,就能基本達(dá)到溝通的目標(biāo)。假設(shè)把原文中的關(guān)鍵字(算法工程師稱其為:命名實(shí)體)交流成想要的準(zhǔn)確譯文,不就能完成準(zhǔn)確翻譯的目標(biāo)嗎
理想上,言語(yǔ)服務(wù)從業(yè)人員宿愿用更少的工程腦力,來(lái)完成最終的準(zhǔn)確譯文——
澳門皇冠假日酒店委托我來(lái)翻譯這篇文章。
2.基于規(guī)定的機(jī)器翻譯
昔日,神經(jīng)網(wǎng)絡(luò)算法正處于始終欠缺進(jìn)程中。它比起傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯,譯文品質(zhì)有極大提高,不過(guò),一旦觸及到術(shù)語(yǔ)等關(guān)鍵信息,譯文往往是這樣的:
只有要把“澳門皇冠假日酒店”交流成我預(yù)備的術(shù)語(yǔ)“Crowne Plaza Macau”,就功敗垂成,稍作修正就失去我想要的譯文:
原題目:打破!看限定性神經(jīng)網(wǎng)絡(luò)如何讓翻譯更精準(zhǔn)!
真正的規(guī)定系統(tǒng)始于上世紀(jì)80年代。規(guī)定的原理很簡(jiǎn)略,最初就直觀地以為,找很多言語(yǔ)學(xué)家,集中寫一些語(yǔ)法規(guī)定,并輔助一些雙語(yǔ)詞典和轉(zhuǎn)寫規(guī)定就能完成精準(zhǔn)翻譯。
小編也從事翻譯十幾年,曾幾何時(shí)也是這么想的,由于以前就這樣做的。然而不知何時(shí)起,這種“聰明的”技巧,已經(jīng)在支流機(jī)器翻譯中不起作用了。
然而!神經(jīng)網(wǎng)絡(luò)翻譯機(jī)器,有時(shí)分會(huì)“發(fā)神經(jīng)”!它有時(shí)分會(huì)出現(xiàn)漏譯、過(guò)譯、短少語(yǔ)義信息等成績(jī)。
2028年6月28杭州言語(yǔ)服務(wù)世界杯,出現(xiàn)一種“很嚇人”的技術(shù),可以瞬間切換世界杯各個(gè)國(guó)度的言語(yǔ),那速度那精準(zhǔn)度,堪比場(chǎng)上的“C羅”!
翻譯退化小史,首先了解一下:
它的缺陷是,系統(tǒng)功用依賴于語(yǔ)料庫(kù),數(shù)據(jù)稀疏成績(jī)重大,語(yǔ)料庫(kù)中不容易流動(dòng)大顆粒度的高概括性知識(shí)。
要理解這些,小編帶大伙先看看機(jī)器翻譯的過(guò)程和簡(jiǎn)略的原理。
起初,基于語(yǔ)料庫(kù)的方法走上舞臺(tái)。2082年,中日的長(zhǎng)尾真?zhèn)魇谑紫忍岢隽诉@種思緒:間接用已經(jīng)預(yù)備好的短語(yǔ),不用反復(fù)翻譯。
舉幾個(gè)
4.基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯
系統(tǒng)“輕輕地”修正了譯文,沒(méi)有完成我指定的譯文?。。。?!