Win7之家( afsion.com.cn):谷歌翻譯的中國(guó)基因
2004年,Google創(chuàng)始人之一Sergey Brin使用市面上的網(wǎng)絡(luò)服務(wù)來(lái)翻譯韓國(guó)粉絲發(fā)來(lái)的郵件,結(jié)果顯示:“生魚(yú)片帶著它的愿望,用Google搜索綠洋蔥!”這樣的結(jié)果,讓Sergey認(rèn)為Google在這方面可以做的更好。
不久前,Google翻譯發(fā)布了iPhone和Android版本,讓用戶能夠隨時(shí)使用翻譯服務(wù),更加輕松便捷地跨越語(yǔ)言障礙。該手機(jī)應(yīng)用可以識(shí)別15種語(yǔ)言的語(yǔ)音輸入,朗讀或全屏顯示23種語(yǔ)言的翻譯結(jié)果。對(duì)于非拉丁字母語(yǔ)言,例如中文和日文,應(yīng)用將標(biāo)注拼音或羅馬字讀音,便于非母語(yǔ)用戶讀出。與Google翻譯的桌面應(yīng)用相同,移動(dòng)翻譯也能夠翻譯58種語(yǔ)言書(shū)寫(xiě)的字詞和短語(yǔ)。
移動(dòng)翻譯設(shè)置了一些常用內(nèi)容的翻譯收藏,即便在沒(méi)有互聯(lián)網(wǎng)連接的情況下也可讀取,實(shí)時(shí)翻譯則需通過(guò)WiFi或移動(dòng)網(wǎng)絡(luò)連入Google云端獲取結(jié)果。這款產(chǎn)品對(duì)于很多用戶來(lái)說(shuō)非常方便,如果身在國(guó)外,不知道某句話用外語(yǔ)該怎么說(shuō),只需打開(kāi)程序,把想說(shuō)的話念給手機(jī),然后點(diǎn)擊“翻譯”,手機(jī)就可以把譯文朗讀出來(lái)。
基于統(tǒng)計(jì)的機(jī)器翻譯
Google翻譯產(chǎn)品在全球只有兩個(gè)團(tuán)隊(duì),一個(gè)是在Google總部,另一個(gè)就在中國(guó)上海!癎oogle翻譯在上海成立,主要因?yàn)楫?dāng)初有兩個(gè)人喜歡做翻譯,其中一個(gè)就是尹俊(Google翻譯產(chǎn)品研發(fā)領(lǐng)導(dǎo),作者注),他可謂是Google上海翻譯團(tuán)隊(duì)的創(chuàng)始人。通過(guò)美國(guó)翻譯團(tuán)隊(duì)開(kāi)展合作,上海的翻譯隊(duì)伍越來(lái)越大,現(xiàn)在已經(jīng)達(dá)到十幾人的規(guī)模。目前美國(guó)總部的翻譯團(tuán)隊(duì)主要負(fù)責(zé)后臺(tái)的平行語(yǔ)料數(shù)據(jù),上海翻譯團(tuán)隊(duì)負(fù)責(zé)手機(jī)、桌面電腦翻譯應(yīng)用的開(kāi)發(fā)。 Google的創(chuàng)新模式常常是自下而上的,工程師可以在工作中發(fā)揮個(gè)人興趣,如果做出成績(jī),就有可能凝聚逐漸擴(kuò)大成一個(gè)團(tuán)隊(duì)!痹陉愑簳N看來(lái),上海團(tuán)隊(duì)的建立要?dú)w功于Google的創(chuàng)新模式。
現(xiàn)今大部分的商業(yè)翻譯系統(tǒng)都是屬于規(guī)則法機(jī)器翻譯,需要做大量詞匯與語(yǔ)法的工作。Google翻譯則采取基于統(tǒng)計(jì)的機(jī)器翻譯,這是IBM科學(xué)家在1993年提出的理念,具有劃時(shí)代的意義。Google現(xiàn)在支持58種語(yǔ)言的互譯,翻譯團(tuán)隊(duì)的成員們掌握的語(yǔ)言遠(yuǎn)少于這個(gè)數(shù)字,這也是統(tǒng)計(jì)翻譯的魅力所在。統(tǒng)計(jì)翻譯的具體原理是,先往計(jì)算機(jī)里輸入大量的文字文本,搭建涵蓋源語(yǔ)言和目標(biāo)語(yǔ)言的平行語(yǔ)料庫(kù),構(gòu)建統(tǒng)計(jì)翻譯模型。這些模型可以幫助Google在源語(yǔ)言與目標(biāo)語(yǔ)言中尋找各種相互關(guān)系,得出某些特定單詞、短語(yǔ)或文件的最佳翻譯結(jié)果。針對(duì)某種特定語(yǔ)言,Google翻譯分析的翻譯文檔越多,譯文的質(zhì)量就越高。據(jù)陳雍昇介紹,Google翻譯主要有四個(gè)步驟:
首先,系統(tǒng)需要將源語(yǔ)言句子切分為短語(yǔ),這是一門復(fù)雜的學(xué)問(wèn)。英文單詞之間有空格,中文句子則不然。由于統(tǒng)計(jì)翻譯系統(tǒng)本身并不具備理解自然語(yǔ)言的能力,在面對(duì)“汽水不如果汁好喝”這個(gè)句子,“不如”和“如果”都是一種劃分可能;其次,不同語(yǔ)系的組織形式有很大差別,研發(fā)人員必須通過(guò)對(duì)平行語(yǔ)料的分析來(lái)處理詞匯的排序問(wèn)題。分析平行語(yǔ)料是建模過(guò)程,翻譯則是利用模型的過(guò)程,前者的算法往往比后者復(fù)雜;然后,系統(tǒng)需要分辨同一個(gè)詞的不同形態(tài),例如過(guò)去式和現(xiàn)在分詞,這是一個(gè)判斷的過(guò)程;最后,將構(gòu)成目標(biāo)語(yǔ)言的詞匯合理聯(lián)結(jié)起來(lái)。
Google目前能夠翻譯58種語(yǔ)言,如果按排列組合來(lái)算,理論上需對(duì)應(yīng)近3000種平行語(yǔ)料,事實(shí)上Google翻譯的語(yǔ)料庫(kù)遠(yuǎn)沒(méi)這么多,所以很多語(yǔ)言之間的翻譯是經(jīng)過(guò)“橋接”的,這在機(jī)器翻譯中是一種常見(jiàn)技巧。打個(gè)形象點(diǎn)的比方吧,目前法英互譯的質(zhì)量肯定比法漢互譯要好,如果遇到法譯漢的需要,翻譯系統(tǒng)可能采取迂回戰(zhàn)術(shù),先將法語(yǔ)翻譯成英語(yǔ),再?gòu)挠⒄Z(yǔ)到漢語(yǔ)。比如Google翻譯中關(guān)于泰文和希伯來(lái)文的平行語(yǔ)料較少,但卻能夠提供這兩種語(yǔ)言的翻譯,據(jù)陳雍昇透露,“這種偏僻語(yǔ)系的互譯十之八九是經(jīng)過(guò)橋接的”。
“提高翻譯質(zhì)量是一個(gè)多管齊下的技術(shù)。翻譯的質(zhì)量最主要的還是需要收集平行語(yǔ)料,此外,如果在建模方面可以找到更好的匹配算法或拆分算法,雙管齊下效果更好!标愑簳N打了個(gè)巧妙的比方,“平行語(yǔ)料好比食材,只有材料夠好,廚師的手藝也夠好,而且也有一些調(diào)味料的情況下,才能做出美味的菜肴。”
移動(dòng)翻譯——“20%項(xiàng)目”的產(chǎn)物
Google有個(gè)20%項(xiàng)目,允許員工拿出20%的工作時(shí)間,用來(lái)從事本職工作以外的項(xiàng)目,這樣就能開(kāi)發(fā)出更多種類的產(chǎn)品,移動(dòng)翻譯可以算作Google“20%項(xiàng)目”的產(chǎn)物。
“最初移動(dòng)這方面有幾個(gè)因素,第一個(gè)就是因?yàn)榇蠹叶颊f(shuō)移動(dòng)是未來(lái),這我相信。第二,發(fā)生了一個(gè)小故事——有個(gè)同事做出了手機(jī)網(wǎng)頁(yè)版的移動(dòng)翻譯,并且發(fā)布出去,結(jié)果那段時(shí)間我們的流量呈幾何倍數(shù)的瘋漲。”這使陳雍昇意識(shí)到移動(dòng)搜索的市場(chǎng)需求之大。
他開(kāi)始在上海研發(fā)中心游說(shuō),問(wèn)誰(shuí)愿意做這個(gè)項(xiàng)目的義工。朱文章(Google翻譯iPhone主導(dǎo)工程師,作者注)對(duì)手機(jī)應(yīng)用很感興趣,就在正活之外進(jìn)行iPhone版Google翻譯的研發(fā),只用兩天時(shí)間就做出了產(chǎn)品雛形!拔覀兊谝粋(gè)手機(jī)翻譯產(chǎn)品的就是這樣誕生的,”談起移動(dòng)翻譯,陳雍昇的自豪之情溢于言表。
上海團(tuán)隊(duì)、美國(guó)團(tuán)隊(duì)對(duì)于產(chǎn)品雛形都很滿意,并且為朱文章加撥了人力支持。大概兩三個(gè)季度后,由朱文章領(lǐng)導(dǎo)開(kāi)發(fā)的iPhone版Google翻譯正式發(fā)布。在超過(guò)一周的時(shí)間里,它一直是全球排名第一的免費(fèi)軟件。
理論上來(lái)講,Google能在電腦端能夠多少語(yǔ)種的互譯,也能在手機(jī)端提供那么多。而在實(shí)際情況中,移動(dòng)翻譯提供多少語(yǔ)種的語(yǔ)音翻譯,取決于其支持多少語(yǔ)種的語(yǔ)音識(shí)別。語(yǔ)音識(shí)別需要龐大的數(shù)據(jù)來(lái)源,才能建立很好的分辨模型,對(duì)此Google早有準(zhǔn)備。2007年,Google開(kāi)始提供GOOG-411) 處理語(yǔ)音搜索。雖然GOOG-411并非Google的重要收入來(lái)源,但它為研發(fā)人員收集了海量數(shù)據(jù),使之能夠不斷完善語(yǔ)音識(shí)別算法。一年后Google 推出的語(yǔ)音搜索,足以比肩其他公司歷時(shí)數(shù)年才搭建起來(lái)的類似系統(tǒng)。據(jù)Google稱,這款語(yǔ)音搜索服務(wù)為Google Android和蘋果iPhone等智能手機(jī)平臺(tái)上“更多富有野心的服務(wù)提供了基礎(chǔ)”。例如,裝有Froyo軟件的Android用戶可通過(guò)語(yǔ)音控制手機(jī)的絕大部分功能,而Google推出的iPhone應(yīng)用也內(nèi)置了語(yǔ)音識(shí)別功能。
Google 2010年10月關(guān)閉了這項(xiàng)服務(wù),并在聲明中表示,計(jì)劃將相關(guān)資源投入到“使下一代Google產(chǎn)品和服務(wù)支持多語(yǔ)種語(yǔ)音的技術(shù)”中,我們現(xiàn)在看到的語(yǔ)音翻譯即是成果之一?梢灶A(yù)見(jiàn),語(yǔ)音識(shí)別未來(lái)將成為Google更多服務(wù)的特性。
雖然移動(dòng)翻譯接收的源語(yǔ)言多數(shù)具有口語(yǔ)化的特點(diǎn),在陳雍昇看來(lái),這對(duì)翻譯質(zhì)量并不會(huì)造成太大影響。首先,用戶使用語(yǔ)音翻譯時(shí),對(duì)自己要講的內(nèi)容一般都有明確的認(rèn)識(shí),所以語(yǔ)句的流暢程度跟桌面翻譯的差異不大。其次,人們使用語(yǔ)音翻譯時(shí)的說(shuō)話方式不同于演講,多數(shù)情況下語(yǔ)句簡(jiǎn)短,對(duì)于語(yǔ)音翻譯來(lái)說(shuō)不難應(yīng)對(duì)。 “二者最大的差異在于用戶體驗(yàn)方面。電腦鍵盤使用很方便,而手機(jī)鍵盤很小,我們必須想辦法方便用戶輸入源語(yǔ)言。此外,語(yǔ)音翻譯的使用環(huán)境可能跟辦公室有較大區(qū)別,相對(duì)于口語(yǔ)中偶爾出現(xiàn)的停頓和重復(fù)現(xiàn)象,外界雜音對(duì)翻譯質(zhì)量的影響更大,所以我們得過(guò)濾不必要的訊息!
過(guò)濾雜音的任務(wù)多由翻譯程序完成,研發(fā)人員可以設(shè)定一個(gè)音量閾值,將低于此值的雜音篩掉。此外,如果語(yǔ)言出現(xiàn)停頓,將其作為句子結(jié)束還是“正在考慮、尚未說(shuō)完”來(lái)處理,也是翻譯程序可以決定和控制的。再者,“如果用戶說(shuō)錯(cuò)了一兩個(gè)字該怎么處理?讓其重說(shuō)一遍還是直接修改那一兩個(gè)字,這些用戶體驗(yàn)方面的問(wèn)題,都可以通過(guò)完善翻譯程序來(lái)提升!
陳雍昇表示,“除了之前的語(yǔ)音搜索,Google有很多產(chǎn)品用到語(yǔ)音方面的功能。在用戶使用這些產(chǎn)品的過(guò)程中,研發(fā)人員會(huì)根據(jù)用戶反饋不斷完善產(chǎn)品的算法。經(jīng)過(guò)一輪一輪的迭代,產(chǎn)品質(zhì)量自然而然會(huì)有所提高。” 然而,Google目前的文字翻譯系統(tǒng)尚有許多語(yǔ)法錯(cuò)誤,其語(yǔ)音識(shí)別技術(shù)能否應(yīng)付各種各樣的地方口音,用戶們的體會(huì)最深刻。(部分采訪內(nèi)容來(lái)源于華財(cái)網(wǎng))
評(píng)論列表
查看所有 條評(píng)論