技術(shù)探秘:谷歌翻譯背后的那些故事

2011/3/19 21:33:35    編輯:艾瑞網(wǎng)     字體:【

Win7之家afsion.com.cn):技術(shù)探秘:谷歌翻譯背后的那些故事

  "享受服務(wù)同時(shí),使用者往往會(huì)驚訝于他們是如何做到的",基于此,Google技術(shù)之旅正式開(kāi)啟,第一站選擇了谷歌翻譯,旨在帶領(lǐng)大家體驗(yàn)Google翻譯背后的技術(shù),分享研發(fā)背后的故事,一同感受Google翻譯和谷歌工程師的技術(shù)魅力。

圖為:Google翻譯團(tuán)隊(duì)研發(fā)經(jīng)理陳雍昇

  3月17日,在谷歌北京辦公地點(diǎn)科健大廈,Google翻譯團(tuán)隊(duì)研發(fā)經(jīng)理陳雍昇,帶領(lǐng)其團(tuán)隊(duì)成員共同揭開(kāi)了Google翻譯產(chǎn)品的技術(shù)和背后研發(fā)的故事,目前,Google 翻譯可提供 57種語(yǔ)言之間的即時(shí)翻譯,其中甚至包括了少數(shù)民族語(yǔ)言,如威爾士和海地克里奧爾語(yǔ),Google 翻譯可以幫助用戶閱讀搜索結(jié)果、網(wǎng)頁(yè)、電子郵件、YouTube視頻字幕以及其他信息,用戶甚至還能在Gmail內(nèi)進(jìn)行實(shí)時(shí)的多語(yǔ)言對(duì)話。借助 Google 翻譯,Google希望將所有信息變?yōu)橛脩羝毡榭衫斫獾挠杏眯畔,而無(wú)需考慮其源語(yǔ)言。

  谷歌:發(fā)現(xiàn)用戶需求并不難 滿足用戶需求才是關(guān)鍵

  2004年,Google創(chuàng)始人之一Sergey Brin使用市面上的網(wǎng)絡(luò)翻譯服務(wù)來(lái)翻譯韓國(guó)粉絲的郵件,結(jié)果顯示:"生魚(yú)片帶著它的愿望,用Google搜索綠洋蔥!".這樣的結(jié)果,讓Sergey認(rèn)為Google在這方面可以做的更好。

  現(xiàn)實(shí)中,很多產(chǎn)品經(jīng)理抱怨用戶需求很難發(fā)現(xiàn),在谷歌看來(lái),發(fā)現(xiàn)需求也許并不難,而難的是如何更好的滿足需求,谷歌翻譯產(chǎn)品就是個(gè)非常好的例子。谷歌翻譯并沒(méi)有采用傳統(tǒng)的機(jī)器翻譯方法,就是事先在機(jī)器中灌輸大流量詞匯與語(yǔ)法,然后按照句子直譯過(guò)來(lái),而是獨(dú)辟蹊徑的逆向思維,采用平行語(yǔ)庫(kù)的方式,即先往計(jì)算機(jī)內(nèi)輸入大量的文字文本,涵蓋目標(biāo)語(yǔ)言的文本和對(duì)應(yīng)翻譯文本中現(xiàn)有的人工翻譯數(shù)據(jù),然后構(gòu)建統(tǒng)計(jì)翻譯模型。

  而這些模型幫助Google找到了無(wú)數(shù)的相互關(guān)系,從這些相互關(guān)系中,得出某個(gè)特定單詞、短語(yǔ)或文件的最佳翻譯結(jié)果。Google 翻譯針對(duì)某種特定語(yǔ)言分析的翻譯文檔越多,譯文的質(zhì)量就越高。

圖:谷歌翻譯李白靜夜思的截圖

  當(dāng)然,如果把唐詩(shī)宋詞輸入進(jìn)去,進(jìn)行中翻英的話,也許還是得到的結(jié)果并不是很滿意。"目前,google翻譯大量的平行語(yǔ)庫(kù)來(lái)自于學(xué)術(shù)機(jī)構(gòu),和一些文學(xué)作品,所以一些特殊文學(xué)方式翻譯并不是特別準(zhǔn)確,但隨著平行語(yǔ)料的增加,將更加精準(zhǔn),與此同時(shí),時(shí)下的流行用語(yǔ)也是逐漸被google翻譯逐漸收錄的。" Google翻譯團(tuán)隊(duì)研發(fā)經(jīng)理陳雍昇如是說(shuō)。

  消除語(yǔ)言障礙 世界是平的

  巴別塔一說(shuō)已經(jīng)眾所周知,《圣經(jīng)·舊約》說(shuō),古巴比倫人欲建造巴別塔欲與天公比高,大家語(yǔ)言相通,同心協(xié)力統(tǒng)一強(qiáng)大,此事驚動(dòng)上帝,后者想阻止他們,于是悄悄地離開(kāi)天國(guó)來(lái)到人間,改變并區(qū)別開(kāi)了人類的語(yǔ)言,使他們因?yàn)檎Z(yǔ)言不通而分散在各處,那座塔于是半途而廢了。當(dāng)然,這只是種傳說(shuō)而已。

  但事實(shí)上,語(yǔ)言的不統(tǒng)一,確實(shí)導(dǎo)致信息分享的不對(duì)稱,據(jù)陳雍昇介紹說(shuō),從世界的資料來(lái)看,中文資料只占世界所有資料的3%,大部分資料是其他語(yǔ)言形式的。所以,在Google看來(lái),語(yǔ)言本就不應(yīng)該成為用戶訪問(wèn)和使用互聯(lián)網(wǎng)的障礙,而Google翻譯所提供的服務(wù)正是為了讓人們跨越語(yǔ)言的藩籬,自由地與各國(guó)朋友分享和交流信息:讓全世界的網(wǎng)友看懂你的網(wǎng)站,讓所有朋友分享你博客上的喜怒哀樂(lè),享受更加精彩的互聯(lián)網(wǎng)世界。

  《世界是平的》一書(shū)中,而隨著科技和通信領(lǐng)域如閃電般迅速的進(jìn)步,使全世界的人們可以空前地彼此接近,彼此間工作和交流的機(jī)會(huì)越來(lái)越多。陳雍昇向介紹了谷歌一對(duì)多的一個(gè)非常實(shí)用的應(yīng)用,"谷歌翻譯最典型的一對(duì)多的案例就是,10年南非世界杯,來(lái)自全國(guó)各地的游客和球迷涌向南非,而當(dāng)?shù)氐穆灭^的工作人員邊通過(guò)谷歌翻譯來(lái)進(jìn)行一國(guó)語(yǔ)言與多國(guó)語(yǔ)言的溝通。"

  在眾多應(yīng)用中,最令記者感到驚訝的是,一位患者通過(guò)手機(jī)客戶端上的谷歌翻譯與醫(yī)生進(jìn)行溝通,似乎再進(jìn)一步印證除了語(yǔ)言不應(yīng)該有障礙,而在社會(huì)資源上也同樣不應(yīng)該有障礙,也許對(duì)于不久的將來(lái),對(duì)于盲文的支持也將出現(xiàn)。

  谷歌產(chǎn)品:形散而神不散

  谷歌的企業(yè)文化鼓勵(lì)工程師們將20%的工作時(shí)間用于自己喜歡的項(xiàng)目,此舉是為了鼓勵(lì)員工開(kāi)發(fā)新產(chǎn)品,但紛繁的產(chǎn)品容易導(dǎo)致產(chǎn)品分布復(fù)雜化,得不到有效的整合,對(duì)于此,陳雍昇表示并不擔(dān)心,在谷歌翻譯里已經(jīng)整合很多的功能,Google 翻譯可以幫助用戶閱讀搜索結(jié)果、網(wǎng)頁(yè)、電子郵件、YouTube視頻字幕以及其他信息,用戶甚至還能在Gmail內(nèi)進(jìn)行實(shí)時(shí)的多語(yǔ)言對(duì)話。

  對(duì)于未來(lái)谷歌翻譯是否支持手機(jī)拍照后翻譯,陳雍昇并沒(méi)有否定,只是說(shuō)未來(lái)充滿想象。