更多精彩 >

響鈴:AI翻譯引進NMT技術(shù),就能精準識別“語境”嗎?

2018-06-08 10:52:41   來源:科技向令說  作者:曾響鈴 

摘要:AI翻譯作為垂直搜索產(chǎn)品,因其明朗的落地應(yīng)用場景而備受巨頭們關(guān)注。

《圣經(jīng).舊約》里記載著這樣一段故事:


當時人類聯(lián)合起來興建希望能通往天堂的高塔,為了阻止人類的計劃,上帝讓人類說不同語言,使人類相互之間不能溝通,計劃因此失敗,人類自此各散東西。


巴別塔典故,為世上出現(xiàn)不同語言和種族提供了解釋。盡管互聯(lián)網(wǎng)的出現(xiàn),讓“地球村”的夢想在地理空間上不再是遙不可及,但語言理解與文化背景成為了全球溝通最大的障礙,又生生的讓夢想變得骨感起來。


好在,各大搜索引擎都推出了AI翻譯。


1、AI翻譯這條賽道上,巨頭們都繞不過的“坎”


AI翻譯作為垂直搜索產(chǎn)品,因其明朗的落地應(yīng)用場景而備受巨頭們關(guān)注。


2016年,GNMT技術(shù)(谷歌的神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù),模仿人腦的神經(jīng)思考模式)全面布局于谷歌翻譯系統(tǒng)中,隨后,谷歌聲稱其AI翻譯的譯文質(zhì)量誤差降低了55%-85%,并且將此技術(shù)廣泛應(yīng)用于網(wǎng)頁翻譯與手機應(yīng)用。


國內(nèi),百度當時已經(jīng)研究出了可應(yīng)用的SMT技術(shù)(統(tǒng)計機器翻譯),但得知NMT的橫空出世之后,便迅速調(diào)轉(zhuǎn)方向轉(zhuǎn)而研發(fā)NMT技術(shù),于是就有了BNMT應(yīng)用于百度翻譯。盡管初時的百度翻譯速度很慢,但是,百度當時反應(yīng)也佐證NMT的價值性。


搜狗、阿里、騰訊等公司也都有部署NMT領(lǐng)域,推出多款基于神經(jīng)網(wǎng)絡(luò)的在線翻譯和手機應(yīng)用,在智能翻譯領(lǐng)域持續(xù)發(fā)力。360搜索自占據(jù)國內(nèi)搜索引擎行業(yè)二哥的位置后,同樣專注在AI領(lǐng)域與其他巨頭角力,上線了基于NMT的360翻譯,以期與去年上線的360英文搜索“雙劍合璧”。


但是我們會發(fā)現(xiàn),不論是谷歌還是BAT,其智能翻譯從未能聲稱能替代人工翻譯,因為翻譯還必須考慮到到使用者的情感及文化背景。從2016年起至今的兩年時間里,對海量語料的深度學習逐漸成為AI開發(fā)的必修課,也成了巨頭們布局AI翻譯繞不過的“坎”。


正是在這樣的背景下,360翻譯的深度學習調(diào)度平臺卯足了勁,在深層技術(shù)和語料挖掘上下苦功夫。除了發(fā)揮360搜索在新聞資訊方面的既有優(yōu)勢外,360的英文搜索還與微軟旗下的搜索引擎Bing開展技術(shù)合作,從而使得其AI翻譯背后坐擁海量中英網(wǎng)絡(luò)語料,讓其在理解語境方面更顯地道。另外,360翻譯采用的也是獨家研發(fā)的360NMT技術(shù)。


但這依然還只是個開始。


2、搜索平臺不約而同發(fā)力NMT,為的是哪般?


19.jpg


不論是國外的谷歌,還是國內(nèi)的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標配,翻譯集中的領(lǐng)域在中英互譯上,這是一個很有趣的現(xiàn)象。AI翻譯真的是塊肥肉嗎?惹得誰也不愿意掉隊。


據(jù)統(tǒng)計表明,全球一共有73個國家,超10億人以英語為官方語言,而漢語則是世界使用人數(shù)最多的語言,因此,中英互譯本身的用戶基數(shù)市場就能引起巨頭們足夠的注意力了。為什么要發(fā)力NMT,這得從AI翻譯人類語言的方式說起,包含三種:第一,基于規(guī)則的機器翻譯方法;第二,基于實例的機器翻譯方法;第三,基于統(tǒng)計的翻譯方法。SMT與NMT都屬于第三種,從語料自動學習翻譯模型,結(jié)合大數(shù)據(jù)通過評分輸出翻譯結(jié)果。


但是,SMT與NMT存在著顯著的差距。SMT采用的模式是通過平行語料進行統(tǒng)計分析,翻譯的準確性則與語料的豐富度呈明顯的正相關(guān),但是存在著翻譯結(jié)果太過零散,片面生硬,語法語義混亂的劣勢。而模仿人類神經(jīng)網(wǎng)絡(luò)構(gòu)建模型,NMT是以一個句子為基本的處理單元,好處在于翻譯過程中有著更好的語感,能降低SMT翻譯的關(guān)于“形態(tài)、句法、詞序”等方面出錯的概率。因此,NMT在技術(shù)上恰巧可以有效彌補SMT的缺陷。而隨著語料不斷地加碼,AI翻譯的準確度也就高得多。


3、AI翻譯引進NMT技術(shù),就能精準識別“語境”嗎?


搜狗同傳翻譯在某次國際性會議上,聲稱其神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)已達臨界點,并在進行大規(guī)模商用推廣。只是,搜狗的同傳還是在國際會議上出過爭議,結(jié)果不盡如人意。即便在正式的場合能夠應(yīng)對自如的搜狗,在非正式場合會是怎樣一種情況呢?很多時候的中英交流多以口語化形式出現(xiàn),對“語境”的理解遠比“語法和詞匯”難得多。下文我們將就幾組語句進行討論(以下從搜狗、360搜索、百度以及谷歌四大平臺進行對比)。


第一組:獻上我的膝蓋??纯?,最近這句網(wǎng)絡(luò)常用語各翻譯平臺的水平


谷歌:Offer my knee。


360:express my admiration。


百度:Offer my knees。


搜狗:Give me my knee。


測試結(jié)果是搜狗、百度、谷歌均傾向于單詞表面意思的翻譯,并未能結(jié)合具體的文化背景,而360對于該網(wǎng)絡(luò)用語的解釋就地道的多。


第二組:詩詞,選自杜甫的《登高》。因其詩中主要是以諸多意象組成的意境,看翻譯能否反饋這種情感。


《登高》原文摘選:


風急天高猿嘯哀,渚清沙白鳥飛回。


英語譯文:




有趣的是將各自翻譯的英文譯成中文時,沒有一個平臺能還原。而在詩歌的中譯英中360能夠結(jié)合“語境”處理詩中的意向要素,搜狗翻譯表達出了“悲愴”的情感,而百度翻譯和谷歌翻譯則完全是從字面上進行翻譯,破壞了詩的美好。


第三組:新聞,選自紅網(wǎng)。語言簡練正式,但涉及的元素較多,對語法的要求性比較高。


原文:據(jù)長沙市住房和城鄉(xiāng)建設(shè)委員會網(wǎng)站顯示,2018年5月23日,長沙共計有兩個項目獲批預(yù)售證,均位于雨花區(qū),分別為五礦萬境藍山和創(chuàng)元時代。


譯文:




同一段新聞,出現(xiàn)了四種不同的譯法。同一語句中各家強調(diào)的點不一樣,譬如首句的“長沙市住房和城鄉(xiāng)建設(shè)委員會”,360的翻譯結(jié)果更顯得專業(yè)并符合慣常表述,“長沙市”只是作為補充詞出現(xiàn),而搜狗、百度和谷歌的翻譯中,“長沙市”則是作為硬性的地名出現(xiàn)。尤為值得注意的是,根據(jù)語境,“五礦萬境藍山”和“創(chuàng)元時代”都是樓盤名字,應(yīng)當由漢語拼音直譯,只有360識別到這一點,搜狗、百度和谷歌三家都在“礦”、“藍山”、“創(chuàng)元”、“時代”等字眼上糾結(jié)。


從這三組中,我們能發(fā)現(xiàn)360偏好于基于“語境”的邏輯進行分詞,雖然也有做的不到位的,像針對詩詞這樣復(fù)雜的情感語句就無法準確傳達,但是在“流行語”優(yōu)勢明顯;而谷歌和百度基本上是基于詞組進行斷句,因此,翻譯也是一個詞一個詞,尤其是對古詩詞的理解,谷歌就顯得比較憂愁了。


因此,AI翻譯的問題主要反映在三大方面:第一,機器翻譯難以應(yīng)對語言規(guī)則不統(tǒng)一的口語;第二,AI翻譯難以結(jié)合文化語境進行理解,解析不出深層次的情感;第三,針對較長的段落,以及較為復(fù)雜的語境,往往會出現(xiàn)語法問題多,語句出錯率高的毛病。


4、AI翻譯要“地道”,技術(shù)倒不是關(guān)鍵


翻譯界老將何恩培曾講:“機器翻譯一直被公認為人工智能領(lǐng)域最難的課題之一。而且語言背后的多元文化和復(fù)雜社會屬性,注定了語言規(guī)則不可能規(guī)律化”。但是,中國有句老話:勤能補拙。對于AI翻譯而言,最難的不是技術(shù),而是“語境”理解,而AI翻譯能力的級別高低又體現(xiàn)在這,集中體現(xiàn)了平臺喂養(yǎng)語料的資源狀況。AI翻譯能否“地道”,取決于以下幾點。


1、訓練數(shù)據(jù)庫的內(nèi)容整體優(yōu)質(zhì)程度


這影響到翻譯準確程度,取決于信息資源的整合能力。不論是BAT,還是360、搜狗、有道等,都在注重內(nèi)容生態(tài)建設(shè),搜狗有了騰訊微信入口搜索,360搶占了安全領(lǐng)域的數(shù)據(jù)來源。但是,這不可能是一個完全開放的體系,沒有哪一家能夠整合整個互聯(lián)網(wǎng)的資源,各平臺訓練數(shù)據(jù)庫各有側(cè)重,AI翻譯特色也不盡相同,例如360翻譯側(cè)重于地道的口語與流行語,百度翻譯則顯得大而全。


2、開放平等的中外數(shù)據(jù)交流,或可加強AI的深度學習


國內(nèi)對標競品之間的合作相對較難,但中外數(shù)據(jù)交流卻是最好的互補。因此,百度上線過英文搜索產(chǎn)品,而360與微軟Bing有過技術(shù)合作。此外,有了國界互譯也變得更有意義。因此,中外數(shù)據(jù)合作,或許對于文化背景的數(shù)據(jù)積淀有很好的補充,也是擴充深度學習的語料最直接的方式。


3、需要準備大量的網(wǎng)絡(luò)語及口語語料


除了詩詞蘊含深厚文化底蘊外,網(wǎng)絡(luò)語和口語是與一個地域的文化最為接近的語言形態(tài),時下搜索引擎從被動搜索向主動的、基于用戶興趣的內(nèi)容推薦引擎轉(zhuǎn)型,這對于構(gòu)建口語語料訓練模型倒是一個不錯的嘗試。


雖然說,AI翻譯能夠精準識別“語境”是需要很長一段路要走,但是技術(shù)已經(jīng)在進步,360翻譯能夠開始揣摩語句背后的情感與心思,對于日常交流來說是一個很好的開端?;蛟S,我們將因此離“地球村”的夢想更進一步!


猜你喜歡
原創(chuàng)

原創(chuàng)科幻數(shù)字IP白月城發(fā)布AI短劇先導片,探索千億級市場

AI

《白月城》由“風起”“云涌”“撥云”“見月”四部曲組成,超現(xiàn)實科幻劇集,各篇章環(huán)環(huán)入扣,高潮迭起。

2024-08-26

一場AI與設(shè)計師的同臺競技,你更看好誰?

金融科技AI

如同工業(yè)革命的開啟,機器代替了大部分的手工,提升了生產(chǎn)效率;AI時代的到來,減少了重復(fù)、低價值的腦力...

2024-08-15

AI創(chuàng)新為消費電子“添翼” 產(chǎn)業(yè)鏈公司加碼布局

AI

首先,AI技術(shù)的引入將推動消費電子產(chǎn)品的功能升級和性能提升,如更智能的語音助手、更精準的健康監(jiān)測、更...

2024-06-20

原創(chuàng)

AI“亂殺”時代,我們真正需要的是什么樣的產(chǎn)品?

AI

本周,蘋果股價連漲三天,終于在美東時間6月13日周四收盤時超過微軟,重新奪回全球市值最高公司的頭銜。

2024-06-14

原創(chuàng)

剛剛!萬億英偉達發(fā)布“AI核彈”

AI芯片英偉達

推理性能提升30倍!英偉達黃仁勛再次甩出“王炸”

2024-03-19

海南省副省長尹麗波一行考察民銀國際,何幫喜董事長陪同

民銀國際

5月29日,海南省副省長尹麗波、海口市副市長馮勇、辦公廳五處處長祝喜、省長秘書謝琪、??诳乒ば啪洲k公...

2024-06-04

京東“企業(yè)超省月”將省錢進行到底:企業(yè)階梯價 多買多優(yōu)惠,團購整單低至85折!

京東

隨著“又便宜又好”的京東618全面開啟,大量企業(yè)涌入京東企業(yè)業(yè)務(wù)采購辦公設(shè)備、員工福利、市場營銷等生...

2024-06-04

天眼新知 | 端午佳節(jié) 小龍舟“乘風破浪”促大文旅蓬勃發(fā)展

天眼新知

端午佳節(jié)將至,借龍舟之勢,打造城市名片,推動文旅消費,“龍舟經(jīng)濟”熱潮正在興起。

2024-06-04

原創(chuàng)

構(gòu)建高質(zhì)量交付體系 格力地產(chǎn)多維錘煉“交付力”

格力地產(chǎn)

5月24日,珠海市住房和城鄉(xiāng)建設(shè)局等四部門聯(lián)合發(fā)布《關(guān)于促進我市房地產(chǎn)市場平穩(wěn)健康發(fā)展的若干措施》,...

2024-06-04

諾德股份回應(yīng)警示函:系此前披露事項,已積極整改

諾德股份

整體上看,諾德股份的信息披露違規(guī)行為非主觀故意,是對相關(guān)規(guī)則理解不到位以及缺乏與監(jiān)管層面有效前置溝通...

2024-06-04

原創(chuàng)

隋響空降Cleer抖音直播間,綠色旋律,一桿定音

Cleer ARC 3 音弧

Cleer ARC 3 音弧 作為權(quán)威機構(gòu)沙利文認證的“全球開放式AI耳機首創(chuàng)者”,尤其在運動場景下...

2024-06-04

《蛋仔派對》努力保護未成年人網(wǎng)絡(luò)安全,堅決落實反詐

《蛋仔派對》

網(wǎng)絡(luò)世界繁華多彩,極大地豐富了人們的娛樂生活,但凡事有利就有弊,未成年人們在網(wǎng)絡(luò)娛樂中遭遇詐騙錢財?shù)?..

2024-06-03

原創(chuàng)

80后海歸博士,殺出一個IPO!

佑駕創(chuàng)新

港股市場,即將迎來新風暴。

2024-06-03

中煙香港(06055.HK)公司優(yōu)勢凸顯,業(yè)績再超預(yù)期

中煙香港

6月 3 日,中煙香港(06055.HK)發(fā)布 2024年中期正面盈利公告。

2024-06-03

閩東之光·兩岸福茶坦洋工夫展演活動在北京成功舉辦

兩岸福茶坦洋工夫展演活動

為豐富中華民族優(yōu)秀文化福建體驗項目,展現(xiàn)“閩東之光”文化盛宴,弘揚中華優(yōu)秀傳統(tǒng)文化,2024年6月2...

2024-06-03

投資家網(wǎng)(jubohaotong.com)是國內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務(wù)平臺。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務(wù),包括行業(yè)媒體、智庫服務(wù)、會議服務(wù)及生態(tài)服務(wù)。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。

沙特天空塔投資設(shè)立專項基金帶領(lǐng)中國氫能獨角獸扎根沙特

2016年注冊于北京的中氫新能技術(shù)有限公司,下設(shè)位于大興的裝備制造公司、位于海淀區(qū)的技術(shù)研究院、材料...

挑戰(zhàn)奔馳的明星車企,突然“翻車”了

一度無比高光的理想汽車,猝不及防遭遇重挫。

深圳天使母基金姚小雄:將來股權(quán)投資行業(yè)競爭是服務(wù)能力的競爭

2024年1月10日,由投資家網(wǎng)主辦,財經(jīng)銳眼、有時間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...

避免卡脖子,硬科技如何“逆境”突圍?

2024年1月10日,由投資家網(wǎng)主辦,財經(jīng)銳眼、有時間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...

VC/PE眼中的“專精特新”

2024年1月10日,由投資家網(wǎng)主辦,財經(jīng)銳眼、有時間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...

不響不輟|第18屆中國投資年會·年度峰會在滬召開

不響不輟|第18屆中國投資年會·年度峰會在滬召開

5月8-10日,由投中信息、投中網(wǎng)主辦的“第18屆中國投資年會·年度峰會”在上海外灘W酒店盛大召開。

2024汽車科技創(chuàng)新與成果轉(zhuǎn)化大會在常州成功召開

2024汽車科技創(chuàng)新與成果轉(zhuǎn)化大會在常州成功召開

4月12日,2024汽車科技創(chuàng)新與成果轉(zhuǎn)化大會在常州經(jīng)開區(qū)成功召開。

不響不輟 | 第18屆中國投資年會·年度峰會即將啟幕

不響不輟 | 第18屆中國投資年會·年度峰會即將啟幕

2024年5月8-10日,由投中信息、投中網(wǎng)主辦,以“不響不輟”為主題的第18屆中國投資年會·年度峰...

投資家網(wǎng)協(xié)辦:首屆深圳灣資本市場年會隆重舉行

投資家網(wǎng)協(xié)辦:首屆深圳灣資本市場年會隆重舉行

12月20日,由南山區(qū)資本市場協(xié)會主辦,投資家網(wǎng)、桐鵬匯財金高管俱樂部協(xié)辦的資本巿場年會隨即舉行。

“投資家網(wǎng)·2023中國價值企業(yè)榜”重磅發(fā)布

“投資家網(wǎng)·2023中國價值企業(yè)榜”重磅發(fā)布

身處百年未有之大變局,中國經(jīng)濟這艘萬噸巨輪,早已屹立于世界舞臺中央。