▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶(hù)端

登錄

  • +1

微軟技術(shù)院士黃學(xué)東:以人為師,機(jī)器翻譯達(dá)人類(lèi)專(zhuān)業(yè)水平

澎湃新聞?dòng)浾?王心馨
2018-04-22 18:48
來(lái)源:澎湃新聞
? 科學(xué)湃 >
字號(hào)

今年是黃學(xué)東加入微軟的第25年,但這位微軟老將至今仍活躍在人工智能領(lǐng)域科學(xué)研究的前線。

2018年3月份,他帶領(lǐng)的團(tuán)隊(duì)在機(jī)器翻譯領(lǐng)域拿下一項(xiàng)里程碑式的成就:其研發(fā)的機(jī)器翻譯系統(tǒng)在通用新聞報(bào)道的newstest2017中譯英測(cè)試集上,達(dá)到了人工翻譯水平。這是首個(gè)在新聞報(bào)道的翻譯質(zhì)量和準(zhǔn)確率上媲美人工翻譯的翻譯系統(tǒng)。在去年8月,也是在黃學(xué)東的帶領(lǐng)下,其團(tuán)隊(duì)在產(chǎn)業(yè)標(biāo)準(zhǔn)Switchboard語(yǔ)音識(shí)別基準(zhǔn)測(cè)試中實(shí)現(xiàn)了對(duì)話語(yǔ)音識(shí)別詞錯(cuò)率(word error rate,簡(jiǎn)稱(chēng)WER),低至5.1%,創(chuàng)造了當(dāng)時(shí)該領(lǐng)域內(nèi)錯(cuò)誤率最低紀(jì)錄,首次達(dá)成與專(zhuān)業(yè)速記員持平而優(yōu)于絕大多數(shù)人的表現(xiàn)。

在兩年不到的時(shí)間里,黃學(xué)東的團(tuán)隊(duì)接二連三地取得突破。他的成績(jī)也獲得了微軟的認(rèn)可。2017年,他被評(píng)選為微軟技術(shù)院士(Technical Fellow),這代表著微軟技術(shù)人員的最高榮譽(yù),獲得這一榮譽(yù)的人還包括圖靈獎(jiǎng)得主Butler W Lampson、Charles P. Thacker等。

黃學(xué)東

近日,在北京微軟亞洲研究院里,這位國(guó)際電子電氣工程師學(xué)會(huì)(IEEE)和美國(guó)計(jì)算機(jī)學(xué)會(huì)(ACM)的雙科院士,微軟認(rèn)知工具包CNTK的締造者之一,用一口帶著湖南鄉(xiāng)音的普通話接受了澎湃新聞(www.kxwhcb.com)的采訪。

從大學(xué)時(shí)代到加入微軟,踏上25年的技術(shù)征程,再到帶領(lǐng)團(tuán)隊(duì)屢創(chuàng)佳績(jī),黃學(xué)東談到了自己為什么能堅(jiān)持這么久的原因:就是想讓語(yǔ)言交流能夠更美好,人與人之間的語(yǔ)言障礙可以消除。目前,黃學(xué)東的團(tuán)隊(duì)已經(jīng)在語(yǔ)音識(shí)別的詞錯(cuò)率上達(dá)到了專(zhuān)業(yè)速記員的水平,并且在機(jī)器翻譯上比肩人類(lèi)專(zhuān)業(yè)譯者。在采訪中,除了談到最新的機(jī)器翻譯突破背后的故事外,黃學(xué)東還談到了人工智能技術(shù)發(fā)展最終是否會(huì)取代人的問(wèn)題,以及中美之間的人工智能之爭(zhēng)。

以人為師:微軟機(jī)器翻譯提前7年超越人類(lèi)譯者

在2017年,牛津大學(xué)曾向機(jī)器學(xué)習(xí)(Machine Learning)的研究人員做過(guò)一項(xiàng)調(diào)查,調(diào)查的內(nèi)容是對(duì)人工智能未來(lái)發(fā)展的預(yù)測(cè)。根據(jù)這些研究人員的預(yù)測(cè),未來(lái)10年的人工智能會(huì)在很多方面超過(guò)人類(lèi)。其中,他們預(yù)測(cè)機(jī)器翻譯想要超過(guò)人類(lèi)業(yè)余譯者需要8年時(shí)間。

根據(jù)這項(xiàng)預(yù)測(cè),微軟今年3月份研發(fā)出的機(jī)器翻譯系統(tǒng),實(shí)際上將機(jī)器翻譯中譯英方面超越人類(lèi)業(yè)余譯者的時(shí)間提前了7年,并達(dá)到了比肩人類(lèi)專(zhuān)業(yè)譯者的水平。

“這是一個(gè)歷史性的突破,因?yàn)檎Z(yǔ)言一直是我們?nèi)祟?lèi)交流最重要的東西,尤其中國(guó)要走向世界,中翻英現(xiàn)在可以達(dá)到專(zhuān)業(yè)的水平,這是一個(gè)歷史性的突破。這對(duì)中國(guó)走向世界,對(duì)人工智能的推進(jìn)都有正面意義,非常鼓舞人心?!秉S學(xué)東告訴澎湃新聞(www.kxwhcb.com)。

據(jù)黃學(xué)東介紹,這個(gè)項(xiàng)目由來(lái)自微軟亞洲研究院和微軟雷德蒙研究院的三個(gè)研究組,進(jìn)行了跨越中美時(shí)區(qū)、跨越研究領(lǐng)域的聯(lián)合創(chuàng)新。

自1954年開(kāi)始,機(jī)器翻譯一直是人類(lèi)想要攻堅(jiān)的領(lǐng)域。無(wú)奈在過(guò)去的幾十年中,由于技術(shù)方法,計(jì)算力和訓(xùn)練數(shù)據(jù)等原因,研究人員一直未能找到有效的突破口。直到進(jìn)入21世紀(jì),研究人員引入深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),構(gòu)建了神經(jīng)機(jī)器翻譯(Neural Machine Translation)才有了突破。

神經(jīng)機(jī)器翻譯,簡(jiǎn)要的說(shuō),就是對(duì)源語(yǔ)言的句子進(jìn)行編碼,即轉(zhuǎn)化為計(jì)算機(jī)可以“理解”的形式,編碼的結(jié)果會(huì)形成很多隱含變量,每個(gè)隱含變量代表從句首到當(dāng)前詞匯為止的語(yǔ)義信息。然后通過(guò)一個(gè)解碼的過(guò)程,一個(gè)詞、一個(gè)詞輸出譯文。

這一次微軟的突破可謂是既站在了巨人的肩膀上,又用到了自己的創(chuàng)新:微軟的機(jī)器翻譯系統(tǒng)不僅用了最新的神經(jīng)網(wǎng)絡(luò)技術(shù),還用了微軟自己研發(fā)的一些獨(dú)到的技術(shù),做到了集大成者。

在微軟這次的創(chuàng)新中,微軟的研究團(tuán)隊(duì)借鑒了人類(lèi)在翻譯時(shí)的一些思維方式。第一個(gè)是對(duì)偶學(xué)習(xí)(Dual Learning)。這有點(diǎn)像人類(lèi)在學(xué)習(xí)英語(yǔ)時(shí),當(dāng)把中文翻譯成英文后,通常還需要檢查,即將英文再翻譯回中文,看是否正確,做到翻譯的一致性。這樣做的目的是能在中翻英、英翻中的過(guò)程中做到聯(lián)合優(yōu)化。微軟就將這一方法“教”給了機(jī)器。

第二個(gè)是推敲網(wǎng)絡(luò)(Deliberation Networks)。在中文詩(shī)詞里“僧敲月下門(mén)”中的“敲”就是一個(gè)作者在寫(xiě)詩(shī)時(shí)反復(fù)推敲,將語(yǔ)言表達(dá)到極致的結(jié)果。在微軟的機(jī)器翻譯系統(tǒng)中,就借鑒了這樣的方式。機(jī)器翻譯完成翻譯后,為了讓其做的更好,研究人員使用推敲網(wǎng)絡(luò)讓機(jī)器不斷推敲,不斷修改,把翻譯完的結(jié)果再輸入,再全盤(pán)考慮,做到不斷優(yōu)化。

第三個(gè)是一致性規(guī)范(Agreement Regularization)。一致性規(guī)范讓翻譯可以從左到右進(jìn)行,也可以從右到左進(jìn)行,最終讓兩個(gè)過(guò)程生成一致的翻譯結(jié)果。

黃學(xué)東解釋說(shuō),這一點(diǎn)就像人類(lèi)在翻譯的過(guò)程中,我們通常會(huì)左看右看,兩邊都看順眼了,才覺(jué)得放心。

除此之外,此次機(jī)器翻譯系統(tǒng)還使用了聯(lián)合訓(xùn)練(Joint Training),這個(gè)方法可以認(rèn)為是從源語(yǔ)言到目標(biāo)語(yǔ)言翻譯(Source to Target)的學(xué)習(xí)與從目標(biāo)語(yǔ)言到源語(yǔ)言翻譯(Target to Source)的學(xué)習(xí)的結(jié)合。中英翻譯和英中翻譯都使用初始并行數(shù)據(jù)來(lái)訓(xùn)練,在每次訓(xùn)練的迭代過(guò)程中,中英翻譯系統(tǒng)將中文句子翻譯成英文句子,從而獲得新的句對(duì),而該句對(duì)又可以反過(guò)來(lái)補(bǔ)充到英中翻譯系統(tǒng)的數(shù)據(jù)集中。同理,這個(gè)過(guò)程也可以反向進(jìn)行。這樣雙向融合不僅使得兩個(gè)系統(tǒng)的訓(xùn)練數(shù)據(jù)集大大增加,而且準(zhǔn)確率也大幅提高。

值得一提的還有,微軟研究團(tuán)隊(duì)這次還為整個(gè)翻譯研究找了雙語(yǔ)的語(yǔ)言顧問(wèn),對(duì)機(jī)器翻譯的結(jié)果進(jìn)行評(píng)測(cè)。就人們像學(xué)習(xí)英語(yǔ)時(shí),通常需要有專(zhuān)業(yè)的老師對(duì)我們的學(xué)習(xí)成果進(jìn)行評(píng)測(cè)一樣,對(duì)于機(jī)器翻譯而言,專(zhuān)業(yè)老師給出的結(jié)果也非常重要?!皺C(jī)器翻譯其實(shí)相當(dāng)于一題有多個(gè)答案,答案好壞跟老師的水準(zhǔn)有關(guān)系,所以用機(jī)器自動(dòng)評(píng)分很難評(píng)判,我們現(xiàn)在用專(zhuān)業(yè)的人員來(lái)評(píng),就是要把好質(zhì)量關(guān)。”黃學(xué)東說(shuō)。

在上述幾個(gè)技術(shù)的加持下,微軟的研究團(tuán)隊(duì)將原本設(shè)定為兩年的研究周期,提前一年完成了機(jī)器翻譯達(dá)到人類(lèi)專(zhuān)業(yè)水平的研究成果。

三所不同大學(xué)的熏陶和近30年的堅(jiān)持

黃學(xué)東加入微軟已經(jīng)25年了,算上大學(xué)時(shí)期的研究,他在人工智能領(lǐng)域里已經(jīng)堅(jiān)持了30多年時(shí)間。從最初的默默無(wú)聞到最近幾年,自己帶領(lǐng)的團(tuán)隊(duì)接二連三的完成突破,黃學(xué)東說(shuō)這是堅(jiān)持不懈的成果,也是自己的幸運(yùn)。

黃學(xué)東祖籍湖南,在現(xiàn)場(chǎng)接受澎湃新聞采訪時(shí),仍可以聽(tīng)出他普通話里的湘音。15歲時(shí),他便參加了高考,考上了湖南大學(xué)計(jì)算機(jī)專(zhuān)業(yè)?;貞浧鹱约旱谋究茣r(shí)光,黃學(xué)東說(shuō)印象最深的是湖南大學(xué)岳麓書(shū)院門(mén)前的對(duì)聯(lián):“惟楚有才,于斯為盛” 。

“岳麓書(shū)院有一千余年歷史,同樣在岳麓書(shū)院這個(gè)地址,湖南大學(xué)一直保持了教育的連續(xù)性。我每天從宿舍經(jīng)過(guò)岳麓書(shū)院,都要看岳麓書(shū)院門(mén)前的對(duì)聯(lián),它為自信心,有情懷的追求打下了基礎(chǔ)。因?yàn)楹芏嗍虑椋约澳阍谧非笫聵I(yè)的過(guò)程中一定要有耐力,要有內(nèi)力,這是湖南大學(xué)給我最好的訓(xùn)練?!秉S學(xué)東說(shuō)。

湖南大學(xué)的本科學(xué)習(xí)結(jié)束后,黃學(xué)東北上來(lái)到了清華大學(xué)念碩士和博士。在清華,黃學(xué)東學(xué)習(xí)了5年時(shí)間,完成了碩士學(xué)業(yè),但博士沒(méi)有讀完就“跑”了。原因是,當(dāng)時(shí)在自己導(dǎo)師的鼓勵(lì)下,黃學(xué)東提前到了英國(guó)的愛(ài)丁堡大學(xué)學(xué)習(xí)。

但正是學(xué)習(xí)環(huán)境的改變,讓黃學(xué)東找到了自己想要研究的方向。

“30年前,我在清華學(xué)的都是美式英語(yǔ),留學(xué)去了英國(guó),而且去的是蘇格蘭的愛(ài)丁堡,盡管學(xué)校非常漂亮,也是出大牛的地方。可是上課,我聽(tīng)不懂,因?yàn)槲业挠⑽牟缓茫偌由咸K格蘭口音。所以我當(dāng)時(shí)就想要是一邊講一邊有字幕多好?!秉S學(xué)東笑著說(shuō),“當(dāng)時(shí)英國(guó)還是很厲害的,1987年,BBC的所有電視節(jié)目都有字幕,我當(dāng)時(shí)就調(diào)到蘇格蘭的當(dāng)?shù)仡l道看字幕學(xué)蘇格蘭式英語(yǔ),講的我現(xiàn)在英文都帶蘇格蘭口音?!?/p>

深切體會(huì)到自己學(xué)習(xí)過(guò)程中的痛點(diǎn)后,黃學(xué)東希望能幫助其他人也解決這個(gè)問(wèn)題。他在微軟后來(lái)所做的許多工作和研究也跟這些經(jīng)歷相關(guān)。例如,微軟的語(yǔ)音翻譯,它們擁有Skype translator、Microsoft translator兩個(gè)落地產(chǎn)品。目前,Microsoft translator不管是iPhone還是Android設(shè)備都可以使用,還和微軟Office整合起來(lái)了。這款應(yīng)用可以在有語(yǔ)言障礙的面對(duì)面溝通時(shí),同時(shí)支持100個(gè)人用60多種不同語(yǔ)言自由的交流。

堅(jiān)持了30年后,黃學(xué)東說(shuō)他的最終夢(mèng)想是能讓機(jī)器理解人類(lèi)的語(yǔ)言,并讓機(jī)器能夠像人一樣說(shuō)話、交流。目前,他的團(tuán)隊(duì)在語(yǔ)音識(shí)別、機(jī)器翻譯上已經(jīng)取得成功,下一個(gè)目標(biāo)是能在語(yǔ)音合成上取得突破。

中美人工智能競(jìng)爭(zhēng)格局

從中國(guó)的大學(xué)出發(fā),黃學(xué)東在英國(guó)、美國(guó)都有過(guò)學(xué)習(xí)、工作的經(jīng)歷。微軟作為全球科技巨頭,在人工智能領(lǐng)域已經(jīng)有了深入的布局。設(shè)在北京的微軟亞洲研究院,更是被外界稱(chēng)為是人工智能人才培養(yǎng)的“黃埔軍?!薄?/p>

對(duì)于中美兩國(guó)之間,在人工智能領(lǐng)域里,越來(lái)越明顯的競(jìng)爭(zhēng)火藥味,黃學(xué)東有自己的看法。

在他看來(lái),人工智能想要獲得成功,離不開(kāi)三個(gè)要素:計(jì)算力、數(shù)據(jù)和算法。 從這三個(gè)維度出發(fā),中國(guó)用戶(hù)量大、數(shù)據(jù)豐富,在數(shù)據(jù)上有優(yōu)勢(shì),這是中國(guó)一大亮點(diǎn)。但是僅有數(shù)據(jù),沒(méi)有計(jì)算力和算法還遠(yuǎn)遠(yuǎn)不夠。

“目前,大的格局是這樣,從計(jì)算力來(lái)講,美國(guó)公司還是占優(yōu)勢(shì),像英偉達(dá)的GPU,他們剛出的芯片很厲害,但中國(guó)目前還沒(méi)有。從算法來(lái)看,比如深度學(xué)習(xí)也是谷歌的TensorFlow、微軟的CNTK,這也是西方的工具。所以從計(jì)算力和算法來(lái)看,西方現(xiàn)在還是絕對(duì)占優(yōu)勢(shì)。中國(guó)的優(yōu)勢(shì)是數(shù)據(jù)豐富,這三個(gè)里面至少中國(guó)有一個(gè)優(yōu)勢(shì)?!秉S學(xué)東說(shuō)。

在采訪最后,回顧自己25年的職業(yè)生涯,看到目前中國(guó)掀起的人工智能浪潮,黃學(xué)東感慨頗多。對(duì)于當(dāng)下想投身于人工智能的青年研究人員,黃學(xué)東說(shuō)最好的建議是堅(jiān)韌不拔。

“不要?jiǎng)硬粍?dòng)就想著一炮打紅,一夜成名,哪有那么好的事。任何成績(jī)的獲得,不僅僅是個(gè)人的成果,是從好幾代人的研發(fā)基礎(chǔ)上一步步往前走的。這是事實(shí),整個(gè)社區(qū)不是微軟一個(gè)公司,是大學(xué)研究機(jī)構(gòu)和各個(gè)公司一起的努力才做到今天這個(gè)結(jié)果的?!秉S學(xué)東說(shuō)。

    校對(duì):徐亦嘉
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶(hù)端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            主站蜘蛛池模板: 永新县| 贺兰县| 海南省| 威宁| 利津县| 读书| 夏河县| 连城县| 江口县| 沙洋县| 巫溪县| 托里县| 房产| 武汉市| 崇州市| 安远县| 浏阳市| 平塘县| 双柏县| 汉中市| 宁陕县| 宜城市| 社旗县| 济宁市| 桂平市| 湖南省| 聊城市| 姜堰市| 绥棱县| 万全县| 台北县| 大足县| 东明县| 景宁| 资中县| 泸溪县| 濮阳市| 当涂县| 禹城市| 四平市| 湾仔区|