▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶(hù)端

登錄

  • +1

Facebook、MIT等聯(lián)合發(fā)表451頁(yè)手稿:用“第一性原理”解釋DNN

2021-08-05 08:32
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

選自Facebook AI Blog

作者:John Pavlus

機(jī)器之心編譯

機(jī)器之心編輯部

Facebook、普林斯頓大學(xué)和 MIT 的 AI 研究人員近日聯(lián)合出版了一份名為《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks(深度學(xué)習(xí)理論原理:理解神經(jīng)網(wǎng)絡(luò)的一種有效理論方法)》的研究手稿,用來(lái)解釋深度學(xué)習(xí)實(shí)際工作原理的理論。

蒸汽機(jī)推動(dòng)了工業(yè)革命的發(fā)生,并改變了制造業(yè)。然而,直到熱力學(xué)定律和統(tǒng)計(jì)力學(xué)原理的發(fā)展,科學(xué)家們才能夠在理論層面完全解釋蒸汽機(jī)的工作原理。

當(dāng)然,缺乏理論知識(shí)并不能阻止人們對(duì)蒸汽機(jī)的改進(jìn),但是有了理論的指導(dǎo)為基礎(chǔ),技術(shù)的發(fā)展將會(huì)更快。當(dāng)科學(xué)家們最終掌握了統(tǒng)計(jì)力學(xué)時(shí),其影響遠(yuǎn)遠(yuǎn)超出了制造更好、更高效的引擎。統(tǒng)計(jì)力學(xué)使人們認(rèn)識(shí)到物質(zhì)是由原子構(gòu)成的,預(yù)示著量子力學(xué)的發(fā)展,如果從整體上看,這甚至促進(jìn)了為計(jì)算機(jī)提供動(dòng)力的晶體管的發(fā)展。

今天的人工智能也處于類(lèi)似的關(guān)頭。DNN(深度神經(jīng)網(wǎng)絡(luò))是現(xiàn)代 AI 研究的重要組成部分,但它們的實(shí)現(xiàn)方式或多或少被視為「黑匣子」。雖然人工智能從業(yè)者對(duì) DNN 的理解取得了實(shí)質(zhì)性進(jìn)展,但 DNN 通常被認(rèn)為太復(fù)雜而無(wú)法從基本原理來(lái)理解。模型主要通過(guò)反復(fù)試錯(cuò)進(jìn)行微調(diào)——雖然試錯(cuò)可以智能地進(jìn)行,通常是根據(jù)多年的經(jīng)驗(yàn),但它是在沒(méi)有任何統(tǒng)一的理論語(yǔ)言來(lái)描述 DNN 及其功能的情況下進(jìn)行的。

近日,來(lái)自 Facebook 人工智能研究中心(FAIR)的科學(xué)家 Sho Yaida,麻省理工學(xué)院理論物理中心的研究員、Salesforce 的首席研究員 Dan Roberts 和普林斯頓的 Boris Hanin 合作,撰寫(xiě)了一本關(guān)于如何從「第一性原理」來(lái)理解 DNN 的書(shū)籍《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks》。該書(shū)將于 2022 年初由劍橋大學(xué)出版社出版,手稿現(xiàn)在已經(jīng)公開(kāi)。

書(shū)籍地址:https://arxiv.org/pdf/2106.10165.pdf

「第一性原理」理解 DNN

首先我們來(lái)簡(jiǎn)單了解一下什么是「第一性原理」?

「第一性原理」指的是回歸事物最基本的條件,將其拆分成各要素進(jìn)行解構(gòu)分析,從而找到實(shí)現(xiàn)目標(biāo)最優(yōu)路徑的方法。

最早提出第一性原理思維的人是亞里士多德,他把它定義為「認(rèn)知事物的第一基礎(chǔ)。」

許多偉大的思想家,包括發(fā)明家都使用了第一性原理的思考方法,但是沒(méi)有人比企業(yè)家伊隆 · 馬斯克更有效地深入思考第一性原理。這個(gè)詞的出圈也得益于馬斯克的助推。他曾在采訪中提到自己特別推崇第一性原理思考法。

書(shū)籍作者也是從「第一性原理」來(lái)理解 DNN 的。

書(shū)籍長(zhǎng)達(dá) 451 頁(yè),開(kāi)篇引用了量子力學(xué)的奠基人、諾貝爾物理學(xué)獎(jiǎng)得主狄拉克在《量子力學(xué)原理》一書(shū)序言中的一句話(huà):「這就需要完全脫離歷史發(fā)展路線,但這種突破是一種優(yōu)勢(shì),因?yàn)樗谷藗兡軌虮M可能直接地接近新的思想。」

在基本層面上,該書(shū)提供了一個(gè)理論框架,從「第一性原理」理解 DNN。對(duì)于人工智能從業(yè)者來(lái)說(shuō),這種理解可以顯著減少訓(xùn)練 DNN 所需的試錯(cuò)量。例如,該理論框架可以揭示任何給定模型的最佳超參數(shù),而無(wú)需經(jīng)過(guò)當(dāng)今所需的時(shí)間和計(jì)算密集型實(shí)驗(yàn)。

「該書(shū)提出了一種具有吸引力的方法,基于理論物理學(xué)中熟悉的擴(kuò)展來(lái)進(jìn)行機(jī)器學(xué)習(xí),」斯坦福大學(xué)物理學(xué)教授 Eva Silverstein 表示道。「這些方法在理解和改進(jìn)人工智能方面可以帶來(lái)多大的進(jìn)步,將是令人興奮的。」

Facebook VP 兼首席 AI 科學(xué)家 Yann LeCun 也在推特上推薦該書(shū),并表示「在科學(xué)技術(shù)發(fā)展史上,工程相關(guān)的往往排在第一位:望遠(yuǎn)鏡、蒸汽機(jī)、數(shù)字通信。解釋其功能和局限性的理論往往出現(xiàn)得較晚:折射定律、熱力學(xué)和信息理論。」「隨著深度學(xué)習(xí)的出現(xiàn),人工智能驅(qū)動(dòng)的工程奇跡已經(jīng)進(jìn)入我們的生活——但我們對(duì)深度學(xué)習(xí)的力量和局限性的理論理解仍然是片面的。這是最早致力于深度學(xué)習(xí)理論的書(shū)籍之一,并以連貫的方式列出了近期理論方法和結(jié)果。」

這只是重塑人工智能科學(xué)這一更大項(xiàng)目的第一步,這一項(xiàng)目既源自「第一性原理」,又側(cè)重于描述現(xiàn)實(shí)模型如何工作。如果成功,這種關(guān)于深度學(xué)習(xí)的一般理論可能會(huì)使人工智能模型更加強(qiáng)大,甚至可以指導(dǎo)研究人員建立一個(gè)研究智能普遍方面的框架。

相互作用的神經(jīng)元

到目前為止,試圖理解 DNN 的理論家們通常依賴(lài)于網(wǎng)絡(luò)的理想化,即所謂的「無(wú)限寬度限制」,在這種限制下,DNN 的每一層都有無(wú)限數(shù)量的神經(jīng)元。

這類(lèi)似于理想氣體定律與真實(shí)氣體情況。「無(wú)限寬度限制」為理論分析提供了一個(gè)起點(diǎn),但它通常與現(xiàn)實(shí)世界的深度學(xué)習(xí)模型幾乎沒(méi)有什么相似之處,尤其是普通的深度神經(jīng)網(wǎng)絡(luò),在那種情況下,抽象將越來(lái)越偏離準(zhǔn)確的描述。雖然偶爾有用,但「無(wú)限寬度限制」過(guò)于簡(jiǎn)單,忽略了真正 DNN 的關(guān)鍵特性,而這些被忽略掉的特性可能就是讓 DNN 如此強(qiáng)大的有力工具。

如果從物理學(xué)家的角度來(lái)處理這個(gè)問(wèn)題,核心是通過(guò)在「有限寬度」上建立一個(gè)有效的 DNN 理論,從而改進(jìn)這個(gè)無(wú)限寬度限制。傳統(tǒng)上,物理學(xué)家的目標(biāo)是創(chuàng)造最簡(jiǎn)單和最理想的模型,同時(shí)也包含了描述現(xiàn)實(shí)世界所需的最小復(fù)雜性。在這里,這需要取消無(wú)限寬度限制,并系統(tǒng)地納入所有必要的修正,以解釋有限寬度的影響。在物理學(xué)語(yǔ)言中,這意味著對(duì)單層和跨層神經(jīng)元之間的微小相互作用進(jìn)行建模。

這些聽(tīng)起來(lái)像是小的改變,但是現(xiàn)有的玩具模型(toy models)和書(shū)中描述的模型在性質(zhì)上是不同的。想象兩個(gè)臺(tái)球朝著對(duì)方前進(jìn)。如果你用一個(gè)類(lèi)似于無(wú)限寬度限制的非交互模型來(lái)計(jì)算即將發(fā)生的事情,你會(huì)發(fā)現(xiàn)這些球互相穿過(guò),繼續(xù)朝著同一個(gè)方向運(yùn)動(dòng)。

但事實(shí)顯然不是這樣。球中的電子不能占據(jù)同一個(gè)空間,所以它們會(huì)相互作用碰撞彈跳。

這些交互作用在現(xiàn)實(shí)生活中很重要,在物理學(xué)中也很重要,對(duì) DNN 來(lái)說(shuō)同樣如此。

考慮到神經(jīng)元之間的類(lèi)似交互作用,該書(shū)的理論發(fā)現(xiàn)了 DNN 的真正威力——它們從數(shù)據(jù)中學(xué)習(xí)世界表征的能力——與其縱橫比(即深度與寬度之比)成正比。對(duì)于無(wú)限寬度模型,該比率為零,因此這些玩具模型無(wú)法捕捉深度,并且隨著 DNN 深度的增加,它們的描述變得越來(lái)越不準(zhǔn)確。相比之下,使用有限寬度層,有效理論(effective theory)實(shí)際上會(huì)影響深度——這對(duì)于表征學(xué)習(xí)和 DNN 的 D (深度)真正重要的其他應(yīng)用至關(guān)重要。

麻省理工學(xué)院物理學(xué)副教授、NSF AI 人工智能與基礎(chǔ)交互研究所所長(zhǎng) Jesse Thaler 說(shuō):「在物理學(xué)中,有效場(chǎng)論是理解粒子復(fù)雜相互作用的一種嚴(yán)謹(jǐn)而系統(tǒng)的方法。令人興奮的是,一個(gè)類(lèi)似的、嚴(yán)謹(jǐn)?shù)摹⑾到y(tǒng)的方法適用于理解深層網(wǎng)絡(luò)的動(dòng)態(tài)。在這些發(fā)展的啟發(fā)下,我期待著物理學(xué)界和人工智能界進(jìn)行更有成效的對(duì)話(huà)。」

雖然本書(shū)中描述的框架可以擴(kuò)展到現(xiàn)代人工智能社區(qū)使用的真實(shí)世界的 DNN,并為此提供了藍(lán)圖,但該書(shū)主要側(cè)重于用于教學(xué)目的、最簡(jiǎn)單的深度學(xué)習(xí)模型(深度多層感知器) 。

應(yīng)用于這種最簡(jiǎn)單的結(jié)構(gòu),可以系統(tǒng)地求解有效理論方程。這意味著我們可以對(duì) DNN 在整個(gè)訓(xùn)練軌跡中的行為有一個(gè)第一性原理理解。特別地,我們可以明確地寫(xiě)下一個(gè)完全訓(xùn)練的 DNN 所計(jì)算的函數(shù),來(lái)對(duì)新的測(cè)試?yán)幼龀鲱A(yù)測(cè)。

借助這一新的有效理論,研究者希望理論家們能夠推動(dòng)對(duì)神經(jīng)網(wǎng)絡(luò)更深入、更全面的理解。雖然還有很多東西需要計(jì)算,但這項(xiàng)工作可能使該領(lǐng)域更接近于了解這些模型的哪些特定屬性使它們能夠智能地執(zhí)行。

研究者還希望這本書(shū)能夠幫助 AI 社區(qū)減少試錯(cuò)周期,這些試錯(cuò)有時(shí)會(huì)限制當(dāng)前研究進(jìn)展。研究者希望也能幫助 AI 從業(yè)者快速設(shè)計(jì)更好的模型——更高效、性能更好、訓(xùn)練更快,或者所有這些。特別地,設(shè)計(jì) DNN 的研究者能夠在沒(méi)有任何訓(xùn)練的情況下選擇最優(yōu)的超參數(shù),并選擇最優(yōu)的算法和模型結(jié)構(gòu)以獲得最佳的結(jié)果。

多年來(lái),許多人認(rèn)為這些問(wèn)題永遠(yuǎn)無(wú)法得到回答或解釋。該書(shū)籍表明,人工智能不是一門(mén)無(wú)法解釋的藝術(shù),實(shí)用的人工智能可以通過(guò)基本的科學(xué)原理來(lái)理解。

研究者希望這只是個(gè)開(kāi)始,并將繼續(xù)這項(xiàng)研究,將理論框架擴(kuò)展到其他模型架構(gòu)并獲得新的結(jié)果。在更廣泛的層面上,研究者希望這本書(shū)能夠證明,理論能夠提供對(duì)真實(shí)模型的理解。

雖然近年來(lái),實(shí)證結(jié)果將人工智能推向了新的高度,但研究者堅(jiān)信,以理論為基礎(chǔ)的實(shí)踐有助于加速人工智能的研究,并有可能發(fā)現(xiàn)無(wú)法想象的新領(lǐng)域,就像統(tǒng)計(jì)力學(xué)在一個(gè)多世紀(jì)前引領(lǐng)信息時(shí)代一樣。

作者簡(jiǎn)介

Sho Yaida 為 Facebook 人工智能研究中心(FAIR)的科學(xué)家,研究方向是將理論物理學(xué)方法應(yīng)用于理解神經(jīng)網(wǎng)絡(luò)。他在斯坦福大學(xué)獲得博士學(xué)位,讀博期間主要研究了黑洞,后來(lái)在麻省理工學(xué)院和杜克大學(xué)做博士后時(shí)轉(zhuǎn)向了有關(guān)玻璃的物理學(xué)研究。

個(gè)人主頁(yè):https://ai.facebook.com/people/sho-yaida/

Dan Roberts 為麻省理工學(xué)院理論物理中心的研究員、Salesforce 的首席研究員,同時(shí)還是美國(guó)國(guó)家科學(xué)基金會(huì)人工智能與基礎(chǔ)互動(dòng)研究所 (IAIFI) 的成員。研究方向集中于如何將理論物理學(xué)的工具和觀點(diǎn)應(yīng)用到人工智能中。

個(gè)人主頁(yè):https://danintheory.com/

此外,還包括研究合作者普林斯頓的 Boris Hanin,主要研究深度學(xué)習(xí)、概率等。

個(gè)人主頁(yè):https://hanin.princeton.edu/

原文鏈接:https://ai.facebook.com/blog/advancing-ai-theory-with-a-first-principles-understanding-of-deep-neural-networks/

? THE END

轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

投稿或?qū)で髨?bào)道:content@jiqizhixin.com

原標(biāo)題:《Facebook、MIT等聯(lián)合發(fā)表451頁(yè)手稿:用「第一性原理」解釋DNN》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶(hù)端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            主站蜘蛛池模板: 米林县| 德兴市| 柳河县| 兴国县| 霍林郭勒市| 龙游县| 天镇县| 边坝县| 固阳县| 锦屏县| 都兰县| 香格里拉县| 定西市| 霍州市| 甘肃省| 仙游县| 咸阳市| 张掖市| 马山县| 金塔县| 扎囊县| 泽州县| 铁力市| 桂东县| 台中县| 遵义市| 金华市| 喀喇沁旗| 通辽市| 西城区| 吴川市| 新闻| 沁源县| 辰溪县| 靖江市| 无极县| 惠东县| 西和县| 浠水县| 东城区| 天气|