精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

作者:賴文昕

編輯:郭思、陳彩嫻

說起擴散模型生成的東西,你會立刻想到什么?

是OpenAI的經典牛油果椅子?

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

是英偉達Magic3D生成的藍色箭毒蛙?

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

還是斯坦福大學和微軟Folding Diffusion生成的蛋白質結構?

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

這些都是擴散模型的魔法展示,而近期,關于擴散模型的研究又進行了一次全新的升級。

由新加坡國立大學尤洋團隊、加州大學伯克利分校以及Meta AI Research聯手發布的一項名為“Neural Network Diffusion”的研究,已經實現了利用擴散模型來生成神經網絡,這意味著擴散模型不再局限于生成表面的產品或物體結構,而是直接進行底層革新,開始拿神經網絡做文章了,頗有種用魔法來打敗魔法的意味。

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

論文地址:https://arxiv.org/pdf/2402.13144.pdf

該研究一出,迅速在國際AI社區引起了熱烈反響,登上了各大模型開發平臺的熱搜榜單,在業界內收獲了極高贊譽。

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

這項工作中,研究團隊創新性地應用擴散模型來生成高性能神經網絡的參數配置。他們結合了自動編碼器框架和標準潛在擴散模型(LDM)設計了一種新穎的方法,即“參數擴散”(p-diff),通過訓練LDM從隨機噪聲中合成有效的神經網絡參數latent representations。

此方法具有以下特點:1)它始終達到與訓練數據相似的性能,甚至能在多數據集和架構中增強性能;2)生成的模型與訓練的模型有很大的不同,這表明此方法可以合成新參數,而不是記憶訓練樣本。

擴散模型如何生成“神經網絡”?

盡管擴散模型已經在視覺內容生成任務上取得了顯著成就,然而在其他眾多領域的應用潛力仍有待深入挖掘。

在此之前,學術界和工業界的研究重心主要在于如何通過傳統的學習策略來獲得針對特定任務表現優異的神經網絡參數,而不是直接利用擴散模型進行參數生成。學者們普遍從統計學先驗和概率模型的角度出發,例如探索隨機神經網絡架構及貝葉斯神經網絡方法,以優化模型性能。

而在深度學習這個大框架下,雖然監督學習和自監督學習一直是訓練神經網絡的核心機制,并且在很多實際應用中取得了巨大成功。但為了更好地展示擴散模型在生成高效能模型架構與參數方面的卓越能力,研究團隊大膽地將目光投向了尚未被充分探索的領域,嘗試利用擴散模型來創造并優化高性能、結構新穎的神經網絡參數。

簡而言之,“Neural Network Diffusion”項目所采用的是一種名為“神經網絡擴散”的方法(p-diff,p代表參數),使用標準的LDM來合成新參數。

該團隊經過深入研究神經網絡的訓練機制以及擴散模型的工作原理后,敏銳地洞察到:基于擴散原理的圖像生成過程與隨機梯度下降(SGD)等常用學習方法之間存在著兩種相似性。這意味著擴散模型或許能夠借鑒并革新現有的訓練范式,從而為構建更加智能且高效的神經網絡提供新的視角與工具。

首先,神經網絡訓練和擴散模型的逆過程都可以被視為從隨機噪聲/初始化到特定分布的轉變。其次,高質量圖像和高性能參數也可以通過多次噪聲的添加來降級為簡單分布,例如高斯分布。

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

基于這些觀察,研究團隊引入了一種新的參數生成方法,稱之為“神經網絡擴散”(p-diff,p代表參數),它采用標準的LDM來合成一組新的參數。

擴散模型能夠將給定的隨機分布轉換為特定的隨機分布,因此研究人員使用了一個自動編碼器和一個標準的LDM來學習高性能參數的分布。

該研究方法整合了參數自動編碼器和擴散模型來實現神經網絡參數的創新生成。首先,研究人員選取一組經過充分訓練且表現出色的模型作為基礎,從中抽取一部分關鍵或有代表性的參數子集,并將這些多維結構的參數展平為一維向量形式。

接下來,他們構建了一個參數自動編碼器架構,其中包含一個編碼器模塊,用于從所提取的一維參數向量中學習潛在的低維表示(latent representations),這一過程能夠捕捉到原有參數的關鍵特征和模式。同時配備一個解碼器模塊,其任務是根據這些潛在表示恢復出原始的高維參數結構。

在此基礎上,團隊進一步訓練一個標準的擴散模型(LDM,Latent Diffusion Model)以適應參數生成場景,使其能夠在隨機噪聲輸入下逐步迭代并生成與目標參數對應的高質量潛在表示。

訓練完成后,研究人員利用一個逆擴散過程(p-diffusion process)來生成新的神經網絡參數。這個過程始于一個隨機噪聲向量,通過逆向遞歸地應用擴散模型的反變換,將其一步步轉化為有意義的潛在表示。最后,將這些合成的潛在表示輸入訓練好的解碼器中,解碼器會將其轉換為全新的、有望保持高性能的神經網絡參數。這種方法不僅拓展了擴散模型的應用領域,還可能挖掘出之前未被發現的有效網絡結構和參數配置。

訓練后,研究團隊利用 p-diff 通過以下鏈條生成新的參數:隨機噪聲 → 逆過程 → 訓練好的解碼器 → 生成的參數。

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑


為了驗證該方法的有效性,研究團隊緊接著還在MNIST、CIFAR-10/100、ImageNet-1K、STL-10等廣泛的數據集上進行了評估實驗,實驗主要在神經網絡ResNet-18/50、ViT-Tiny/Base 和 onvNeXt-T/B 上進行。

研究團隊詳細闡述了具體的訓練細節。在實驗中,自動編碼器和LDM均包含了一個基于 4 層 1D CNN 的編碼器和解碼器。研究人員默認收集所有架構的200 個訓練數據。 在神經網絡 ResNet-18/50 上,他們從頭開始訓練模型。到了最后一個 epoch中,他們則繼續訓練最后兩個歸一化層并修復其他參數。在大多數情況下,自動編碼器和潛在擴散訓練可以在單個英偉達的 A100 40G GPU 上于 1~3 小時內完成。

實驗過后,研究人員發現,在大多數情況下,p-diff的方法取得了與兩個基線相似或更好的結果,這表明了此方法可以有效地學習高性能參數的分布,并從隨機噪聲中生成優異的模型。而且,該方法在各種數據集上始終表現良好,也證明了它具有良好的通用性。

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

那么如何進一步確認p-diff是否真正可以合成新參數,而不只是在記憶訓練樣本呢?

為了驗證p-diff能夠生成一些與原始模型表現不同的新參數,研究團隊設計了另一個實驗,通過比較原始模型、添加噪聲模型、微調模型和 p-diff 模型的預測和可視化來研究它們之間的差異。

他們進行了四組對比:1)原始模型之間的相似性; 2)p-diff模型之間的相似性; 3)原始模型和p-diff模型之間的相似性; 4) 原始模型和 p-diff 模型之間的最大相似度(最近鄰)。

可以發現,在不同情況下,生成的模型之間的差異遠大于原始模型之間的差異。 另外,即使是原始模型和生成模型之間的最大相似度,也低于原始模型之間的相似度。這表明,p-diff 的確可以生成與其訓練數據表現不同的新參數。

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

結語

Sora的平地一聲驚雷,讓本就火爆的文生圖、文生視頻的領域又增添了好幾分熱度,也讓在圖像和視頻生成方面取得了顯著成功的擴散模型獲得了更多的關注。

而無論是Sora、DALL·E 、Midjourney,還是Stable Diffusion等已經擁有眾多用戶的模型,它們背后的魔法都是擴散模型。在已有的例子中,擴散模型總是被運用在生成圖片或視頻上,而這一次,擴散模型居然直接滲入更深層,直接生成神經網絡,這堪稱機器學習中“用魔法打敗魔法”的神操作。

今日,研究團隊中的三作 Zhuang Liu 還在社交媒體上答復了網友的疑惑,解釋了“Neural Network Diffusion”和Sora 負責人 William Peebles 此前發布的研究“Learning to Learn with Generative Models of Neural Network Checkpoints”之間的區別:

William Peebles的研究工作是逐步生成參數,更像是優化器,將先前的檢查點作為輸入。 “Neural Network Diffusion”則是直接生成整套參數,無需之前的權重作為輸入。

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

盡管研究團隊目前尚未解決內存限制、結構設計效率和性能穩定性等問題,但使用擴散模型生成神經網絡的創新嘗試,讓大模型領域的技術邊界又向外開拓了一面。

擴散模型未來將會有何發展,讓我們拭目以待。

雷峰網 (公眾號:雷峰網) AI 科技評論將持續關注大模型領域動態,歡迎添加anna042023,交流認知,互通有無

雷峰網原創文章,未經授權禁止轉載。詳情見 轉載須知 。

用擴散模型生成神經網絡?NUS 尤洋團隊:這不是開玩笑

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: GEDORE扭力螺丝刀-GORDON防静电刷-CHEMTRONICS吸锡线-上海卓君电子有限公司 | 钣金加工厂家-钣金加工-佛山钣金厂-月汇好 | 银川美容培训-美睫美甲培训-彩妆纹绣培训-新娘化妆-学化妆-宁夏倍莱妮职业技能培训学校有限公司 临时厕所租赁_玻璃钢厕所租赁_蹲式|坐式厕所出租-北京慧海通 | 焊缝跟踪系统_激光位移传感器_激光焊缝跟踪传感器-创想智控 | 上海心叶港澳台联考一对一培训_上海心叶港澳台联考,港澳台联考一对一升学指导 | 吉祥新世纪铝塑板_生产铝塑板厂家_铝塑板生产厂家_临沂市兴达铝塑装饰材料有限公司 | 臻知网大型互动问答社区-你的问题将在这里得到解答!-无锡据风网络科技有限公司 | 三效蒸发器_多效蒸发器价格_四效三效蒸发器厂家-青岛康景辉 | 光栅尺厂家_数显表维修-苏州泽升精密机械 | 石栏杆_青石栏杆_汉白玉栏杆_花岗岩栏杆 - 【石雕之乡】点石石雕石材厂 | 培训中心-海南香蕉蛋糕加盟店技术翰香原中心官网总部 | 金属管浮子流量计_金属转子流量计厂家-淮安润中仪表科技有限公司 | 带式压滤机_污泥压滤机_污泥脱水机_带式过滤机_带式压滤机厂家-河南恒磊环保设备有限公司 | hdpe土工膜-防渗膜-复合土工膜-长丝土工布价格-厂家直销「恒阳新材料」-山东恒阳新材料有限公司 ETFE膜结构_PTFE膜结构_空间钢结构_膜结构_张拉膜_浙江萬豪空间结构集团有限公司 | 剪刃_纵剪机刀片_分条机刀片-南京雷德机械有限公司 | 999范文网_优质范文下载写作帮手 | 玉米深加工设备|玉米加工机械|玉米加工设备|玉米深加工机械-河南成立粮油机械有限公司 | ZHZ8耐压测试仪-上海胜绪电气有限公司| 便携式高压氧舱-微压氧舱-核生化洗消系统-公众洗消站-洗消帐篷-北京利盟救援 | 木材烘干机,木炭烘干机,纸管/佛香烘干设备-河南蓝天机械制造有限公司 | 对照品_中药对照品_标准品_对照药材_「格利普」高纯中药标准品厂家-成都格利普生物科技有限公司 澳门精准正版免费大全,2025新澳门全年免费,新澳天天开奖免费资料大全最新,新澳2025今晚开奖资料,新澳马今天最快最新图库 | 膏方加工_丸剂贴牌_膏滋代加工_湖北康瑞生物科技有限公司 | 喷播机厂家_二手喷播机租赁_水泥浆洒布机-河南青山绿水机电设备有限公司 | 厌氧反应器,IC厌氧反应器,厌氧三相分离器-山东创博环保科技有限公司 | 防火门-专业生产甲级不锈钢钢质防火门厂家资质齐全-广东恒磊安防设备有限公司 | 破碎机锤头_耐磨锤头_合金锤头-鼎成机械一站式耐磨铸件定制服务 微型驱动系统解决方案-深圳市兆威机电股份有限公司 | 对辊破碎机_四辊破碎机_双齿辊破碎机_华盛铭重工 | 充气膜专家-气膜馆-PTFE膜结构-ETFE膜结构-商业街膜结构-奥克金鼎 | 耐腐蚀泵,耐腐蚀真空泵,玻璃钢真空泵-淄博华舜耐腐蚀真空泵有限公司 | 沈阳建筑设计公司_加固改造设计_厂房设计_设计资质加盟【金辉设计】 | 烟台螺纹,烟台H型钢,烟台钢材,烟台角钢-烟台市正丰金属材料有限公司 | 首页-瓜尔胶系列-化工单体系列-油田压裂助剂-瓜尔胶厂家-山东广浦生物科技有限公司 | 爱佩恒温恒湿测试箱|高低温实验箱|高低温冲击试验箱|冷热冲击试验箱-您身边的模拟环境试验设备技术专家-合作热线:400-6727-800-广东爱佩试验设备有限公司 | 车充外壳,车载充电器外壳,车载点烟器外壳,点烟器连接头,旅行充充电器外壳,手机充电器外壳,深圳市华科达塑胶五金有限公司 | 定时排水阀/排气阀-仪表三通旋塞阀-直角式脉冲电磁阀-永嘉良科阀门有限公司 | 科威信洗净科技,碳氢清洗机,超声波清洗机,真空碳氢清洗机 | 酒水灌装机-白酒灌装机-酒精果酒酱油醋灌装设备_青州惠联灌装机械 | 驾驶式洗地机/扫地机_全自动洗地机_工业洗地机_荣事达工厂官网 | 政府回应:200块在义乌小巷能买到爱情吗?——揭秘打工族省钱约会的生存智慧 | 乳化沥青设备_改性沥青设备_沥青加温罐_德州市昊通路桥工程有限公司 | 报警器_家用防盗报警器_烟雾报警器_燃气报警器_防盗报警系统厂家-深圳市刻锐智能科技有限公司 |