精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

谷歌 AI 生成視頻兩連發(fā):720p 高清 + 長鏡頭,網(wǎng)友:對短視頻行業(yè)沖擊太大

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進來看看。  

來源:量子位

內(nèi)容生成 AI 進入視頻時代!

Meta 發(fā)布「用嘴做視頻」僅一周,谷歌 CEO 劈柴哥接連派出 兩名選手 上場競爭。

谷歌 AI 生成視頻兩連發(fā):720p 高清 + 長鏡頭,網(wǎng)友:對短視頻行業(yè)沖擊太大

第一位 Imagen Video 與 Meta 的 Make-A-Video 相比突出一個 高清 ,能生成 1280*768 分辨率、每秒 24 幀的視頻片段。

谷歌 AI 生成視頻兩連發(fā):720p 高清 + 長鏡頭,網(wǎng)友:對短視頻行業(yè)沖擊太大

另一位選手 Phenaki ,則能根據(jù) 200 個詞左右的提示語生成 2 分鐘以上的長鏡頭 ,講述一個完整的故事。

谷歌 AI 生成視頻兩連發(fā):720p 高清 + 長鏡頭,網(wǎng)友:對短視頻行業(yè)沖擊太大

網(wǎng)友看過后表示,這一切進展實在太快了。

也有網(wǎng)友認為,這種技術(shù)一旦成熟,會沖擊短視頻行業(yè)。

那么,兩個 AI 具體有什么能力和特點,我們分別來看。

Imagen Video:理解藝術(shù)風(fēng)格與 3D 結(jié)構(gòu)

Imagen Video 同樣基于最近大火的擴散模型,直接繼承自 5 月份的圖像生成 SOTA 模型 Imagen。

除了分辨率高以外,還展示出三種特別能力。

首先它能理解并生成不同藝術(shù)風(fēng)格的作品,如 " 水彩畫 " 或者 " 像素畫 ",或者直接 " 梵高風(fēng)格 "。

它還能理解物體的 3D 結(jié)構(gòu),在旋轉(zhuǎn)展示中不會變形。

最后它還繼承了 Imagen 準確描繪文字的能力,在此基礎(chǔ)上僅靠簡單描述產(chǎn)生各種創(chuàng)意動畫,

這效果,直接當成一個視頻的片頭不過分吧?

除了應(yīng)用效果出色以外,研究人員表示其中用到的一些優(yōu)化技巧不光對視頻生成有效,可以泛化至一般擴散模型。

具體來說,Imagen Video 是一系列模型的集合。

語言模型部分是谷歌自家的 T5-XXL ,訓(xùn)練好后凍結(jié)住文本編碼器部分。

與負責(zé)從文本特征映射到圖像特征的 CLIP 相比,有一個關(guān)鍵不同:

語言模型只負責(zé)編碼文本特征,把文本到圖像轉(zhuǎn)換的工作丟給了后面的視頻擴散模型。

基礎(chǔ)模型,在生成圖像的基礎(chǔ)上以自回歸方式不斷預(yù)測下一幀,首先生成一個 48*24、每秒 3 幀的視頻。

接下來,一系列空間超分辨率(Spatial Super-Resolution)與時間超分辨率(Temporal Super-Resolution)模型接連對視頻做擴展處理。

所有 7 種擴散模型都使用了 v-prediction parameterization 方法,與傳統(tǒng)方法相比在視頻場景中可以避免顏色偏移。

這種方法擴展到一般擴散模型,還使樣本質(zhì)量指標的收斂速度更快。

此外還有 漸進式蒸餾 (Progressive Distillation),將每次迭代所需的采樣步驟減半,大大節(jié)省顯存消耗。

這些優(yōu)化技巧加起來,終于使生成高清視頻成為可能。

Phenaki:人人都能是 " 導(dǎo)演 "

Phenaki 的論文投了 ICLR 2023 會議,在一周前 Meta 發(fā)布 Make-a-video 的時候還是匿名雙盲評審狀態(tài)。

如今信息公開,原來研究團隊同樣來自谷歌。

在公開的信息中,Phenaki 展示了它交互生成視頻的能力,可以任意切換視頻的整體風(fēng)格:高清視頻 / 卡通,還能夠切換任意場景。

還可以向 Phenaki 輸入一個初始幀以及一個提示,便能生成一段視頻。

這都還是開胃小菜,Phenaki 真正的大招是: 講故事 ,它能夠生成 2 分鐘以上的長視頻,通過輸入長達 200 多個字符的系列提示來得到。

(那有了這個模型,豈不是人人都能當導(dǎo)演了?手動狗頭)

從文本提示到視頻, 計算成本高、高質(zhì)量文本視頻數(shù)據(jù)數(shù)量有限以及視頻長度可變 一直以來都是此類模型發(fā)展的難題。

以往的大多數(shù) AI 模型都是通過單一的提示來生成視頻,但若要生成一個長時間并且連貫的視頻這遠遠不夠。

而 Phenaki 則能生成 2 分鐘以上的視頻,并且還 具備故事情節(jié) ,這主要歸功于它能夠根據(jù) 一系列的提示 來生成視頻的能力。

具體來說,研究人員引入了一個新的因果模型來學(xué)習(xí)表示視頻: 將視頻視作圖像的一個時間序列。

這個模型基于 transformer,可以將視頻分解成離散的小表示,而分解視頻則是按照時間的因果順序來進行的。

再講通俗一點,就是通過空間 transformer 將單個提示進行編碼,隨后再用因果 transformer 將多個編碼好的提示串聯(lián)起來。

一個提示生成一段視頻,這樣一來,視頻序列便可以沿著提示中描述的時間序列將整個 " 故事 " 串在一起。

因為將視頻壓縮為離散的圖像序列,這樣也大大減少了 AI 處理標記視頻的數(shù)量,在一定程度上降低了模型的訓(xùn)練成本。

提到模型訓(xùn)練,和大型圖像系統(tǒng)一樣,Phenaki 也主要使用文本 - 圖像數(shù)據(jù)進行訓(xùn)練,此外,研究人員還用 1.4 秒,幀率 8FPS 的短視頻文本對 Phenaki 進行訓(xùn)練。

僅僅通過對大量圖像文本對以及少量視頻文本例子進行聯(lián)合訓(xùn)練,便能達到突破視頻數(shù)據(jù)集的效果。

Imagen Video 和 Phenaki,谷歌接連放出大招,從文本到視頻的 AI 發(fā)展勢頭迅猛。

值得一提的是,Imagen Video 一作表示,兩個團隊將合作進行下一步研究。

嗯,有的網(wǎng)友已經(jīng)等不及了。

One More Thing

出于安全和倫理的考慮,谷歌暫時不會發(fā)布兩個視頻生成模型的代碼或 Demo。

不過既然發(fā)了論文,出現(xiàn)開源復(fù)刻版本也只是時間問題。

畢竟當初 Imagen 論文出來沒幾個月,GitHub 上就出現(xiàn)了 Pytorch 版本。

另外 Stable Diffusion 背后的 StabilityAI 創(chuàng)始人兼 CEO 也說過,將發(fā)布比 Meta 的 Make-A-Video 更好的模型,而且是大家都能用上的那種。

當然,每次 AI 有了新進展后都會不可避免地碰到那個話題—— AI 會不會取代人類。

目前來說,一位影視行業(yè)的工作者表示還不到時候:

老實說,作為一個在電影行業(yè)工作了十年的人,這個話題令人沮喪。

在他看來,當前的視頻生成 AI 在外行看起來已經(jīng)足夠驚艷,不過業(yè)內(nèi)人士會認為 AI 還缺乏對每一個鏡頭的精細控制。

對于這個話題,StabilityAI 新任首席信息官 Daniel Jeffries 此前撰文表示,AI 最終會帶來更多的工作崗位。

如相機的發(fā)明雖然取代了大部分肖像畫家,但也創(chuàng)造了攝影師,還開辟了電影和電視這樣的全新產(chǎn)業(yè)。

5 年后再回看的話, 反對 AI 就像現(xiàn)在反對 Photoshop 一樣奇怪 ,AI 只不過是另一個工具。

Jeffries 稱未來是環(huán)境人工智能(Ambient AI)的時代,各個行業(yè)、各個領(lǐng)域都會在人工智能的加持下進行發(fā)展。

不過現(xiàn)在我們需要的是一個更開放的人工智能環(huán)境,也就是說:開源!

本文被轉(zhuǎn)載1次

首發(fā)媒體 砍柴網(wǎng) | 轉(zhuǎn)發(fā)媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 广东佛电电器有限公司|防雷开关|故障电弧断路器|智能量测断路器 广东西屋电气有限公司-广东西屋电气有限公司 | 成都LED显示屏丨室内户外全彩led屏厂家方案报价_四川诺显科技 | 除尘布袋_液体过滤袋_针刺毡滤料-杭州辉龙过滤技术有限公司 | 缠膜机|缠绕包装机|无纺布包装机-济南达伦特机械设备有限公司 | 河南档案架,档案密集架,手动密集架,河南密集架批发/报价 | 企业彩铃制作_移动、联通、电信集团彩铃上传开通_彩铃定制_商务彩铃管理平台-集团彩铃网 | 液压油缸-液压缸厂家价格,液压站系统-山东国立液压制造有限公司 液压油缸生产厂家-山东液压站-济南捷兴液压机电设备有限公司 | 无锡不干胶标签,卷筒标签,无锡瑞彩包装材料有限公司 | 河南15年专业网站建设制作设计,做网站就找郑州启凡网络公司 | 雪花制冰机(实验室雪花制冰机)百科| 耐破强度测试仪-纸箱破裂强度试验机-济南三泉中石单品站 | 焊接减速机箱体,减速机箱体加工-淄博博山泽坤机械厂 | 无菌水质袋-NASCO食品无菌袋-Whirl-Pak无菌采样袋-深圳市慧普德贸易有限公司 | 长沙广告公司|长沙广告制作设计|长沙led灯箱招牌制作找望城湖南锦蓝广告装饰工程有限公司 | 对夹式止回阀_对夹式蝶形止回阀_对夹式软密封止回阀_超薄型止回阀_不锈钢底阀-温州上炬阀门科技有限公司 | TYPE-C厂家|TYPE-C接口|TYPE-C防水母座|TYPE-C贴片-深圳步步精 | 压装机-卧式轴承轮轴数控伺服压装机厂家[铭泽机械] | 定量包装机,颗粒定量包装机,粉剂定量包装机,背封颗粒包装机,定量灌装机-上海铸衡电子科技有限公司 | 济南网站建设|济南建网站|济南网站建设公司【济南腾飞网络】【荐】 | 自动部分收集器,进口无油隔膜真空泵,SPME固相微萃取头-上海楚定分析仪器有限公司 | 冻干机(冷冻干燥机)_小型|实验型|食品真空冷冻干燥机-松源 | 艺术涂料_进口艺术涂料_艺术涂料加盟_艺术涂料十大品牌 -英国蒙太奇艺术涂料 | 防火卷帘门价格-聊城一维工贸特级防火卷帘门厂家▲ | 超声波流量计_流量标准装置生产厂家 _河南盛天精密测控 | 防伪溯源|防窜货|微信二维码营销|兆信_行业内领先的防伪防窜货数字化营销解决方案供应商 | 土壤水分自动监测站-SM150便携式土壤水分仪-铭奥仪器 | 【化妆品备案】进口化妆品备案流程-深圳美尚美化妆品有限公司 | 气力输送设备_料封泵_仓泵_散装机_气化板_压力释放阀-河南锐驰机械设备有限公司 | 防伪溯源|防窜货|微信二维码营销|兆信_行业内领先的防伪防窜货数字化营销解决方案供应商 | 济南网站建设_济南网站制作_济南网站设计_济南网站建设公司_富库网络旗下模易宝_模板建站 | 数码听觉统合训练系统-儿童感觉-早期言语评估与训练系统-北京鑫泰盛世科技发展有限公司 | 无纺布包装机|径向缠绕包装机|缠绕膜打包机-上海晏陵智能设备有限公司 | 上海心叶港澳台联考一对一培训_上海心叶港澳台联考,港澳台联考一对一升学指导 | 沥青车辙成型机-车托式混凝土取芯机-混凝土塑料试模|鑫高仪器 | 除湿机|工业除湿机|抽湿器|大型地下室车间仓库吊顶防爆除湿机|抽湿烘干房|新风除湿机|调温/降温除湿机|恒温恒湿机|加湿机-杭州川田电器有限公司 | BAUER减速机|ROSSI-MERSEN熔断器-APTECH调压阀-上海爱泽工业设备有限公司 | 谷梁科技| 环氧铁红防锈漆_环氧漆_无溶剂环氧涂料_环氧防腐漆-华川涂料 | 合肥网带炉_安徽箱式炉_钟罩炉-合肥品炙装备科技有限公司 | 范秘书_懂你的范文小秘书 | 上海冠顶工业设备有限公司-隧道炉,烘箱,UV固化机,涂装设备,高温炉,工业机器人生产厂家 |