精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

紅杉中國發(fā)布xbench,首個(gè)由投資機(jī)構(gòu)打造的AI基準(zhǔn)測試

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來看看。  

5月26日,隨著基礎(chǔ)模型的快速發(fā)展和AI Agent進(jìn)入規(guī)模化應(yīng)用,被廣泛用于評(píng)估AI能力的基準(zhǔn)測試(Benchmark)卻面臨一個(gè)日益尖銳的問題:想要真實(shí)反映AI系統(tǒng)的客觀能力正變得越來越困難,這其中最直接的表現(xiàn)——基礎(chǔ)模型“刷爆”了市面上的基準(zhǔn)測試題庫,紛紛在各大測試榜單上斬獲高分甚至滿分。

因此,構(gòu)建一個(gè)更加科學(xué)、長效和反映AI客觀能力的評(píng)測體系,正在成為指引AI技術(shù)突破與產(chǎn)品迭代的重要需求。

5月26日,紅杉中國宣布推出全新的AI基準(zhǔn)測試xbench,并發(fā)布論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。這是首個(gè)由 投資 機(jī)構(gòu)發(fā)起,聯(lián)合國內(nèi)外十余家頂尖高校和研究機(jī)構(gòu)的數(shù)十位博士研究生,采用雙軌評(píng)估體系和長青評(píng)估機(jī)制的AI基準(zhǔn)測試。xbench將在評(píng)估和推動(dòng)AI系統(tǒng)能力提升上限與技術(shù)邊界的同時(shí),重點(diǎn)量化AI系統(tǒng)在真實(shí)場景的效用價(jià)值,并長期捕捉Agent產(chǎn)品的關(guān)鍵突破。

紅杉中國發(fā)布xbench,首個(gè)由投資機(jī)構(gòu)打造的AI基準(zhǔn)測試

xbench基準(zhǔn)測試的特點(diǎn)包括:

xbench采用雙軌評(píng)估體系,構(gòu)建多維度測評(píng)數(shù)據(jù)集,旨在同時(shí)追蹤模型的理論能力上限與Agent的實(shí)際落地價(jià)值。該體系創(chuàng)新性地將評(píng)測任務(wù)分為兩條互補(bǔ)的主線:(1)評(píng)估AI 系統(tǒng)的能力上限與技術(shù)邊界;(2)量化AI 系統(tǒng)在真實(shí)場景的效用價(jià)值(Utility Value)。其中,后者需要?jiǎng)討B(tài)對齊現(xiàn)實(shí)世界的應(yīng)用需求,基于實(shí)際工作流程和具體社會(huì)角色,為各垂直領(lǐng)域構(gòu)建具有明確業(yè)務(wù)價(jià)值的測評(píng)標(biāo)準(zhǔn)。

xbench 采用長青評(píng)估 (Evergreen Evalution)機(jī)制,通過持續(xù)維護(hù)并動(dòng)態(tài)更新測試內(nèi)容 ,以確保時(shí)效性和相關(guān)性。xbench將定期測評(píng)市場主流Agent產(chǎn)品,跟蹤模型能力演進(jìn),捕捉 Agent產(chǎn)品迭代過程中的關(guān)鍵突破,進(jìn)而預(yù)測下一個(gè)Agent 應(yīng)用的技術(shù)-市場契合點(diǎn)(TMF,Tech-Market Fit)。作為獨(dú)立第三方,xbench致力于為每類產(chǎn)品設(shè)計(jì)公允的評(píng)估環(huán)境,提供客觀且可復(fù)現(xiàn)的評(píng)價(jià)結(jié)果。

首期發(fā)布包含兩個(gè)核心評(píng)估集:科學(xué)問題解答測評(píng)集(xbench-ScienceQA)與中文 互聯(lián)網(wǎng) 深度搜索測評(píng)集(xbench-DeepSearch),并對該領(lǐng)域主要產(chǎn)品進(jìn)行了綜合排名。同期提出了垂直領(lǐng)域智能體的評(píng)測方法論,并構(gòu)建了面向招聘(Recruitment)和 營銷 (Marketing)領(lǐng)域的垂類 Agent評(píng)測框架。

在過去兩年多的時(shí)間里,xbench一直是紅杉中國在內(nèi)部使用的跟蹤和評(píng)估基礎(chǔ)模型能力的工具,今天紅杉將其公開并貢獻(xiàn)給整個(gè)AI社區(qū)。無論是基礎(chǔ)模型和Agent的開發(fā)者, 還是相關(guān)領(lǐng)域的專家和企業(yè),或者是對AI評(píng)測具有濃厚興趣的研究者,xbench都?xì)g迎加入,成為使用并完善xbench的一份子,一起打造評(píng)估AI能力的新范式。

xbench最早是紅杉中國在2022年ChatGPT推出后,對AGI進(jìn)程和主流模型進(jìn)行的內(nèi)部月評(píng)與匯報(bào)。在建設(shè)和不斷升級(jí)“私有題庫”的過程中,紅杉中國發(fā)現(xiàn)主流模型“刷爆”題目的速度越來越快,基準(zhǔn)測試的有效時(shí)間在急劇縮短。正是由于這一顯著變化,紅杉中國對現(xiàn)有評(píng)估方式產(chǎn)生了質(zhì)疑——

“當(dāng)大家紛紛考滿分的時(shí)候,到底是學(xué)生變聰明了,還是卷子出了問題?”

因此,紅杉中國開始思考并準(zhǔn)備解決兩個(gè)核心問題:

1)模型能力和AI實(shí)際效用之間的關(guān)系?基準(zhǔn)測試的題目越出越難,意義是什么?是否落入了慣性思維?AI落地的實(shí)際 經(jīng)濟(jì) 價(jià)值真的會(huì)和AI做難題呈正相關(guān)嗎?

2) 不同時(shí)間維度上的能力比較:在xbench每一次更換題庫之后,我們就失去了對AI能力的前后可比性追蹤。因?yàn)樵谛碌念}庫下,模型版本也在迭代,無法比較不同時(shí)間維度上單個(gè)模型的能力如何變化。在判斷 創(chuàng)業(yè) 項(xiàng)目的時(shí)候,創(chuàng)業(yè)者的“成長斜率”是一個(gè)重要依據(jù),但在評(píng)估AI能力上,題庫的不斷更新卻反而讓判斷失效。

為了解決這兩個(gè)問題,xbench給出了新的解題思路:

1) 打破慣性思維,為現(xiàn)實(shí)世界的實(shí)用性開發(fā)新穎的任務(wù)設(shè)置和評(píng)估方式。

當(dāng)AI進(jìn)入“下半場”,不僅需要越來越難的AI Search能力的測試基準(zhǔn)(AI Capabilities Evals),也需要一套對齊現(xiàn)實(shí)世界專家的實(shí)用性任務(wù)體系(Utility Tasks)。前者考察的是能力邊界,呈現(xiàn)形式是score,而后者考察的實(shí)用性任務(wù)和環(huán)境多樣性, 商業(yè) KPIs(Conversion Rate, Closing Rate)和直接的經(jīng)濟(jì)產(chǎn)出。

因此,xbench引入了Profession Aligned的基準(zhǔn)概念,接下來的評(píng)估會(huì)使用“雙軌制”,分為AGI Tracking和Profession Aligned,AI將面臨更多復(fù)雜環(huán)境下效用的考察,從業(yè)務(wù)中收集的動(dòng)態(tài)題集,而不單是更難的智力題。

紅杉中國發(fā)布xbench,首個(gè)由投資機(jī)構(gòu)打造的AI基準(zhǔn)測試

2)建立長青評(píng)估體系。靜態(tài)評(píng)估集一旦面世,會(huì)出現(xiàn)題目泄露導(dǎo)致過擬合然后迅速失效的問題,我們將維護(hù)一個(gè)動(dòng)態(tài)更新的題目擴(kuò)充評(píng)估集來緩解這一現(xiàn)象。

針對AI Capacity Evals:學(xué)術(shù)界提出了很多出色的方法論,但是受限于資源與時(shí)間不充分,無法維護(hù)成動(dòng)態(tài)擴(kuò)充的持續(xù)評(píng)估。xbench希望能延續(xù)一系列公開評(píng)估集的方法,并提供第三方、黑白盒、Live的評(píng)測。

針對Profession Aligned Evals:xbench希望建立從真實(shí)業(yè)務(wù)中Live收集機(jī)制,邀請各行業(yè)的職業(yè)專家共同構(gòu)建和維護(hù)行業(yè)的動(dòng)態(tài)評(píng)估集。

同時(shí),在動(dòng)態(tài)更新的基礎(chǔ)上,xbench設(shè)計(jì)可橫向?qū)Ρ鹊哪芰χ笜?biāo),用于在時(shí)間上觀察到排名之外發(fā)展速度與關(guān)鍵突破的信號(hào),幫助判斷某個(gè)模型是否達(dá)到市場可落地閾值,以及在什么時(shí)間點(diǎn)上,Agent可以接管已有的業(yè)務(wù)流程,提供規(guī)模化服務(wù)。

在xbench推出當(dāng)天,官網(wǎng)xbench.org上線了首期針對主流基礎(chǔ)模型和Agent的測評(píng)結(jié)果。

紅杉中國發(fā)布xbench,首個(gè)由投資機(jī)構(gòu)打造的AI基準(zhǔn)測試

紅杉中國表示:xbench歡迎社區(qū)共建。對于基礎(chǔ)模型與Agent開發(fā)者,可以使用最新版本的xbench評(píng)測集來第一時(shí)間驗(yàn)證其產(chǎn)品效果,得到內(nèi)部黑盒評(píng)估集得分;對于垂類Agent開發(fā)者、相關(guān)領(lǐng)域的專業(yè)和企業(yè),歡迎與xbench共建與發(fā)布特定行業(yè)垂類標(biāo)準(zhǔn)的Profession Aligned xbench;對于從事AI評(píng)測研究,具有明確研究想法的研究者,希望獲取專業(yè)標(biāo)注并長期維護(hù)評(píng)估更新,xbench可以幫助AI評(píng)估研究想法落地并產(chǎn)生長期影響力。

【來源: 鳳凰網(wǎng) 科技

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 单级/双级旋片式真空泵厂家,2xz旋片真空泵-浙江台州求精真空泵有限公司 | [官网]叛逆孩子管教_戒网瘾学校_全封闭问题青少年素质教育_新起点青少年特训学校 | MTK核心板|MTK开发板|MTK模块|4G核心板|4G模块|5G核心板|5G模块|安卓核心板|安卓模块|高通核心板-深圳市新移科技有限公司 | 高精度-恒温冷水机-螺杆式冰水机-蒸发冷冷水机-北京蓝海神骏科技有限公司 | 酒瓶_酒杯_玻璃瓶生产厂家_徐州明政玻璃制品有限公司 | 雾度仪_雾度计_透光率雾度仪价格-三恩时(3nh)光电雾度仪厂家 | 真空泵厂家_真空泵机组_水环泵_旋片泵_罗茨泵_耐腐蚀防爆_中德制泵 | 台式核磁共振仪,玻璃软化点测定仪,旋转高温粘度计,测温锥和测温块-上海麟文仪器 | 双工位钻铣攻牙机-转换工作台钻攻中心-钻铣攻牙机一体机-浙江利硕自动化设备有限公司 | 对辊破碎机-液压双辊式,强力双齿辊,四辊破碎机价格_巩义市金联机械设备生产厂家 | 行星齿轮减速机,减速机厂家,山东减速机-淄博兴江机械制造 | 质构仪_鱼糜弹性仪-上海腾拔仪器科技有限公司 | 东风体检车厂家_公共卫生体检车_医院体检车_移动体检车-锦沅科贸 | 换网器_自动换网器_液压换网器--郑州海科熔体泵有限公司 | PAS糖原染色-CBA流式多因子-明胶酶谱MMP-上海研谨生物科技有限公司 | 合肥白癜风医院_合肥治疗白癜风医院_合肥看白癜风医院哪家好_合肥华研白癜风医院 | 机械立体车库租赁_立体停车设备出租_智能停车场厂家_春华起重 | 天津试验仪器-电液伺服万能材料试验机,恒温恒湿标准养护箱,水泥恒应力压力试验机-天津鑫高伟业科技有限公司 | 蓝莓施肥机,智能施肥机,自动施肥机,水肥一体化项目,水肥一体机厂家,小型施肥机,圣大节水,滴灌施工方案,山东圣大节水科技有限公司官网17864474793 | VI设计-LOGO设计公司-品牌设计公司-包装设计公司-导视设计-杭州易象设计 | 地源热泵一体机,地源热泵厂家-淄博汇能环保设备有限公司 | 丁基胶边来料加工,医用活塞边角料加工,异戊二烯橡胶边来料加工-河北盛唐橡胶制品有限公司 | 高速混合机_锂电混合机_VC高效混合机-无锡鑫海干燥粉体设备有限公司 | 烟台金蝶财务软件,烟台网站建设,烟台网络推广 | 液压油缸生产厂家-山东液压站-济南捷兴液压机电设备有限公司 | 拉力机-拉力试验机-万能试验机-电子拉力机-拉伸试验机-剥离强度试验机-苏州皖仪实验仪器有限公司 | 厂房出售_厂房仓库出租_写字楼招租_土地出售-中苣招商网-中苣招商网 | 手持气象站_便携式气象站_农业气象站_负氧离子监测站-山东万象环境 | 钢板仓,大型钢板仓,钢板库,大型钢板库,粉煤灰钢板仓,螺旋钢板仓,螺旋卷板仓,骨料钢板仓 | 北京乾茂兴业科技发展有限公司 | 转子泵_凸轮泵_凸轮转子泵厂家-青岛罗德通用机械设备有限公司 | 全温恒温摇床-水浴气浴恒温摇床-光照恒温培养摇床-常州金坛精达仪器制造有限公司 | 欧盟ce检测认证_reach检测报告_第三方检测中心-深圳市威腾检验技术有限公司 | 济南铝方通-济南铝方通价格-济南方通厂家-山东鲁方通建材有限公司 | 建筑资质代办_工程施工资质办理_资质代办公司_北京众聚企服 | 工装定制/做厂家/公司_工装订做/制价格/费用-北京圣达信工装 | 澳门精准正版免费大全,2025新澳门全年免费,新澳天天开奖免费资料大全最新,新澳2025今晚开奖资料,新澳马今天最快最新图库-首页-东莞市傲马网络科技有限公司 | 光照全温振荡器(智能型)-恒隆仪器 | 便携式XPDM露点仪-在线式防爆露点仪-增强型烟气分析仪-约克仪器 冰雕-冰雪世界-大型冰雕展制作公司-赛北冰雕官网 | 月嫂_保姆_育婴_催乳_母婴护理_产后康复_养老护理-吉祥到家家政 硫酸亚铁-聚合硫酸铁-除氟除磷剂-复合碳源-污水处理药剂厂家—长隆科技 | 河南中整光饰机械有限公司-抛光机,去毛刺抛光机,精密镜面抛光机,全自动抛光机械设备 |