2025-03-29
今日,第二屆中國具身智能大會(huì)(CEAI2025)在北京成功召開。大會(huì)吸引了國內(nèi)外科研院所、高校及企業(yè)代表逾千人參與,共同探討具身智能領(lǐng)域的前沿技術(shù)與產(chǎn)業(yè)應(yīng)用。20余場(chǎng)專題論壇,涵蓋大模型與具身智能、人形機(jī)器人、深空探測(cè)等前沿領(lǐng)域。天娛數(shù)科首席數(shù)據(jù)官吳邦毅受邀出席此次盛會(huì),圍繞“感知-決策-行動(dòng)閉環(huán),具身智能體的通用化之路”核心命題,系統(tǒng)闡釋了具身智能體通用化技術(shù)路徑的創(chuàng)新范式。
演講中,吳邦毅直指行業(yè)痛點(diǎn):“當(dāng)前階段具身智能產(chǎn)業(yè)還有很多亟待突破的瓶頸,在數(shù)據(jù)獲取、算法開發(fā)、標(biāo)準(zhǔn)認(rèn)證等方面仍存在諸多挑戰(zhàn)。比如在數(shù)據(jù)層面,3D數(shù)據(jù)匱乏且獲取成本高,嚴(yán)重制約了具身智能的深度訓(xùn)練;算法層面,多數(shù)企業(yè)需從0到1獨(dú)立研發(fā),導(dǎo)致資源浪費(fèi)和效率低下;標(biāo)準(zhǔn)認(rèn)證不統(tǒng)一,硬件接口、通信協(xié)議和數(shù)據(jù)格式等缺乏統(tǒng)一標(biāo)準(zhǔn),具身智能難以跨本體應(yīng)用等等?!?/span>
天娛數(shù)科將具身智能通用AI Agent列為研發(fā)重點(diǎn),以Behavision命名的AI Agent整合了“算法+數(shù)據(jù)+算力”,致力于打造通用的大腦和小腦開發(fā)平臺(tái)。Behavision通過云邊端協(xié)同的創(chuàng)新架構(gòu),形成了形成完整的智能閉環(huán)。
吳邦毅表示:“通過自建的3D數(shù)據(jù)采集基地,集成高精度動(dòng)捕系統(tǒng)與光場(chǎng)掃描技術(shù),天娛數(shù)科已整合120萬組3D場(chǎng)景數(shù)據(jù)、50萬組多模態(tài)數(shù)據(jù),覆蓋工業(yè)、家庭、醫(yī)療等不同場(chǎng)景,并借助Sim2Real仿真數(shù)據(jù)智能泛化技術(shù)顯著提升數(shù)據(jù)訓(xùn)練效率,實(shí)現(xiàn)多模態(tài)決策與世界模型構(gòu)建。
不止如此,吳邦毅還提到:“由天娛數(shù)科參股公司——專注空間計(jì)算及人工智能芯片及產(chǎn)品設(shè)計(jì)的高科技企業(yè)芯明開發(fā)的3D雙目立體算法芯片及深度視覺模組,單芯片集成實(shí)時(shí)3D立體視覺感知、AI人工智能、SLAM實(shí)時(shí)定位建圖等多項(xiàng)功能,具備1毫秒運(yùn)動(dòng)到顯示延時(shí)、3.5TOPS超低功耗、12nm先進(jìn)制程等優(yōu)勢(shì),為機(jī)器人在復(fù)雜環(huán)境下的穩(wěn)定運(yùn)行提供了強(qiáng)大的感知算力支持,為機(jī)器人裝上了‘空間之眼’?!?/span>
當(dāng)前,具身智能正經(jīng)歷從“機(jī)械控制”到“認(rèn)知涌現(xiàn)”的質(zhì)變。早期機(jī)器人依賴預(yù)設(shè)程序執(zhí)行單一動(dòng)作(1.0階段),大模型時(shí)代通過模仿學(xué)習(xí)掌握技能(2.0階段),而真正的通用化必須跨越到3.0階段——讓機(jī)器建立對(duì)物理世界的因果推理能力。
決策層是具身智能體的“大腦”,決策邏輯本質(zhì)上是對(duì)人類經(jīng)驗(yàn)的統(tǒng)計(jì)學(xué)習(xí),天娛數(shù)科提出“云、邊、端”通用AI Agent架構(gòu),通過多模態(tài)大模型與擴(kuò)散算法的融合,實(shí)現(xiàn)決策層的智能化升級(jí)。公司自研的天星基座大模型以及面向3D智能領(lǐng)域的“智者千問”行業(yè)大模型和智慧廣告大模型已通過中央網(wǎng)信辦備案,形成了協(xié)同互驅(qū)、優(yōu)勢(shì)疊加的模型矩陣。這些模型結(jié)合先進(jìn)的數(shù)據(jù)訓(xùn)練策略,如Action Chunking with Transformers(ACT)算法,讓機(jī)器人能夠快速學(xué)習(xí)復(fù)雜的動(dòng)作序列和操作邏輯。
吳邦毅表示:“基于大模型的模仿學(xué)習(xí)技術(shù)正引領(lǐng)人形機(jī)器人進(jìn)入智能化新階段段。通過構(gòu)建多模態(tài)感知系統(tǒng),機(jī)器人可實(shí)時(shí)捕捉人類示范的運(yùn)動(dòng)軌跡、力量控制等關(guān)鍵參數(shù),結(jié)合強(qiáng)化學(xué)習(xí)算法自主優(yōu)化動(dòng)作序列,實(shí)現(xiàn)從觀察到執(zhí)行的端到端能力遷移?!?/span>
隨著多模態(tài)大模型與物理引擎的深度耦合,具身智能體將具備更高級(jí)別的決策能力,通過實(shí)時(shí)環(huán)境語義分割、動(dòng)作意圖預(yù)測(cè)等技術(shù),不僅能完成指定任務(wù),更能根據(jù)場(chǎng)景變化自主調(diào)整策略在工業(yè)、醫(yī)療、家居等不同場(chǎng)景中展現(xiàn)出更強(qiáng)的環(huán)境適應(yīng)力。這種認(rèn)知能力的躍升,標(biāo)志著機(jī)器人正從單純的工具型設(shè)備向智能體形態(tài)加速演進(jìn)。
“真正的智能,是在行動(dòng)閉環(huán)中涌現(xiàn)”。吳邦毅表示在演講中詳細(xì)解析了天娛數(shù)科創(chuàng)新構(gòu)建的云邊端協(xié)同架構(gòu),通過云端百萬級(jí)3D數(shù)據(jù)集與多模態(tài)大模型的深度訓(xùn)練,邊緣側(cè)集成SLAM算法與3D空間計(jì)算芯片的實(shí)時(shí)決策,以及終端深度視覺模組實(shí)現(xiàn)精準(zhǔn)執(zhí)行,形成三位一體的智能閉環(huán)。云端依托Behavision通用具身智能AI Agent,實(shí)現(xiàn)復(fù)雜場(chǎng)景的全局規(guī)劃與數(shù)據(jù)迭代;邊緣端以單芯片毫秒級(jí)響應(yīng)能力處理實(shí)時(shí)感知數(shù)據(jù),完成常規(guī)任務(wù)的自主決策;終端通過毫米級(jí)3D掃描和多模態(tài)交互,實(shí)現(xiàn)虛實(shí)場(chǎng)景的無縫銜接。