2025-07-23
在人工智能加速邁向物理世界的浪潮中,具身智能正成為驅(qū)動(dòng)機(jī)器人技術(shù)演進(jìn)的核心動(dòng)力。它不僅要求機(jī)器人具備對(duì)環(huán)境的感知和理解能力,更要求其能據(jù)此做出連續(xù)、合理、精準(zhǔn)的物理行為。“物理Al(Physica AI)”新概念的出現(xiàn),強(qiáng)調(diào)未來(lái)AI不應(yīng)止步于認(rèn)知理解,更應(yīng)“動(dòng)起來(lái)、干實(shí)事”。這一理念為具身智能提供了明確的發(fā)展方向,也對(duì)數(shù)據(jù)、模型與交互系統(tǒng)提出更高要求。
天娛數(shù)科子公司智境云創(chuàng)基于VLA(Vision-Language-Action)模型構(gòu)建了一套數(shù)據(jù)采集與行為生成方案,并全面集成于自研Behavision空間智能 MaaS平臺(tái)。該方案從感知、語(yǔ)言理解到動(dòng)作控制形成閉環(huán),為機(jī)器人在復(fù)雜環(huán)境中實(shí)現(xiàn)類(lèi)人交互、泛化執(zhí)行與自主決策提供新型底層能力。
TOP 01
感知一語(yǔ)言一行為融合
VLA模型構(gòu)建智能控制新范式
VLA模型作為當(dāng)前多模態(tài)AI的技術(shù)前沿,融合視覺(jué)圖像、自然語(yǔ)言和動(dòng)作控制三種模態(tài)信息,打通從感知輸入到控制輸出的全鏈路通道。智境云創(chuàng)基于該架構(gòu)搭建的具身智能行為生成引擎,讓機(jī)器人從圖像中理解場(chǎng)景,從語(yǔ)音中識(shí)別意圖,并將兩者共同轉(zhuǎn)化為可執(zhí)行的動(dòng)作序列,完成如“拿起水杯”、“打開(kāi)抽屜”等多階段任務(wù)。
相較于傳統(tǒng)感知-推理-控制的離散模塊式設(shè)計(jì),VLA模型具備更強(qiáng)的上下文感知能力和任務(wù)泛化能力,能在服務(wù)、工業(yè)、教育等多場(chǎng)景下應(yīng)對(duì)非結(jié)構(gòu)化環(huán)境和自然語(yǔ)言指令,實(shí)現(xiàn)從“看懂”到“行動(dòng)”的知行合一能力躍遷。
TOP 02
多源數(shù)據(jù)采集體系
依托Behavision空間智能MaaS平臺(tái),智境云創(chuàng)構(gòu)建“感知—推理—執(zhí)行”全鏈路的數(shù)據(jù)采集體系,形成具身智能行為學(xué)習(xí)的認(rèn)知基座。平臺(tái)集成毫米級(jí)高精度3D掃描設(shè)備、雙目視覺(jué)系統(tǒng)與自研算法矩陣,能夠高效采集環(huán)境結(jié)構(gòu)、物體屬性、語(yǔ)言指令與機(jī)器人動(dòng)作等多源異構(gòu)數(shù)據(jù)。通過(guò)端云協(xié)同的數(shù)據(jù)處理框架,可實(shí)時(shí)完成點(diǎn)云重建、語(yǔ)義解析、軌跡還原與多模態(tài)對(duì)齊,確保采集數(shù)據(jù)在空間、時(shí)間和語(yǔ)義維度的高一致性。該體系不僅顯著提升多模態(tài)數(shù)據(jù)的質(zhì)量和效率,也為后續(xù)VLA模型訓(xùn)練與策略遷移提供了高質(zhì)量訓(xùn)練樣本,加快模型從數(shù)據(jù)到控制的收斂速度。
隨著“物理AI”理念的實(shí)踐推進(jìn),智境云創(chuàng)將持續(xù)拓展Behavision平臺(tái)在空間智能、具身智能等領(lǐng)域的能力邊界。未來(lái),將進(jìn)一步打通3D鉸接數(shù)據(jù)體系與VLA模型的融合機(jī)制,構(gòu)建統(tǒng)一的“認(rèn)知—語(yǔ)義—行為”圖譜,為具身機(jī)器人提供面向真實(shí)世界的通用智能操作系統(tǒng),加速行業(yè)邁向機(jī)器人“安卓時(shí)刻”。