在人工智能技術(shù)飛速發(fā)展的今天,通用人工智能(AGI)的實現(xiàn)路徑成為業(yè)界探索的核心。作為該領(lǐng)域的先鋒力量,毫末智行旗下的賀翔團(tuán)隊推出的DriveGPT,正以其創(chuàng)新的技術(shù)架構(gòu),將“通用感知”與“通用認(rèn)知”推向新的高度,為實現(xiàn)“萬物識別”和整合“世界知識”的智能服務(wù)奠定了堅實基礎(chǔ),深刻影響著軟件和信息技術(shù)服務(wù)產(chǎn)業(yè)的未來格局。
一、 DriveGPT:通用感知的實現(xiàn)與“萬物識別”的突破
傳統(tǒng)的AI感知系統(tǒng)多針對特定場景、特定對象進(jìn)行優(yōu)化,存在場景泛化能力弱、長尾問題處理難的瓶頸。DriveGPT的核心突破之一,在于其致力于構(gòu)建“通用感知”能力。它通過超大規(guī)模的多模態(tài)預(yù)訓(xùn)練模型,融合了視覺、激光雷達(dá)、毫米波雷達(dá)等多種傳感器的海量數(shù)據(jù),在統(tǒng)一的模型框架下進(jìn)行學(xué)習(xí)。這種架構(gòu)使得模型能夠理解更廣泛、更復(fù)雜的物理世界信號,而不局限于預(yù)先定義的有限類別。
“萬物識別”正是這種通用感知能力的直觀體現(xiàn)。它意味著系統(tǒng)能夠?qū)﹂_放世界中前所未見的物體、動態(tài)變化的場景進(jìn)行理解和分類,而不僅僅是識別訓(xùn)練集中已有的車輛、行人、交通標(biāo)志。例如,面對道路上突然出現(xiàn)的非標(biāo)準(zhǔn)障礙物、特殊的天氣現(xiàn)象、復(fù)雜的施工區(qū)域等邊緣案例,DriveGPT能夠基于其深厚的物理世界理解基礎(chǔ),進(jìn)行合理的推斷與識別,極大提升了智能系統(tǒng)(尤其是自動駕駛系統(tǒng))在真實復(fù)雜環(huán)境中的魯棒性和安全性。這為智能終端從“功能機”向“智能體”的演進(jìn)提供了關(guān)鍵的感知基石。
二、 通用認(rèn)知的構(gòu)建與“世界知識”的集成
僅有精準(zhǔn)的感知還不足以實現(xiàn)高級智能。真正的智能體需要具備理解、推理、規(guī)劃和決策的“認(rèn)知”能力。DriveGPT的另一大貢獻(xiàn)是推動“通用認(rèn)知”的發(fā)展。它不僅僅是一個感知模型,更是一個具備強大推理能力的認(rèn)知引擎。通過引入基于人類反饋的強化學(xué)習(xí)(RLHF)、思維鏈(Chain-of-Thought)等技術(shù),模型學(xué)會了將感知信息與抽象知識、行為邏輯相關(guān)聯(lián)。
這使得DriveGPT能夠整合“世界知識”——包括但不限于交通規(guī)則、物理定律、社會常識、地理信息乃至人類駕駛行為習(xí)慣等。例如,當(dāng)系統(tǒng)感知到前方有校車停靠時,它不僅能識別出“校車”這一物體,更能基于內(nèi)化的“世界知識”(如“校車附近可能有兒童突然闖入車道”)做出更謹(jǐn)慎的減速和避讓決策。這種將海量、多源的先驗知識融入實時決策過程的能力,是構(gòu)建可信任、擬人化智能的關(guān)鍵。
三、 驅(qū)動軟件與信息技術(shù)服務(wù)產(chǎn)業(yè)變革
DriveGPT所代表的通用感知與認(rèn)知技術(shù),正在深刻重塑軟件和信息技術(shù)服務(wù)產(chǎn)業(yè):
- 自動駕駛即服務(wù)(ADaaS)的成熟:更通用、更可靠的感知與認(rèn)知系統(tǒng),降低了高級別自動駕駛系統(tǒng)在不同區(qū)域、不同車型上部署的難度和成本,加速了自動駕駛商業(yè)化落地的進(jìn)程,推動了從單車智能到車路云一體化的服務(wù)模式演進(jìn)。
- 機器人產(chǎn)業(yè)的智能化升級:其技術(shù)范式可遷移至各類移動機器人(如配送、巡檢、清潔機器人)和具身智能領(lǐng)域,賦予機器人在非結(jié)構(gòu)化環(huán)境中自主作業(yè)的能力,拓展了機器人的應(yīng)用邊界。
- 新型智能軟件生態(tài)的孕育:基于通用AI能力的開發(fā)平臺和工具鏈將應(yīng)運而生。開發(fā)者可以基于DriveGPT這類基礎(chǔ)模型,針對智慧交通、智慧城市、工業(yè)檢測、內(nèi)容審核等垂直領(lǐng)域,快速開發(fā)出具備強大理解和推理能力的應(yīng)用軟件,降低AI應(yīng)用開發(fā)門檻。
- 數(shù)據(jù)服務(wù)與知識服務(wù)的深化:訓(xùn)練和優(yōu)化此類大模型需要高質(zhì)量、多模態(tài)的數(shù)據(jù)以及結(jié)構(gòu)化的知識庫。這將催生對數(shù)據(jù)標(biāo)注、合成數(shù)據(jù)生成、知識圖譜構(gòu)建與更新等專業(yè)信息技術(shù)服務(wù)的巨大需求,推動產(chǎn)業(yè)鏈向更高價值環(huán)節(jié)攀升。
毫末賀翔DriveGPT的探索,標(biāo)志著人工智能正從解決單一任務(wù)的“窄AI”,向具備通用感知與認(rèn)知潛力的“強AI”邁出堅實一步。它通過實現(xiàn)“萬物識別”的感知泛化能力和集成“世界知識”的認(rèn)知深度,不僅為自動駕駛提供了終極解決方案的可行路徑,更作為一項基礎(chǔ)性技術(shù),為整個軟件和信息技術(shù)服務(wù)產(chǎn)業(yè)開辟了全新的增長空間和應(yīng)用想象。隨著技術(shù)的不斷迭代與生態(tài)的完善,由通用AI驅(qū)動的智能服務(wù)將無處不在,深刻改變我們與物理世界及數(shù)字世界交互的方式。