更多精彩 >

毫末智行自動駕駛生成式大模型DriveGPT迎來落地200天

2023-10-12 09:07:40   來源:搜狐網(wǎng)  作者: 

摘要:2023年10月11日,第九屆HAOMOAIDAY盛大開幕。本次HAOMOAIDAY以“BETTERAI,BETTERHAOMO”為主題,內(nèi)容豐富,既有業(yè)內(nèi)專家的精彩講座和尖端技術(shù)的展覽,同時也設(shè)有多個活潑有趣的活動和互動環(huán)節(jié),使參與者深刻體驗到了自動駕駛技術(shù)的吸引力和可能性。

2023年10月11日,第九屆HAOMO AI DAY盛大開幕。本次HAOMO AI DAY以“BETTER AI,BETTER HAOMO”為主題,內(nèi)容豐富,既有業(yè)內(nèi)專家的精彩講座和尖端技術(shù)的展覽,同時也設(shè)有多個活潑有趣的活動和互動環(huán)節(jié),使參與者深刻體驗到了自動駕駛技術(shù)的吸引力和可能性。

歷屆HAOMO AI DAY的核心主題都是聚焦最硬核的自動駕駛AI技術(shù)。此次,毫末智行CEO顧維灝帶來了主題為《自動駕駛3.0時代:大模型將重塑汽車智能化的技術(shù)路線》的演講,分享了毫末對于自動駕駛3.0時代AI開發(fā)模式的思考以及自動駕駛生成式大模型毫末DriveGPT大模型的最新進(jìn)展和實踐。

(毫末智行CEO顧維灝)

顧維灝認(rèn)為,自動駕駛3.0時代與2.0時代相比,其開發(fā)模式和技術(shù)框架都將發(fā)生顛覆性的變革。在自動駕駛2.0時代,以小數(shù)據(jù)、小模型為特征,以Case任務(wù)驅(qū)動為開發(fā)模式。而自動駕駛3.0時代,以大數(shù)據(jù)、大模型為特征,以數(shù)據(jù)驅(qū)動為開發(fā)模式。

(毫末提出的自動駕駛3.0時代的技術(shù)架構(gòu)演進(jìn)趨勢)

相比2.0時代主要采用傳統(tǒng)模塊化框架,3.0時代的技術(shù)框架會發(fā)生顛覆性變化。首先,自動駕駛會在云端實現(xiàn)感知大模型和認(rèn)知大模型的能力突破,并將車端各類小模型逐步統(tǒng)一為感知模型和認(rèn)知模型,同時將控制模塊也AI模型化。隨后,車端智駕系統(tǒng)的演進(jìn)路線也是一方面會逐步全鏈路模型化,另一方面是逐步大模型化,即小模型逐漸統(tǒng)一到大模型內(nèi)。然后,云端大模型也可以通過剪枝、蒸餾等方式逐步提升車端的感知能力,甚至在通訊環(huán)境比較好的地方,大模型甚至可以通過車云協(xié)同的方式實現(xiàn)遠(yuǎn)程控車。最后,在未來車端、云端都是端到端的自動駕駛大模型。

顧維灝還詳細(xì)介紹了毫末DriveGPT大模型在推出200天后的整體進(jìn)展。首先是DriveGPT訓(xùn)練數(shù)據(jù)規(guī)模提升。截至2023年10月DriveGPT雪湖·海若共計篩選出超過100億幀互聯(lián)網(wǎng)圖片數(shù)據(jù)集和480萬段包含人駕行為的自動駕駛4D Clips數(shù)據(jù)。其次是通用感知能力提升,DriveGPT通過引入多模態(tài)大模型,實現(xiàn)文、圖、視頻多模態(tài)信息的整合,獲得識別萬物的能力;同時,通過與NeRF技術(shù)整合,DriveGPT實現(xiàn)更強(qiáng)的4D空間重建能力,獲得對三維空間和時序的全面建模能力;最后是通用認(rèn)知能力提升,借助大語言模型,DriveGPT將世界知識引入到駕駛策略中。

顧維灝認(rèn)為,未來的自動駕駛系統(tǒng)一定是跟人類駕駛員一樣,不但具備對三維空間的精確感知測量能力,而且能夠像人類一樣理解萬物之間的聯(lián)系、事件發(fā)生的邏輯和背后的常識,并且能基于這些人類社會的經(jīng)驗來做出更好的駕駛策略,真正實現(xiàn)完全無人駕駛。

毫末DriveGPT是如何具備識別萬物的他通用感知能力,以及擁有世界知識的通用認(rèn)知能力?顧維灝也給出了詳盡解釋。

(毫末DriveGPT升級:大模型讓自動駕駛擁有世界知識)

在感知階段,DriveGPT首先通過構(gòu)建視覺感知大模型來實現(xiàn)對真實物理世界的學(xué)習(xí),將真實世界建模到三維空間,再加上時序形成4D向量空間;然后,在構(gòu)建對真實物理世界的4D感知基礎(chǔ)上,毫末進(jìn)一步引入開源的視覺文本多模態(tài)大模型,構(gòu)建更為通用的語義感知大模型,實現(xiàn)文、圖、視頻多模態(tài)信息的整合,從而完成4D向量空間到語義空間的對齊,實現(xiàn)跟人類一樣的“識別萬物”的能力。

(毫末DriveGPT通用感知大模型:讓自動駕駛認(rèn)識萬物)

毫末通用感知能力的進(jìn)化升級包含兩個方面。首先是視覺大模型的CV Backbone的持續(xù)進(jìn)化,當(dāng)前基于大規(guī)模數(shù)據(jù)的自監(jiān)督學(xué)習(xí)訓(xùn)練范式,采用Transformer大模型架構(gòu),實現(xiàn)視頻生成的方式來進(jìn)行訓(xùn)練,構(gòu)建包含三維的幾何結(jié)構(gòu)、圖片紋理、時序信息等信息的4D表征空間,實現(xiàn)對全面的物理世界的感知和預(yù)測。其次是構(gòu)建起更基礎(chǔ)的通用語義感知大模型,在視覺大模型基礎(chǔ)上引入視覺文本多模態(tài)模型來提升感知效果,視覺文本多模態(tài)模型可以對齊自然語言信息和圖片的視覺信息,在自動駕駛場景中就可以對齊視覺和語言的特征空間,從而具備識別萬物的能力,也由此可以更好完成目標(biāo)檢測、目標(biāo)跟蹤、深度預(yù)測等各類任務(wù)。

在認(rèn)知階段,基于通用語義感知大模型提供的“萬物識別”能力,DriveGPT通過構(gòu)建駕駛語言(Drive Language)來描述駕駛環(huán)境和駕駛意圖,再結(jié)合導(dǎo)航引導(dǎo)信息以及自車歷史動作,并借助外部大語言模型LLM的海量知識來輔助給出駕駛決策。

由于大語言模型已經(jīng)學(xué)習(xí)到并壓縮了人類社會的全部知識,因而也就包含了駕駛相關(guān)的知識。經(jīng)過毫末對大語言模型的專門訓(xùn)練和微調(diào),從而讓大語言模型更好地適配自動駕駛?cè)蝿?wù),使得大語言模型能真正看懂駕駛環(huán)境、解釋駕駛行為,做出駕駛決策。認(rèn)知大模型通過與大語言模型結(jié)合,使得自動駕駛認(rèn)知決策獲得了人類社會的常識和推理能力,也就是獲得了世界知識,從而提升自動駕駛策略的可解釋性和泛化性。

(毫末DriveGPT應(yīng)用的七大實踐)

在分享了最新DriveGPT大模型技術(shù)框架后,顧維灝隨后也給出了毫末基于DriveGPT大模型開發(fā)模式的七大應(yīng)用實踐,包括駕駛場景理解、駕駛場景標(biāo)注、駕駛場景生成、駕駛場景遷移、駕駛行為解釋、駕駛環(huán)境預(yù)測和車端模型開發(fā)。

其中,在駕駛行為解釋方面,毫末DriveGPT在原有結(jié)合場景庫及人工標(biāo)注方式來對駕駛行為進(jìn)行解釋的基礎(chǔ)上,升級為引入大語言模型來解釋駕駛環(huán)境,讓AI自己解釋自己的駕駛決策。接下來,毫末會持續(xù)通過構(gòu)建自動駕駛描述數(shù)據(jù),來對大語言模型進(jìn)行微調(diào),讓大語言模型能夠像駕校教練或者陪練一樣,對駕駛行為做出更詳細(xì)的解釋。

(駕駛行為解釋:透視AI的思考過程)

駕駛環(huán)境預(yù)測方面,毫末DriveGPT原來基于海量人駕數(shù)據(jù)預(yù)訓(xùn)練和接管數(shù)據(jù)的反饋強(qiáng)化學(xué)習(xí)來完成未來BEV場景的預(yù)測生成,現(xiàn)在則是通過引入大語言模型,在使用駕駛行為數(shù)據(jù)的同時,讓大語言模型對當(dāng)前的駕駛環(huán)境給出解釋和駕駛建議,然后再將駕駛解釋和駕駛建議作為prompt輸入到生成式大模型,來讓自動駕駛大模型獲得外部大語言模型內(nèi)的人類知識,從而具備常識,才能理解人類社會的各種明規(guī)則、潛規(guī)則,才能跟老司機(jī)一樣,預(yù)測未來最有可能出現(xiàn)的駕駛場景,從而與各類障礙物進(jìn)行更好地交互。

(駕駛環(huán)境預(yù)測:生成未來世界)

車端模型開發(fā)模式變革方面,毫末正在嘗試用蒸餾的方法,也就是用大模型輸出的偽標(biāo)簽作為監(jiān)督信號,讓車端小模型來學(xué)習(xí)云端大模型的預(yù)測結(jié)果,或者通過對齊Feature Map的方式,讓車端小模型直接學(xué)習(xí)并對齊云端的Feature Map,從而提升車端小模型的能力。基于蒸餾的方式,可以讓車端的感知效果提升五個百分點。

(車端模型開發(fā)新模式:把大模型蒸餾成小模型)

此外,毫末DriveGPT的駕駛場景理解可以對海量駕駛場景數(shù)據(jù)進(jìn)行秒級特征搜索,從而實現(xiàn)更高效的數(shù)據(jù)篩選,為大模型挖掘海量高質(zhì)量訓(xùn)練數(shù)據(jù);駕駛場景標(biāo)注是采用了開集(Open-set)場景下的Zero-Shot自動標(biāo)注,可實現(xiàn)對任意物體既快速又精準(zhǔn)的標(biāo)注,不僅可實現(xiàn)針對新品類的Zero-Shot快速標(biāo)注,而且精度還非常高,預(yù)標(biāo)注準(zhǔn)召達(dá)到80%以上;駕駛場景生成,可以基于駕駛場景的文生圖模型,通過文字描述批量生成平時難以獲取的Hardcase數(shù)據(jù),實現(xiàn)無中生有的可控生成;對于駕駛場景遷移,基于AIGC生成能力,可實現(xiàn)多目標(biāo)場景生成,能將采集到的一個場景,遷移到該場景的不同時間、不同天氣、不同光照等各類新場景下,可同時獲取全天候駕駛數(shù)據(jù),實現(xiàn)瞬息萬變的高效場景遷移。

現(xiàn)場,顧維灝還給出了DriveGPT賦能車端的三大測試成果:

第一個是毫末純視覺自動泊車測試成果。毫末利用視覺感知模型,使用魚眼相機(jī)可以識別墻、柱子、車輛等各類型的邊界輪廓,形成360度的全視野動態(tài)感知,可以做到在15米范圍內(nèi)達(dá)到30cm的測量精度,2米內(nèi)精度可以高于10cm。這樣的精度可實現(xiàn)用視覺取代USS,從而進(jìn)一步降低整體智駕方案成本。

(毫末純視覺泊車)

第二個是毫末對交通場景全要素識別測試成果。DriveGPT基于通用感知的萬物識別的能力,從原有感知模型只能識別少數(shù)幾類障礙物和車道線,到現(xiàn)在可以識別各類交通標(biāo)志、地面箭頭,甚至井蓋等交通場景的全要素數(shù)據(jù)。大量高質(zhì)量的道路場景全要素標(biāo)注數(shù)據(jù),可以有效幫助毫末重感知的車端感知模型實現(xiàn)效果的提升,助力城市NOH的加速進(jìn)城。

第三個是毫末城市NOH對小目標(biāo)障礙物檢測的測試成果。毫末在當(dāng)前城市NOH的測試中,可以在城市道路場景中,在時速最高70公里的50米距離外,就能檢測到大概高度為35cm的小目標(biāo)障礙物,可以做到100%的成功繞障或剎停,這樣可以對道路上穿行的小動物等移動障礙物起到很好地檢測保護(hù)作用。

據(jù)顧維灝透露,DriveGPT的云端能力也對外開放,合作伙伴可以通過使用API、模型的專項優(yōu)化、服務(wù)的私有化部署,與毫末合作。DriveGPT發(fā)布200天左右的時間里,累積480萬段Clips高質(zhì)量測試。目前已有生態(tài)伙伴17家,助力生態(tài)伙伴提效90%。2023年DriveGPT成功入選“北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計劃”成為首批模型伙伴觀察員及入選北京市首批人工智能10個行業(yè)大模型應(yīng)用案例。此外,DriveGPT還助力毫末榮獲2023中國AI基礎(chǔ)大模型創(chuàng)新企業(yè)的稱號。

顧維灝也提到,毫末DriveGPT大模型的應(yīng)用,在自動駕駛系統(tǒng)開發(fā)過程中帶來了巨大技術(shù)提升,使得毫末的自動駕駛系統(tǒng)開發(fā)徹底進(jìn)入了全新模式,新開發(fā)模式和技術(shù)架構(gòu)將大大加速汽車智能化的進(jìn)化進(jìn)程。


原創(chuàng)

百年巨頭突然爆雷:連續(xù)造假24年!

中國制造日本制造業(yè)

再曝驚天大丑聞,又一日本軍工巨頭承認(rèn)造假!

2024-08-25

ST新潮遭遇‘問題買家’ 匯能海投此次收購真相何在?

上市公司ST新潮匯能海投

8月23日晚間,A股上市公司ST新潮(600777.SH)發(fā)布公告稱,公司收到了北京匯能海投新能源開...

2024-08-25

國聯(lián)水產(chǎn)攜手世界跳水冠軍之父,共謀鄉(xiāng)村振興新篇章

創(chuàng)新創(chuàng)業(yè)國聯(lián)水產(chǎn)

8月24日,國聯(lián)水產(chǎn)集團(tuán)董事長李忠、董事陳漢一行人前往湛江市麻章鎮(zhèn)邁合村,拜訪世界跳水冠軍的父親全文...

2024-08-25

“滿幫云程獎學(xué)金”名單公布 46名優(yōu)秀貨車司機(jī)子女獲獎

人物滿幫公益

教育助學(xué)作為滿幫公益基金會長期堅持的一項公益事業(yè)。

2024-08-25

資源股回調(diào)機(jī)遇再現(xiàn),民生加銀助力投資者把握機(jī)遇

金融科技民生加銀

民生加銀量化投資部總監(jiān)何江認(rèn)為,隨著全球主流貨幣開啟降息進(jìn)程,預(yù)期未來全球貨幣環(huán)境將處于較為寬松的狀...

2024-08-25

民生加銀基金:聚焦港股高股息優(yōu)質(zhì)資產(chǎn) 打造便捷投資工具

金融科技民生加銀基金

大手筆的分紅,體現(xiàn)了港股公司在上半年的良好業(yè)績及對未來發(fā)展的堅實底氣。

2024-08-25

新源腦科學(xué)完成數(shù)千萬元Pre-A輪融資

新源腦科學(xué)

新源腦科學(xué)完成數(shù)千萬元Pre-A輪融資

2024-08-24

錦囊:羊小咩享花卡怎么取現(xiàn),信譽商家推薦以下方法

金融科技羊小咩

羊小咩是一個以用戶體驗為中心,旨在為用戶提供智能化的一站式生活消費服務(wù)的平臺。

2024-08-24

以「議題思維」做品牌,余額寶X快手穿透圈層壁壘

金融科技余額寶

好的營銷,善于發(fā)起社會議題。

2024-08-24

投資家網(wǎng)(www.jubohaotong.com)是國內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務(wù)平臺。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務(wù),包括行業(yè)媒體、智庫服務(wù)、會議服務(wù)及生態(tài)服務(wù)。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。

沙特天空塔投資設(shè)立專項基金帶領(lǐng)中國氫能獨角獸扎根沙特

2016年注冊于北京的中氫新能技術(shù)有限公司,下設(shè)位于大興的裝備制造公司、位于海淀區(qū)的技術(shù)研究院、材料...

挑戰(zhàn)奔馳的明星車企,突然“翻車”了

一度無比高光的理想汽車,猝不及防遭遇重挫。

深圳天使母基金姚小雄:將來股權(quán)投資行業(yè)競爭是服務(wù)能力的競爭

2024年1月10日,由投資家網(wǎng)主辦,財經(jīng)銳眼、有時間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...

避免卡脖子,硬科技如何“逆境”突圍?

2024年1月10日,由投資家網(wǎng)主辦,財經(jīng)銳眼、有時間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...

VC/PE眼中的“專精特新”

2024年1月10日,由投資家網(wǎng)主辦,財經(jīng)銳眼、有時間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...

不響不輟|第18屆中國投資年會·年度峰會在滬召開

不響不輟|第18屆中國投資年會·年度峰會在滬召開

5月8-10日,由投中信息、投中網(wǎng)主辦的“第18屆中國投資年會·年度峰會”在上海外灘W酒店盛大召開。

2024汽車科技創(chuàng)新與成果轉(zhuǎn)化大會在常州成功召開

2024汽車科技創(chuàng)新與成果轉(zhuǎn)化大會在常州成功召開

4月12日,2024汽車科技創(chuàng)新與成果轉(zhuǎn)化大會在常州經(jīng)開區(qū)成功召開。

不響不輟 | 第18屆中國投資年會·年度峰會即將啟幕

不響不輟 | 第18屆中國投資年會·年度峰會即將啟幕

2024年5月8-10日,由投中信息、投中網(wǎng)主辦,以“不響不輟”為主題的第18屆中國投資年會·年度峰...

投資家網(wǎng)協(xié)辦:首屆深圳灣資本市場年會隆重舉行

投資家網(wǎng)協(xié)辦:首屆深圳灣資本市場年會隆重舉行

12月20日,由南山區(qū)資本市場協(xié)會主辦,投資家網(wǎng)、桐鵬匯財金高管俱樂部協(xié)辦的資本巿場年會隨即舉行。

“投資家網(wǎng)·2023中國價值企業(yè)榜”重磅發(fā)布

“投資家網(wǎng)·2023中國價值企業(yè)榜”重磅發(fā)布

身處百年未有之大變局,中國經(jīng)濟(jì)這艘萬噸巨輪,早已屹立于世界舞臺中央。