如果要評選2023年最大的風口,AI大模型一定位列其中。
風起自ChatGPT的現象級爆火,英偉達創始人黃仁勛激動地喊出了“AI的iPhone時刻正在到來“。
整個科技圈似乎達成了一種共識:所有產品都值得用大模型重做一遍,當然也包括正處于寒冬之中的自動駕駛。
然后,幾乎是一夜之間,整個汽車圈都是GPT上車的消息,長安、集度、吉利、嵐圖、紅旗、長城、東風日產、零跑等搭上了百度的文心一言。
“蔚、小、理“先后申請了GPT的相關商標。其中,理想自研的Mind GPT已經正式發布。另外,毫末智行也在不久前發布了自動駕駛生成式大模型drive GPT。
可以說AI大模型的火熱,給正在冷卻中的自動駕駛又畫了一張新的大餅。
有人表示從中看到了自動駕駛的未來。比如集度汽車創始人夏一平,小鵬汽車董事長脊睜何小鵬等,當然也有很多人覺得,GPT上車目前就是個PR行為。
所以,今天來嘗試探討一個問題,大模型之于自動駕駛,到底有什么作用?它能給這個已經燒掉無數金錢但依然成效寥寥的賽道,帶來一個相對確定的未來么?
先明確一個定義,大模型是指具有超大參數規模(通常在十億個以上)和復薯野蘆雜程度的機器學習模型。通常來說,參數量越大,模型就越容易擬合海量數據的規律。
而ChatGPT的出現,讓人們有一個非常驚喜的發現。那就是當模型參數量達到了一定程度,超過某個臨界值之后,它的性能會大大超越預期。
很多科學家驚嘆于這一現象,并將其稱之為“涌現“。但遺憾的是到目前為止還沒有一套系統、公認的理論來解釋為什么會出現這個現象。
所以我們姑且相對簡單地把這種“涌現“理解為一個從量變到質變的過程。在跨過臨界點之后,模型精度呈指數型增加,甚至產生了類似于人類的邏輯思考能力。
而這種能力很可能是自動駕駛算法攻克最后1%長尾場景的關鍵所在。在數據標注、虛擬仿真環境以及決策規劃上,大模型都有可能改變甚至重寫過去的算法。
舉個例子,低頻率但又幾乎不可窮盡的Corner Case,正是從高階輔助駕駛邁向自動駕駛最大的一塊絆腳石。
而Corner Case的出現帶有極強的不可預知性,毫末智行數據智能科學家賀翔舉了一個例子,一輛卡車轉運一顆大樹,算法看到的可能只有車,而沒有伸出車外的樹枝。
類似的狀況有很多,比如說很特別的大件運輸車輛,甚至是違規拉著很長一根管子的三輪車。
面對這些場景,算法只識別的車輛是不夠的,但按照現在基于標簽的方式來挖掘長尾場景,只能給系統看大量的標注圖片,教它學會識別。
不過問題在于,這些車輛出現的頻率太低,數據采集的難度大、成本高、周期長,真正碰到這種場景的概率又小,成本上是算不過來的。
但AI大模型具備舉一反三的能力,我們可以通過文字的描述來使其檢索并對圖像進行分類,檢索甚至是自主創造我們需要的長尾場景,例如拖著大樹的卡車,拉著長水管的三輪車等。
除此之外,大模型也可以更好的從數據中提取特征,進行數據標注。
比如,先用海量未標注數據通過自監督的方式預訓練一個大模型,然后用少量已經人工標注好的數據對模型做微調,使得模型具備檢測能力,這樣模型就可以自動標注需要的數據。
目前,很多公司都在研究如何提高大模型自動標注的精度,希望實現自動標注的完全無人化。
在Mind GPT發布之后,理想汽車董事長李想就表示:“我們一年要做大概1000萬幀的自動駕駛圖像的人工標定,外包公司價格大概6元到8元錢一張,一年成本接近一億元。當我們使用大模型,通過訓練的方式進行自動化標定,過去需要用一年做的事情基本上3個小時就能完成,效率是人的1000倍。”
總之,自動駕駛的感知也好,規劃決策也好,目前基本上是基于經驗和規則的,缺少場景泛化的能力。
但就像夏一平所言,大模型解決的正是泛化的問題,是舉一反三的問題,這可能讓自動駕駛在未來數帶3-5年內又重大的突破。
因為從根本上來說,生成式AI在語言模型上的應用思路是可以平移到自動駕駛上的。
雖然計算機不懂自然語言,但它通過數學建模,把語言問題變成了數學問題。通過給定文本的歷史,預測下一個詞出現的概率,間接地理解了自然語言。
換到駕駛場景,如果給定當前的交通環境,給定一個導航地圖,以及一個駕駛員駕駛行為的歷史,那么,大模型是不是可以預測下一個駕駛動作?
理論上,這是可行的。地平線的創始人余凱認為以AI現在所展現的學習能力,學習司機的駕駛習慣并不難。
“接下來要繼續用更大的數據、更大的模型,無監督地去學習人類駕駛的嘗試,就像我們從大量無監督的、沒有標注的自然文本里去學習一樣,構建一個回歸自動駕駛的大語言模型。”
大模型為自動駕駛畫出來的這張餅,很誘人。但能不能消化其實是另外一回事兒。
“現在說GPT上車都是噱頭,車端還沒有運轉大模型的硬件條件。”賀翔說道。
理論上,大模型需要高規格的硬件配置,包含高性能計算能力、大容量內存和低時延等特點,但車載設備的硬件條件相對有限,無法提供足夠的計算資源支撐大模型運行。
舉個例子,在自然語言處理領域的 GPT-3 模型就需要數萬億Tops的計算能力。這要求芯片的算力至少要在萬級Tops以上才能夠勝任大型模型的計算任務。
但是,在車載部署場景下,芯片的算力往往只有數百Tops,遠遠達不到大型模型的要求。
所以,目前自動駕駛大模型也只能暫時運轉在云端,例如毫末智行的Drive GPT。
但即便如此,它依然可以對車端產生影響。 比如通過用知識蒸餾的方式“教”車端的小模型。
最簡單的方式就是把需要打標簽的圖片給大模型學習,大模型可以給這些圖片打好標簽,標注好的圖片就可以用于小模型的訓練。
所以,大模型對算力的消耗讓云計算廠商成為了第一批被風吹起來的玩家。
2023年以來 阿里、美團、騰訊等互聯網大廠也都紛紛收縮或者調整了自動駕駛相關的投入,將更多的精力放到了云計算和AI大模型上。
而主機廠這邊,自建超算中心也逐漸成為了基本操作。
當然如果大模型只能運轉在云端,它對于自動駕駛的影響會小很多。因為從云端到車端,哪怕只是一點點的時延也可能會在公路上造成悲劇。
所以目前地平線、英偉達等芯片企業都在積極研發適應大模型上車需求的新一代高算力AI芯片。
地平線CTO黃暢認為,按照發展進程來看,在自動駕駛場景中,大模型在車端會優先從環境模型的預測和交互式規控和規劃開始應用。
“這個場景不需要特別的大規模參數模型,在百Tops級別的算力平臺上就能應用, 3~5年內就可以初步上線。”
“但如果從感知到定位地圖到規控,整個端到端的閉環做出來,則需要一個更大規模的參數模型,大概需要5~10年的時間。”黃暢補充到。
嚴格來說,一夜火遍全球的ChatGPT只是AI大模型中的一種。自動駕駛行業對于大模型的運用比ChatGPT的爆火要早很多。
2017年,馬斯克從Open AI挖來了了一位計算機視覺領域的頂級研究院Andrej Karpathy。
他在特斯拉工作了五年,最高做到了AI高級總監兼自動駕駛負責人,而這五年也被絕大多數人認為是特斯拉自動駕駛成長最快的五年。
入職后不久,Andrej Karpathy就重寫了特斯拉自動駕駛算法,以BEV純視覺感知+Transformer為基礎,將特斯拉的智能駕駛帶入了新的階段。
當下小鵬、華為、毫末智行、理想等企業正在紛紛跟進這一路線。
而所謂Transformer是一種由谷歌8為AI科學家提出的一種深度學習神經網絡,GPT中的T正是指代Transformer。
Open AI將Transformer運用于自然語義理解,誕生了ChatGPT;特斯拉將其應用于計算機視覺,成功開創了BEV技術,讓純視覺感知成為了潮流。
接下來,Transformer還將被自動駕駛玩家們逐步運用到決策規劃等各個環節,改變現有模塊化的部署方式,邁向端到端的自動駕駛。
我們現在還無法預知這一切會擦出怎么樣的火花,但可以肯定大模型在智能駕駛上還未達到自然語義一般“涌現”的程度。
芯片算力、數據來源以及豐富程度甚至是車輛的散熱性能,都還沒有準備好迎接大模型的上車。
但至少,改變已經在發生,也許這一次自動駕駛這條路也許就真的通了呢?
下一篇
制作趣味龍舟模型、慢嘆非遺休閑驛站、齊玩真人龍舟棋……來自廣州、珠海、惠州、汕尾、東莞、江門、肇慶七個市的非遺項目及傳承人,與景區游客共度端午。記者在現場看到,本次節慶“嘆”非遺活動體現了濃郁的嶺南端午特色。包粽子和賽龍舟是嶺南端午不可缺少
是的,從宏觀經濟學的角度來說,ChatGPT可能引發的失業屬于典型的技術性失業,即原來由人完成的工作被搭沒跡機器來代替完成。一、采用ChatGPT和其他類似的語言模型,可能會導致某些行業出現失業或變化。一些領域的自動化、以及語言模型分析大量
”早在宋元時期,德化碗坪侖窯在生產青白瓷的同時就生產出了白瓷,但德化白瓷成為全國制瓷業中的一種具有代表性的品種,則是在明代中葉以后由于德化所具有的悠久的陶瓷生產歷史,得天獨厚的瓷土資源以及白瓷獨具的優良德化白瓷是非遺嗎;有僧迦大士,天下共寶
chatgpt是OpenAI開發的一個大型預訓練語言模型,通俗一點說就是一個聊天機器人。它是GPT-3模型的變體,ChatGPT經過了訓練,可以根據接收到的輸入生成類似人類的文本響應,具有更自然、更多樣化的特點。用戶可以向它提出無數問題,而
Chat GPT要怎么用?給你搞明白了!Chat GPT要怎么用?如下圖是Chat GPT的網頁, 登錄進入后點擊10開始一個新對話,點擊20選擇對話的模型后在30輸入你的問題, 就可以開始對話使用Chat GPT!現在我們了解了Chat