2022年,ChatGPT橫空出世,大模型開始走入大眾視野,成為全球互聯網(互聯網行業分析報告)焦點。2023年2月,Meta公司發布LLaMa并催生發展出開源社區,大模型從“只會聊天的工具”,變成了有可能會進入到“嚴肅生產領域”的生產力。邁入2024年,Sora的出世、Claude 3.0展現出的強大推理能力,以及馬斯克剛剛開源的Grok,都代表著整個行業處在“方興未艾”的賽道,大模型行業的發展有兩個非常重要的驅動力量。一個是源于所有研究者和從業者對于技術理想的追求,不斷突破邊界,尋求越來越接近AGI(Artificial General Intelligence,人工通用智能)的大模型;同時產業界也看到了大模型帶來產業革命的可能性,無數企業投入巨大資源到這個賽道中。兩股力量交織在一起,形成了我們今天看到的大模型產業‘波瀾壯闊’的局面。
而在國內,大模型產業的發展同樣突飛猛進。去年3月份,百度發布“文心一言”,此后,阿里巴巴的“通義千問”、科大訊飛星火大模型、騰訊混元大模型陸續發布上線。互聯網大廠之外,華為、京東、字節跳動、商湯科技,乃至三大電信運營商、各科研院所和高校的大模型產品也不斷推出。有統計數據顯示,中國研發大模型的公司已有100多家,邁入“百模大戰”階段。
同時,大模型行業也在不斷涌現出新的課題。發展大模型產業,算力是門檻。隨著大模型參數的增加,對算力的需求幾乎是幾何級增長的。另外,包括ChatGPT在內,大模型還帶來了“一本正經地胡說八道”、“深度偽造”等倫理問題,需要各方加強治理。
此外,當前主流的大模型都是建立在Transformer架構堆疊的基礎上,但這一架構對計算資源的消耗特別大。騰訊混元大模型算法負責人康戰輝表示,當下越來越多的企業看到了MoE(即:混合專家模型)展現出來的優良特性,未來可能還會有更加高效的架構出來。有行業人士將2024年比作大模型應用的“元年”,認為行業的競爭焦點正在從基礎模型到應用遷移。從目前來看,大模型確實已經落地到各行各業,生根發芽。
“大模型+科學”可以產生哪些化學反應?上海人工智能實驗室青年科學家白磊介紹,實驗室發布“風烏”大模型,可用以預測氣象。由于大氣系統的復雜性,全球中期天氣預報的有效性每10年才提高1天。此前,全球范圍內最好的物理模型有效預報時長最大為8.5天,而“風烏”達到了10.75天,且預測時間僅需30秒。
機器人與大模型的結合領域“具身智能”也是熱點。“傳統的機器人需要編程,需要寫固定的代碼,造成之前的人機交流非常僵硬。現在,我們告訴機器人它的手臂快碰到天花板了,在沒有任何方向性指示的情況下,它能夠理解,且做出正確反應。這在傳統的機器人編程中,是不可想象的。我們期待,大模型能給機器人一顆通用的大腦。