“大模型發(fā)展過程中,實(shí)現(xiàn)大模型的核心基礎(chǔ)技術(shù)并未見顛覆性的創(chuàng)新,而是通過長期迭代演進(jìn)逐步發(fā)展到目前水平。”近日,北京航空航天大學(xué)計(jì)算機(jī)系主任肖利民
教授在采訪中表示,通過“大算力+大模型+大數(shù)據(jù)”的高效組合,AI大模型逐步解決了需要大量標(biāo)注樣本、跨領(lǐng)域自適應(yīng)能力、多任務(wù)泛化能力等傳統(tǒng)AI落地難的問題,
使得通用人工智能(AGI)實(shí)質(zhì)性落地應(yīng)用成為可能。
談及AI大模型的關(guān)鍵技術(shù),肖利民說,以GPT為代表的大模型,通過基于Transformer結(jié)構(gòu)的模型疊加和并行化,面向海量非標(biāo)注數(shù)據(jù)的自監(jiān)督學(xué)習(xí)、多任務(wù)學(xué)習(xí)/
元學(xué)習(xí)/遷移學(xué)習(xí),基于人類反饋的強(qiáng)化學(xué)習(xí),基于跨媒體對齊的多模態(tài)翻譯和轉(zhuǎn)換等大模型核心創(chuàng)新技術(shù)的持續(xù)融合演進(jìn),使得大模型在跨領(lǐng)域多任務(wù)中表現(xiàn)出的智能
化水平有了質(zhì)的變化。
大模型的發(fā)展和應(yīng)用將賦能千行百業(yè),為實(shí)體經(jīng)濟(jì)中的企業(yè)提供更加智能化的技術(shù)和工具,促進(jìn)各行業(yè)和領(lǐng)域的創(chuàng)新發(fā)展,推動(dòng)新產(chǎn)品、新服務(wù)、新業(yè)態(tài)的出現(xiàn)。肖
利民表示,一方面,大模型可利用大量的數(shù)據(jù)進(jìn)行分析和預(yù)測,幫助實(shí)體經(jīng)濟(jì)中的企業(yè)做出更準(zhǔn)確的決策。例如,通過對市場趨勢、消費(fèi)者行為、供應(yīng)鏈等的分析和預(yù)測
,企業(yè)可精準(zhǔn)了解市場需求、更好優(yōu)化產(chǎn)品和服務(wù),提高運(yùn)營效率和競爭力。另一方面,大模型可用于自動(dòng)化和智能化系統(tǒng),助力實(shí)體經(jīng)濟(jì)中的企業(yè)提高生產(chǎn)效率和質(zhì)量。
例如,在制造業(yè)中,大模型可用于質(zhì)量控制、設(shè)備運(yùn)維、供應(yīng)鏈優(yōu)化等復(fù)雜任務(wù),實(shí)現(xiàn)智能化生產(chǎn)和運(yùn)營。
入局大模型研發(fā)的門檻有多高,需要怎樣的算力支持?大模型的研發(fā)和構(gòu)建在模型訓(xùn)練、大數(shù)據(jù)收集、大數(shù)據(jù)清洗、核心技術(shù)研發(fā)及關(guān)鍵人才招攬等諸多方面都需要
付出高昂的代價(jià)。肖利民表示,大模型訓(xùn)練需要有高算力、大內(nèi)存、高互聯(lián)帶寬、高運(yùn)行效率的智能計(jì)算平臺。以GPT 3.0為例,其模型參數(shù)總量達(dá)1750億個(gè),訓(xùn)練樣本
Tokens數(shù)達(dá)3000億個(gè),計(jì)算量高達(dá)314ZFLOPS,最大數(shù)據(jù)集45TB,參數(shù)和模型狀態(tài)存儲(chǔ)量超過2.1TB,如果要求訓(xùn)練在30天內(nèi)完成,以A100芯片為例,訓(xùn)練階段至少
需要1558塊A100GPU,耗費(fèi)至少2337萬美元。
未來,不僅要關(guān)注大模型的研發(fā)和構(gòu)建,更要注重大模型的精調(diào)和使用,以發(fā)揮大模型的實(shí)際效用。產(chǎn)業(yè)界越發(fā)關(guān)注大模型,但大模型并非多多益善,其研發(fā)、訓(xùn)練
需要持續(xù)的算力、人才投入,通常只有大型龍頭企業(yè)或領(lǐng)軍企業(yè)才能負(fù)擔(dān)得起。基于通用大模型,聚焦場景需求解決實(shí)際問題,打造精耕細(xì)作的行業(yè)大模型,打通AI應(yīng)用
的“最后一公里”,才能更好賦能實(shí)體經(jīng)濟(jì)發(fā)展。(記者 吳雙)