新方法提升AI預訓練效率和準確性
記者劉霞
點擊播報本文,約
加拿大滑鐵盧大學研發(fā)出一種名為SubTrack++的全新訓練方法,不僅可大幅縮短大語言模型的預訓練時間,更能顯著提升其準確性。這一突破有望降低構建人工智能(AI)工具的成本與環(huán)境負擔,讓更多人用上強大、便捷的AI技術。
大語言模型是基于深度神經網絡、專注于理解與生成人類自然語言的AI系統(tǒng)。其核心能力源于海量文本數據的預訓練,借此學習語法規(guī)律、語義邏輯及上下文關聯(lián),從而輸出貼近人類表達習慣的內容。這類模型的“大”體現(xiàn)在兩方面:一是訓練數據規(guī)模巨大,二是模型參數量極為龐大。正因如此,對其進行預訓練往往需要數月時間,并消耗大量算力、專用硬件及電力,高昂成本使一般企業(yè)與機構難以承擔。
為破解這一難題,團隊開發(fā)出SubTrack++方法,可將預訓練耗時縮減一半。團隊指出,大語言模型能耗極高,即便訓練時間僅減少5%,也能帶來顯著效益。從長遠看,此類技術進步將推動更多人自主構建專屬的大語言模型。
團隊解釋說,大語言模型本質是由龐大數字矩陣構成的神經網絡,通過數十億次試錯學習預測文本序列。每當預測出錯,模型便微調其數學參數以提升準確率。這一過程如同讓模型“閱讀整座圖書館”,從中學習人類如何使用語言。SubTrack++通過聚焦對任務最關鍵的核心參數,簡化校正流程,實現(xiàn)高效微調,從而加速整體預訓練。
團隊期望,通過節(jié)省預訓練時間,未來不只大型企業(yè),普通用戶也能構建并定制屬于自己的AI工具。安全學習個人偏好后,大語言模型可成為真正的智能數字助理,適應不同用戶的風格、目標與需求,成為人類工作與創(chuàng)造中的得力伙伴。
團隊將在墨西哥城舉辦的神經信息處理系統(tǒng)會議上正式發(fā)表相關論文。
222
