国产成人欧美日韩综合-久久久久无码国产精品不卡-h双腿涨灌捆绑play慎入-啊灬用力灬啊灬啊灬啊灬a片男男-性疼痛tube小坳交hd-国产精品免费大片-日本亚洲成高清一区二区三区-草莓视频在线观看污污-浴室激情hd-欧美午夜理伦三级在线观看激情伦理-91蝌蚪在线,国产黄色大片在线观看一区二区,午夜精品久久久内射近拍高清,特级做a爱片久久久久久

18600329666

咨詢技術專家

掃一掃
與技術專家在線溝通

Menu
無需大規模預訓練,清華提出高效NLP學習框架TLM:從零開始比肩預訓練語言模型性能

近期來自清華的研究者研發出了一款nlp學習框架,不同于現行流行的nlp框架,需要大量的訓練+任務微調的范式,這一框架無需大規模的深度學習訓練,相比于目前流行的其他與訓練框架,這一框架的效率更高,甚至在多個類型nlp任務的使用中,其準確率超過了一般的預訓練框架,這一研究結果對大規模預訓練模型和方式提出了質疑:大規模訓練對下有任務的貢獻率到底有多大,我們真的需要大量的訓練來達到最好的效果嗎?研究者將這種方式稱之為TLM

自然語言處理技術

 TLM 和 PLM。整體來說,PLM 以極高的成本學習盡可能多的任務無關的知識,而 TLM 以非常低的成本針對每個任務學習相關知識。對比 TLM 和 PLM 有如下幾個方面特點。

1.推動 NLP 研究公平化和民主化(Democratization)

預訓練本身嚴重依賴大量的計算資源,這一限制使得大多數 NLP 研究者專項對微調算法的研究。然而微調性能上限很大程度上受預訓練模型性能的約束。而 TLM 使得大多數研究人員可以以較低的代價和較高的效率,基于最先進的解決方案對模型架構、損失函數、算法等方面進一步自由探索。
2. 高效性(Efficiency)
TLM 在平均每個任務的 FLOPs 消耗方面顯著優于 PLM。當我們有少數目標任務需要解決的時候(例如研究人員希望對少量幾個數據集進行研究),TLM 會是非常高效的;然而當需要一次性解決大量任務時(例如工業界構建一個 NLP 平臺為多方提供相似的服務),PLM 仍然具有優勢。
3. 靈活性(Flexibility)
TLM 是任務驅動的,所以可以給研究人員更大的自由度,從而自定義策略進行標記、序列長度、數據表示、超參數的調整等等,從而達到提高性能和效率的目的。
4. 通用性(Generality)
PLM 學習與任務無關的一般性表示,可用于小樣本和零樣本學習,而 TLM 通過學習任務相關的表示一定程度犧牲通用型換取效率。從這個意義上,TLM 需要在通用型方面進一步提升。此外也可以 PLM 和 TLM 結合從而在通用性和效率之間實現更好的權衡。
為了深入了解 TLM 的工作機制,研究人員對模型每個注意力頭所輸出的注意力分數進行了可視化。可以觀察到,TLM 的注意力模式中包含了更多的「對角線」模式(圖 3 紅框),也即大多 token 都將注意力分數集中賦予了其鄰近 token,這種模式已在前人的工作 [1] 中被證明對模型的最終預測有著重要貢獻。而預訓練模型(BERT, RoBERTa)中則包含了大量「垂直」模式的注意力頭(圖 3 灰色區域),也即大多 token 都將注意力分數集中賦予了 [CLS],[SEP] 或者句號這種毫無語義或者句法信息的詞匯上。這一現象表明 TLM 中參數利用率要顯著高于預訓練語言模型,TLM 或許針對下游任務學習到了更加富有語義信息的表示。
總結
TLM 的提出讓 NLP 研究跳脫出預訓練微調范式成為了可能,這使得 NLP 研究者們可以更為自由地探索新興的模型結構與訓練框架,而不拘泥于大規模預訓練模型。在未來,更多有趣的研究可以在 TLM 的基礎上展開,例如:如何經濟地達到更大規模預訓練模型的表現效果;如何提升 TLM 的通用性與可遷移性;可否利用 TLM 進行小樣本或零樣本學習等等。