首都青年網 |
      • 手機客戶端
      • 微信
      您的位置:首頁 > 產經 > 正文
      上海研發的“書生·浦語”大語言模型發布
      來源: 2023-06-07 17:02:29

      上海研發的“書生·浦語”大語言模型發布

      6月7日,上海人工智能實驗室(上海AI實驗室)、商湯科技聯合香港中文大學、復旦大學及上海交通大學發布千億級參數大語言模型“書生·浦語”(InternLM)。

      隨著AI大語言模型越來越多地表現出接近人類的智能,面向人類設計的高難度、綜合性考試被越來越多地引入對語言模型的智能水平進行評測。OpenAI在其關于GPT-4的技術報告中就主要通過各領域的考試對模型能力進行檢驗。2023年高考開考,中文大語言模型是否能夠在高考中趕超ChatGPT呢?

      據上海人工智能實驗室介紹,“書生·浦語”具有1040億參數,是在包含1.6萬億token的多語種高質量數據集上訓練而成。全面評測結果顯示,“書生·浦語”不僅在知識掌握、閱讀理解、數學推理、多語翻譯等多個測試任務上表現優秀,而且具備很強的綜合能力,因而在綜合性考試中表現突出,在多項中文考試中取得超越ChatGPT的成績,其中就包括中國高考各科目的數據集(GaoKao)。


      (資料圖片)

      綜合“大考”:“書生·浦語”多項成績領先于ChatGPT

      “書生·浦語”聯合團隊選取了20余項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集:由伯克利加州大學等高校構建的多任務考試評測集MMLU;微軟研究院推出的學科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE 和 GMAT等);由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval;以及由復旦大學研究團隊構建的高考題目評測集Gaokao。

      實驗室聯合團隊對“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 進行了全面測試,針對上述四個評測集的成績對比。

      研究發現,“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B 等學術開源模型,還在AGIEval、C-Eval、以及Gaokao等多個綜合性考試中領先于ChatGPT;在以美國考試為主的MMLU上實現和 ChatGPT 持平。這些綜合性考試的成績反映出“書生·浦語”扎實的知識掌握程度和優秀的綜合能力。

      雖然 “書生·浦語”在考試評測上取得優秀成績,但在測評中也可以看到,大語言模型仍然存在不少能力局限性?!皶て终Z” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K),在長文理解、復雜推理、撰寫代碼以及數理邏輯演繹等方面還存在明顯局限。另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題;這些局限使得大語言模型在開放場景中的使用還有很長的路要走。

      分項評測:閱讀理解、推理能力表現出色

      為了避免“偏科”,研究人員還通過多個學術評測集,對“書生·浦語”等語言模型的分項能力進行了評測對比。結果顯示,“書生·浦語”不僅在中英文的閱讀理解方面表現突出,并且在數學推理、編程能力等評測中也取得了較好的成績。

      例如,在知識問答方面,“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項評測上得分為69.8和27.6,均超越 LLaMA-65B(得分為68.2和23.8,滿分100分)。

      在閱讀理解(英語)方面,“書生·浦語”明顯領先于 LLaMA-65B 和 ChatGPT。浦語在初中和高中英語閱讀理解中得分為92.7和88.9,?ChatGPT得分為85.6和81.2,LLaMA-65B則更低。

      在中文理解方面,“書生·浦語”的成績全面超越主要的兩個中文語言模型ERNIE-260B和GLM-130B。在多語翻譯方面,“書生·浦語”在多語種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。

      在編程能力方面,“書生·浦語”在HumanEval 和MBPP這兩項最具代表性的考評中,分別取得28.1和 41.4的得分(其中經過在代碼領域的微調后,在HumanEval上的得分可以提升至45.7),明顯領先于 PaLM-540B(得分為 26.2 和 36.8)與LLaMA-65B(得分為 23.7 和 37.7)。

      此外,研究人員還對“書生·浦語”的安全性進行評測,在TruthfulQA(主要評價回答的事實準確性) 以及 CrowS-Pairs(主要評價回答是否含有偏見)上,“書生·浦語”均達到領先水平。

      關鍵詞

      圖片新聞
      最近更新
      Copyright @ 2008-2023 www.npbk4zh.cn All Rights Reserved 首都青年網 版權所有
      文章采集互聯網,為了傳遞信息,如有出處與本站無關。 非本站原創,系由網友自助上傳或轉載、采編于其它媒體,不代表本站的觀點和和看法,一切責任由發布者承擔,與本站無關!
      版權文章處理
      聯系方式:QQ  39 60 29 14 2 @qq.com  備案號:皖ICP備2022009963號-20