首都青年網 |
      • 手機客戶端
      • 微信
      您的位置:首頁 > 輿情 > 正文
      最新:微軟華人團隊發布全新基準AGIEva AI考公指日可待
      來源: 2023-05-11 12:14:26


      (資料圖)

      微軟研究人員發布了一個新的基準測試AGIEval,用于評php估基礎模型在人類認知任務中的表現,包括高考、公務員考試、法學院入學考試、數學競賽和律師資格考試等。

      實驗結果顯示,GPT-4在一些任務中的表現超過了人類平均水平,但在需要復雜推理或特定領域知識的任務中不太熟練。

      論文鏈接:https://arxiv.org/pdf/2304.06364編程客棧.pdf

      數據鏈接:https://gjsithub.com/microsoft/AGIEval

      AGIEval數據集主要遵循兩個設計原則:強調人腦級別的認知任務設計,以與人類認知和解決問題密切相關的任務為中心。與現實世界場景的相關性,通過選擇來自高標準的入學考試和資格考試的任務,可以確保評估結果能夠反映個人在不同領域和背景下經常遇到的挑戰的復雜性和實用性。

      隨著大型基礎模型的能力越來越強,如何評估模型在人類認知任務中的表現變得越來越重要。 AGIEval基準測試可以幫助人們更好地了解模型的泛化能力和局限性。

      評估模型在人類認知任務中的表現對于確保模型能夠有效地處理復雜的、以人為本的任務至關android重要。評估推理能力可以確保模型在不同環境下的可靠性和可信度。

      關鍵詞

      圖片新聞
      最近更新
      Copyright @ 2008-2023 www.npbk4zh.cn All Rights Reserved 首都青年網 版權所有
      文章采集互聯網,為了傳遞信息,如有出處與本站無關。 非本站原創,系由網友自助上傳或轉載、采編于其它媒體,不代表本站的觀點和和看法,一切責任由發布者承擔,與本站無關!
      版權文章處理
      聯系方式:QQ  39 60 29 14 2 @qq.com  備案號:皖ICP備2022009963號-20