(資料圖)
微軟研究人員發布了一個新的基準測試AGIEval,用于評php估基礎模型在人類認知任務中的表現,包括高考、公務員考試、法學院入學考試、數學競賽和律師資格考試等。
實驗結果顯示,GPT-4在一些任務中的表現超過了人類平均水平,但在需要復雜推理或特定領域知識的任務中不太熟練。
論文鏈接:https://arxiv.org/pdf/2304.06364編程客棧.pdf
數據鏈接:https://gjsithub.com/microsoft/AGIEval
AGIEval數據集主要遵循兩個設計原則:強調人腦級別的認知任務設計,以與人類認知和解決問題密切相關的任務為中心。與現實世界場景的相關性,通過選擇來自高標準的入學考試和資格考試的任務,可以確保評估結果能夠反映個人在不同領域和背景下經常遇到的挑戰的復雜性和實用性。
隨著大型基礎模型的能力越來越強,如何評估模型在人類認知任務中的表現變得越來越重要。 AGIEval基準測試可以幫助人們更好地了解模型的泛化能力和局限性。
評估模型在人類認知任務中的表現對于確保模型能夠有效地處理復雜的、以人為本的任務至關android重要。評估推理能力可以確保模型在不同環境下的可靠性和可信度。