一色屋成人免费精品网站,亚州视频一区,精品三区视频

中國衛浴十大名牌排名介紹衛浴品牌排行榜前十名分享-熱聞
室內裝修設計包括什么?毛坯房最便宜裝修方法介紹環球熱消息
黃家駒死亡真相是什么？黃家駒在日本摔倒全過程
魔片簡易衣柜安裝步驟介紹木質衣柜有哪些常見問題? 世界今亮點
聚氨酯膠粘劑好用嗎聚氨酯膠粘結不牢的原因是什么?
蔡徐坤到底做了什么事？蔡徐坤打籃球搞笑視頻超級爆笑
韓寒代筆門結果是什么？韓寒真的找人代筆么？
釜山行孕婦才是最大的惡人？喪尸片釜山行免費完整觀看
關于雪的歌曲有哪些？關于風的歌曲有哪些？
歐美電影排行榜最新電影歐美電影推薦榜前十名
蝸居主題曲全部歌曲《我想大聲告訴你》好聽嗎？
《慶余年2》官宣開機張若昀、李沁、陳道明、郭麒麟等原班人馬你開心嗎
《漫長的季節》開播9.1 范偉、秦昊、陳明昊領銜主演
秦嵐新劇《燦爛的轉身》開播聚焦女性職場與情感視角
《君心難逑》開機李沐宸王祖一領銜主演上演雙面宅斗甜爽復仇
楊紫瓊周邊價格暴漲官方簽名照在閑魚售價高達1000元
《青春正好》收官平實質感引發大眾情感共鳴
《狂飆》熱播善與惡的選擇可能就在一念之間
春節檔題材特殊的商業片電影《無名》發布“別說話”預告
生活劇《打開生活的正確方式》定檔黃渤梅婷開啟中年圖鑒

您的位置：首頁 > 社會 > 正文

GPT-4最全揭秘，12個關鍵細節被扒光

來源：虎嗅網 2023-07-11 19:27:21

(資料圖片)

本文來自微信公眾號：Web3天空之城（ID：Web3SkyCity），作者：Dylan Patel、Gerald Wong，編譯：天空之城城主，原文標題：《【完整全文】揭秘GPT-4：OpenAI在架構設計中所做的工程權衡》，題圖來自：視覺中國

這是一篇GPT-4內部技術解密文檔，原文：《GPT-4架構、基礎設施、訓練數據集、成本、視覺和MoE》（GPT-4 Architecture， Infrastructure， Training Dataset， Costs，Vision， MoE）。過去幾個月都陸續有一些關于GPT-4架構的猜測和爆料，這篇文章正是集大成者，特此整理。

以下是正文：

OpenAI保持GPT-4架構的封閉性，并非因為對人類存在著某種存在風險，而是因為他們所構建的東西是可復制的。事實上，我們預計Google、Meta、Anthropic、Inflection、Character、Tencent、ByteDance、Baidu等公司在短期內都會擁有與GPT-4同樣甚至更強大的模型。

不要誤會，OpenAI具有令人驚嘆的工程能力，他們所構建的東西令人難以置信，但他們達到的解決方案并非魔法。這是一個優雅的解決方案，涉及許多復雜的權衡。擴大規模只是戰斗的一部分。OpenAI最持久的優勢在于他們在實際應用中具有最多的使用情況、領先的工程人才，并且可以繼續在未來的模型中超越其他公司。

我們從許多來源收集了關于GPT-4的大量信息，今天我們想要分享。其中包括模型架構、訓練基礎設施、推理基礎設施、參數數量、訓練數據集的組成、標記數量、層數量、并行策略、多模態視覺適應、不同工程權衡背后的思考過程、實現的獨特技術，以及他們如何減輕與龐大模型推理相關的一些最大瓶頸。

GPT-4最有趣的方面，是理解他們為什么做出了某些架構決策。

此外，我們將概述在A100上訓練和推理GPT-4的成本，并說明它在下一代模型架構中如何與H100進行擴展。

首先，讓我們來談談問題陳述。從GPT-3到GPT-4，OpenAI希望將規模擴大100倍，但成本是一個困擾的問題。密集的Transformer模型將無法進一步擴展。密集Transformer是OpenAI GPT-3、Google PaLM、Meta LLAMA、TII Falcon、MosaicML MPT等所使用的模型架構。我們可以輕松列舉出50家公司正在使用相同的架構進行LLM（Large Language Models）訓練。這是一個不錯的架構，但對于擴展來說存在問題。

在過去的6個月里，我們意識到訓練成本是無關緊要的。

當然，表面上看起來很瘋狂，需要花費數千萬甚至數億美元的計算時間來訓練一個模型，但對于這些公司來說，這種支出微不足道。這實際上是一個固定資本支出項目，通過擴大規模可以持續獲得更好的結果。唯一的限制因素是將計算資源擴展到人類能夠獲得反饋并修改架構的時間尺度上。

在未來幾年里，包括Google、Meta和OpenAI/Microsoft在內的多家公司將在價值超過1000億美元的超級計算機上訓練模型。Meta每年在“元宇宙”上燒掉160億美元，Google每年浪費100億美元用于各種無法實現的項目。亞馬遜在Alexa上已經虧損了超過500億美元。加密貨幣在沒有價值的東西上浪費了1000億美元。

這些公司和整個社會可以并且將會花費超過1000億美元來創建能夠訓練單個大規模模型的超級計算機。然后，這些大規模模型可以以各種方式產品化。這個努力將在多個國家和公司中復制。這是一場新的太空競賽。與以前的浪費不同的是，現在的AI具有明顯的價值，短期內將從人類助理和自主代理中獲得實際價值。

擴展人工智能的一個更重要問題、真正的AI瓶頸，是推理。目標是將訓練計算與推理計算分離。這就是為什么訓練超出最佳狀態對于任何將被部署的模型都是有意義的。這也是為什么要使用稀疏模型架構；在推理過程中，并非每個參數都被激活。

真正的挑戰是將這些模型擴展到用戶和代理上的成本過高。推理的成本比訓練的成本高出多倍。這就是OpenAI在模型架構和基礎設施方面的創新目標。

對于密集模型來說，大型模型的推理是一個多變量問題。我們在這里詳細討論了邊緣計算方面的問題，但對于數據中心來說，問題陳述非常相似。簡單來說，設備永遠無法提供足夠的內存帶寬來實現大型語言模型的某些吞吐量水平。即使它們有足夠的帶寬，邊緣設備上的硬件計算資源利用率也將很低。

在數據中心和云計算中，利用率是至關重要的。Nvidia之所以因軟件卓越而受到贊揚，部分原因是因為在GPU的一代代生命周期中，Nvidia不斷更新低級軟件，通過更智能地在芯片、芯片之間以及內存之間傳輸數據，提高了FLOPS的利用率。

在當前大多數應用場景中，LLM推理的目標是作為實時助手，這意味著它必須實現足夠高的吞吐量，以使用戶能夠真正使用它。人類平均閱讀速度約為每分鐘250個單詞，但有些人的閱讀速度高達每分鐘1000個單詞。這意味著你需要每秒輸出至少8.33個標記，但更接近每秒輸出33.33個標記以涵蓋所有情況。

根據數學計算，一個擁有萬億參數的密集模型在最新的Nvidia H100 GPU服務器上也無法實現這樣的吞吐量，因為它需要更大的內存帶寬。每生成一個標記，都需要將每個參數從內存加載到芯片中。然后將生成的標記輸入到提示信息中，生成下一個標記。此外，用于注意機制的KV緩存也需要額外的帶寬進行流式傳輸。

該圖表假定無法融合每個操作帶來的低效率，注意力機制所需的內存帶寬以及硬件開銷等同于參數讀取。實際上，即使使用Nvidia的FasterTransformer等“優化”庫，總開銷會更大。

上面的圖表顯示了推理一個LLM所需的內存帶寬，以實現足夠高的吞吐量以為個體用戶提供服務。圖表顯示，即使使用8個H100 GPU，也無法以每秒33.33個標記的速度為擁有萬億參數的密集模型提供服務。此外，8個H100 GPU在每秒20個標記的情況下的FLOPS利用率仍然不到5%，導致推理成本非常高。因此，目前對于8路張量并行的H100系統，存在著約3000億前饋參數的推理約束。

然而，OpenAI使用A100 GPU實現了人類的閱讀速度，并且使用超過萬億參數的模型，以每1000個標記僅需0.06美元的低價格廣泛提供服務。這是因為模型是稀疏的，即并非每個參數都被使用。

讓我們來討論一下GPT-4模型架構、訓練基礎設施、推理基礎設施、參數數量、訓練數據集組成、標記數量、層次數量、并行策略、多模態視覺編碼器、不同工程權衡背后的思考過程、獨特的實施技術，以及他們如何減輕與大規模模型推理相關的一些最大瓶頸。

模型架構

GPT-4的規模是GPT-3的10倍以上。我們認為它在120個層中擁有大約1.8萬億個參數，而GPT-3只有大約1750億個參數。

OpenAI通過使用混合專家（MoE）模型來保持成本合理。如果您對MoE不熟悉，請閱讀我們六個月前關于廣義GPT-4架構和訓練成本的帖子。

此外，OpenAI在其模型中使用了16個專家，每個專家的MLP參數約為1110億個。每次前向傳遞有2個專家進行路由。

雖然文獻中對于選擇將每個標記路由到哪些專家的先進路由算法進行了很多討論，但據說OpenAI的算法相當簡單，適用于當前的GPT-4模型。

此外，大約有550億個共享參數用于注意力機制。

每次前向傳遞的推理（生成1個標記）僅利用了約2800億個參數和560 TFLOP的計算。這與純密集模型每次前向傳遞所需的約1.8萬億個參數和3700 TFLOP形成了對比。

數據集構成

OpenAI訓練了GPT-4使用大約13萬億個標記。鑒于CommonCrawl中包含約5萬億個高質量標記的RefinedWeb數據，這是有道理的。作為參考，Deepmind的Chinchilla模型和Google的PaLM模型分別使用了約1.4萬億個標記和約7800億個標記進行訓練。據稱，即使PaLM 2也是基于約5萬億個標記進行訓練。

這個數據集不包含13萬億個獨特的標記。相反，由于缺乏高質量的標記，該數據集包含多個時期。對于基于文本的數據有2個時期，對于基于代碼的數據有4個時期。有趣的是，這遠遠不及Chinchilla的最優解，表明需要對模型進行雙倍數量的標記訓練。這表明在網絡上獲取易得的標記的數量有限。高質量的文本標記有1000倍之多，而音頻和視頻則更多，但獲取它們并不像網頁抓取那么簡單。

還有來自ScaleAI和內部的數百萬行指令微調數據。不幸的是，我們在RLHF數據方面找不到太多信息。預訓練階段的上下文長度（seqlen）為8k。GPT-4的32k seqlen版本是在預訓練后對8k進行微調得到的。

在集群上，批次大小逐漸在幾天內逐步增加，但到最后，OpenAI使用的批次大小為6000萬！當然，由于并非每個專家都能看到所有標記，這“僅僅”是每個專家的批次大小為750萬個標記。

并行策略

將所有的A100 GPU并行化的策略非常重要。他們采用了8路張量并行，因為這是NVLink的限制。此外，我們聽說他們還使用了15路流水線并行。從理論上講，在考慮數據通信和計算時間時，這太多的流水線了，但如果他們受限于內存容量，那么這是有道理的。

僅僅通過流水線+張量并行，每個GPU的參數在FP16下就占用了約30GB。一旦加上KV緩存和開銷，從理論上講，如果OpenAI的大部分GPU都是40GB的A100，那么這是有道理的。他們可能使用了ZeRo階段1。他們可能還使用了塊級FSDP或混合共享數據并行。

至于為什么他們沒有使用完整模型的FSDP，可能是因為更高的通信開銷。雖然OpenAI的大多數節點之間具有高速網絡連接，但并非所有節點之間都是如此。我們相信至少一些集群的帶寬要低得多。

我們不明白，他們是如何在如此高的流水線并行度下避免每個批次產生巨大的延遲，很可能他們只是吸收了這個成本。

訓練費用

OpenAI用于GPT-4的訓練FLOPS約為2.15e25，使用了約25，000個A100 GPU進行了90到100天的訓練，利用率約為32%至36%。極低的利用率部分是由于大量的故障導致需要重新啟動檢查點。

上述提到的延遲代價極高。另一個原因是在這么多GPU之間進行全局歸約的代價極高。如果我們的猜測是正確的，那么集群實際上是許多較小集群的組合，在它們之間的網絡連接非常薄弱，即在集群的各個部分之間的非阻塞連接速度為800G/1.6T，但這些部分之間的連接速度只有200G/400G。如果他們在云中的成本為每個A100的小時費用約為1美元，僅此次訓練的成本將約為6300萬美元。這還不包括所有的實驗、訓練失敗的運行和其他成本，如數據收集、RLHF、統計等。由于這些因素，實際成本要高得多。

此外，這意味著您需要有人購買芯片/網絡/數據中心，承擔資本支出，并將其租給您使用。今天，使用約8，192個H100在大約55天內進行預訓練的成本約為2150萬美元，每個H100的小時費用為2美元。

請注意，我們相信到今年年底將有9家公司擁有更多的H100。這些公司并不會將所有H100都用于單次訓練運行，但那些使用所有H100進行訓練的公司將會有更大規模的模型。Meta將在今年年底擁有超過100,000個H100，但其中相當一部分將分布在他們的數據中心進行推理。他們最大的單個集群仍將超過25,000個H100。到今年年底，許多公司將擁有足夠的計算資源來訓練一個與GPT-4規模相當的模型。

混合專家模式的權衡

MoE是一種在推理過程中減少參數數量的絕佳方法，同時仍然增加參數數量，這對于每個訓練標記來說是必需的，因為需要編碼更多的信息。這是必要的，因為獲取足夠高質量的標記非常困難。如果OpenAI真的試圖達到Chinchilla的最佳狀態，他們將不得不在訓練標記上訓練2倍的數量。

話雖如此，OpenAI做出了多個權衡。例如，MoE在推理過程中非常難處理，因為模型的每個部分并不在每個標記生成時都被利用。這意味著在使用其他部分時，某些部分可能處于休眠狀態。對于為用戶提供服務，這真的會對利用率造成很大的影響。

研究人員已經證明使用64到128個專家比使用16個專家的損失更好，但這僅僅是研究結果。選擇較少的專家有多個原因。OpenAI選擇16個專家的一個原因是更多的專家在許多任務上難以進行泛化。更多的專家也可能更難實現收斂。在如此大規模的訓練中，OpenAI選擇在專家數量上更為保守。

此外，使用較少的專家還有助于他們的推理基礎設施。在轉向專家混合推理架構時，存在許多困難的權衡。讓我們從LLMs的推理基本權衡開始，然后再轉向OpenAI面臨的困境和他們所做的選擇。

推理的權衡

在開始之前，我們想指出，我們與所有的LLM公司交流后發現，Nvidia的FasterTransformer推理庫非常糟糕，TensorRT更糟糕。無法使用Nvidia的模板并進行修改意味著人們需要從零開始創建自己的解決方案。如果你是Nvidia的工作人員，你需要盡快改進LLM推理的這個問題，否則事實上將成為一個開放的工具，可以更容易地添加第三方硬件支持。大規模模型的浪潮正在來臨。如果在推理中沒有軟件優勢，并且仍然需要手動編寫內核，那么AMD的MI300和其他硬件將有更大的市場。

對于大型語言模型的推理，存在3個主要的權衡，涉及批處理大小（同時為多個用戶提供服務的數量）和使用的芯片數量。

1. 延遲 - 模型必須以合理的延遲響應。人們不希望在等待輸出開始流動到聊天應用程序中之前等待幾秒鐘。預加載（輸入令牌）和解碼（輸出令牌）需要不同的處理時間。

2. 吞吐量 - 模型必須輸出每秒鐘一定數量的令牌。對于人類使用，大約需要每秒鐘30個令牌。較低和較高的吞吐量對于其他各種用例也可以接受。

3. 利用率 - 運行模型的硬件必須實現高利用率，否則成本太高。盡管較高的延遲和較低的吞吐量可以用于將更多的用戶請求分組，并實現更高的利用率，但這使得情況變得更加困難。

LLM推理的關鍵是平衡兩個主要因素，即內存帶寬和計算。簡化來說，每個參數都必須讀取，并且與之相關聯的有2個FLOP。因此，大多數芯片的比例（H100 SXM僅具有3TB/s的內存帶寬，但具有2，000 TFLOP/s的FP8）在批處理大小為1的推理中完全不平衡。如果只為一個用戶提供服務，批處理大小為1，那么為每個令牌生成流式傳輸所需的內存帶寬將占據推理時間的主導地位，而計算時間幾乎可以忽略不計。

要將大型語言模型有效地擴展到多個用戶，批處理大小必須大于1。多個用戶分攤參數讀取成本。例如，在批處理大小為256或512時，每個內存字節的讀取對應512 FLOP/s或1024 FLOP/s。這個比例更接近H100的內存帶寬與FLOPS之間的比例。這有助于實現更高的利用率，但代價是更高的延遲。

許多人認為LLM推理的一個主要瓶頸是內存容量，因為模型的大小限制了它可以適應的芯片數量，但這是不正確的。雖然大型模型需要多個芯片進行推理，較高的內存容量使其適應的芯片數量減少，但最好使用比所需容量更多的芯片，以便將延遲降低，增加吞吐量，并使用更大的批處理大小以實現越來越高的利用率。

Google在他們的PaLM推理論文中展示了這些權衡。然而，值得注意的是，這是針對像PaLM這樣的稠密模型，而不是像GPT4這樣的稀疏模型。

如果一個應用程序需要最低的延遲，我們需要應用更多的芯片，并以盡可能多的方式對模型進行分區。較低的延遲通常可以通過較小的批處理大小實現，但較小的批處理大小也會導致更差的MFU（利用率），從而導致每個令牌的總成本（以芯片秒或美元計）更高。

如果一個應用程序需要離線推理，而延遲不是一個問題，主要目標是最大化每個芯片的吞吐量（即最小化每個令牌的總成本）。增加批處理大小是最高效的，因為較大的批處理通常會導致更好的MFU（利用率），但某些在小批處理大小下不高效的分區策略在批處理大小增大時變得高效。

更多的芯片和更大的批處理大小是最便宜的，因為它們提高了利用率，但同時也引入了第三個變量，即網絡時間。將模型分配到多個芯片上的某些方法對于延遲來說更加高效，但與利用率有一定的權衡。

內存加載部分的時間和非attention計算時間與模型大小成正比，與芯片數量成反比。然而，對于給定的分區布局，芯片間通信所需的時間隨著使用的芯片數量減少得更慢（或根本不減少），因此隨著芯片數量的增加，這成為一個越來越重要的瓶頸。

雖然今天我們只是簡要討論一下，但應該注意的是，隨著批處理大小和序列長度的增長，KV緩存的內存需求會急劇增加。

如果一個應用程序需要生成具有長注意力上下文的文本，那么推理時間將大大增加。對于具有多頭注意力的500B+模型，注意力KV緩存會變得很大：對于批處理大小為512和上下文長度為2048，KV緩存總共需要3TB的容量，這是模型參數大小的3倍。芯片上的內存需要從芯片外的內存中加載這個KV緩存，而在此期間，芯片的計算核心基本上處于空閑狀態。

較長的序列長度對內存帶寬和內存容量尤其具有挑戰性。OpenAI的16k序列長度的GPT-3.5 Turbo和32k序列長度的GPT-4要昂貴得多，因為它們由于內存限制無法利用更大的批處理大小。較小的批處理大小導致較低的硬件利用率。此外，隨著序列長度的增加，KV緩存也會增大。KV緩存無法在用戶之間共享，因此需要進行單獨的內存讀取，進一步限制了內存帶寬。稍后會詳細介紹MQA的更多內容。

GPT-4推理權衡和基礎設施

以上所有內容對于GPT-4的推理來說都很困難，因為作為Mixture of Experts（MoE）的模型架構引入了一整套新的困難。每個標記生成的前向傳遞可以路由到不同的專家集合。這在吞吐量、延遲和利用率的權衡方面引入了一種新的困境，尤其是在較大的批次大小下。

OpenAI的GPT-4擁有16個專家，每個前向傳遞路由到其中的2個專家。這意味著如果批次大小為8，每個專家的參數讀取可能只有批次大小為1。更糟糕的是，這可能意味著一個專家的批次大小為8，而其他專家的批次大小可能為4、1或0。每個標記生成，路由算法都會將前向傳遞發送到不同的方向，導致標記之間的延遲以及專家批次大小出現顯著的變化。

推理基礎設施是OpenAI選擇采用較少專家的主要原因之一。如果他們選擇更多的專家，內存帶寬將更加成為推理的瓶頸。OpenAI的推理集群通常達到4k+的批次大小，這意味著即使在專家之間進行最佳負載均衡，專家們的批次大小也只有約500。這需要非常大量的使用才能實現。

我們了解到OpenAI在一個由128個GPU組成的集群上運行推理。他們在多個數據中心和地理位置擁有多個這樣的集群。推理采用8路張量并行和16路管道并行。每個由8個GPU組成的節點僅擁有約130B的參數，或者在FP16模式下每個GPU不到30GB，在FP8/int8模式下不到15GB。這使得推理可以在40GB的A100上運行，前提是所有批次中的KV緩存大小不會膨脹得太大。

包含各種專家的各個層不會在不同的節點之間分割，因為這會使網絡流量過于不規則，并且在每個標記生成之間重新計算KV緩存的代價會過高。對于任何未來的MoE模型擴展和條件路由，最大的困難是如何處理KV緩存的路由問題。

模型的層數為120，因此在15個不同的節點之間進行簡單的分配，但由于第一個節點需要進行數據加載和嵌入，所以在推理集群的頭節點上放置較少的層是有道理的。此外，有一些關于推測解碼的傳聞，我們稍后會討論，但我們不確定是否相信這些傳聞。這也可以解釋為什么頭節點需要包含較少的層。

GPT-4 推理成本

盡管GPT-4的前向參數僅為175B的Davinchi模型的1.6倍，但其成本是Davinchi模型的3倍。這主要是由于GPT-4需要更大的集群和較低的利用率所致。

我們認為，在128個A100進行GPT-4 8k序列長度的推理過程中，每1,000個標記的成本為0.0049美元，而在128個H100進行GPT-4 8k序列長度的推理過程中，每1,000個標記的成本為0.0021美元。需要注意的是，我們假設有良好的高利用率，并且保持批次大小較大。

這可能是一個錯誤的假設，因為很明顯OpenAI有時利用率非常低。我們假設OpenAI會在低峰時段關閉集群，并重新利用這些節點來從檢查點中恢復訓練，用于較小的測試模型，嘗試各種新技術。這有助于降低推理成本。如果OpenAI不這樣做，他們的利用率將更低，我們的成本估計將翻倍以上。

多查詢注意力

MQA是其他所有人都在做的事情，但我們想指出OpenAI也在做。簡而言之，只需要一個頭部，而且可以顯著減少KV緩存的內存容量。即便如此，32k長度的GPT-4絕對無法在40GB的A100上運行，而8k的批次大小也受到限制。如果沒有MQA，8k長度的模型將在批次大小上受到顯著限制，甚至到了不經濟的程度。

連續批處理

OpenAI 實現了可變批處理大小和連續批處理。這樣做是為了在最大延遲和優化推理成本之間達到一定的平衡。如果您對這個概念不熟悉，可以閱讀 AnyScale 的這個內容：

使用靜態批處理完成四個序列。在第一次迭代（左邊），每個序列從提示令牌（黃色）生成一個令牌（藍色）。經過幾次迭代（右邊），完成的序列因為在不同的迭代中發出了它們的序列結束令牌（紅色），所以它們的大小各不相同。盡管序列3在兩次迭代后完成，但靜態批處理意味著GPU在批處理中的最后一個序列完成之前處于未充分利用的狀態（在這個例子中是序列2在六次迭代后完成）。

使用連續批處理完成七個序列。左側顯示了單次迭代后的批次，右側顯示了經過多次迭代后的批次。一旦一個序列發出一個序列結束令牌，我們會插入一個新的序列來取代它，例如序列S5、S6和S7。這樣可以實現更高的GPU利用率，因為GPU不需要等待所有序列完成后才開始新的序列。

猜測解碼

我們從一些可靠的消息來源得知，OpenAI在GPT-4的推理過程中使用了猜測解碼（speculative decoding）。我們不確定是否應該相信這個說法。從令牌到令牌的推理時間的一般變化以及在執行簡單的檢索任務與執行更復雜任務時的差異似乎表明這是可能的，但是有太多的變量無法確定。為了確保，我們將在此處使用“加速LLM推理的分階段猜測解碼”一文中的一些文本，并進行適當的修改和補充。

使用LLM通常分為兩個階段。首先是預填充（prefill）階段，將提示語通過模型運行以生成KV緩存和第一個輸出的對數幾率（可能的令牌輸出的概率分布）。這通常很快，因為整個提示語可以并行處理。

第二個階段是解碼。從輸出的對數幾率中選擇一個令牌，并將其反饋到模型中，模型會為下一個令牌生成對數幾率。這個過程會重復進行，直到生成所需數量的令牌。由于解碼必須按順序進行，每次計算單元都需要流式傳輸權重以生成單個令牌，因此這個階段的算術強度（即計算的浮點運算數/內存帶寬字節）在小批次中非常低。因此，解碼通常是自回歸生成中最耗費資源的部分。這就是為什么在OpenAI的API調用中，輸入令牌比輸出令牌更便宜的原因。

猜測解碼的基本思想是使用一個較小、更快的草稿模型預先解碼多個令牌，然后將它們作為一個批次輸入到正式模型中。如果草稿模型的預測是正確的，即與較大的模型達成一致，那么可以使用單個批次解碼多個令牌，這樣可以節省大量的內存帶寬和時間。

然而，如果較大的模型拒絕了草稿模型預測的令牌，那么剩余的批次將被丟棄，算法會自然地恢復到標準的逐令牌解碼方式。猜測解碼可能還會伴隨著拒絕抽樣方案，用于從原始分布中進行抽樣。請注意，這僅在帶寬成為瓶頸的小批次設置中才有用。

猜測解碼通過犧牲計算資源來換取帶寬。有兩個關鍵原因使得猜測解碼成為一個有吸引力的性能優化目標。首先，它不會降低模型質量。其次，它所提供的優勢通常與其他方法無關，因為它的性能來自于將順序執行轉換為并行執行。

目前的猜測方法是為批次預測一個單獨的序列。然而，這種方法在大批次規模或草稿模型對齊度較低時無法很好地擴展。直觀地說，兩個模型在長連續的令牌序列上達成一致的概率是指數級低的，這意味著隨著算術強度的增加，猜測解碼的收益會迅速減少。

我們認為如果OpenAI在使用猜測解碼，他們可能只會在長度約為4個令牌的序列中使用。另外，有人猜測GPT-4降低質量的整個陰謀可能是因為他們允許正式模型接受猜測解碼模型中概率較低的序列。另外有人猜測bard使用猜測解碼，因為谷歌在向用戶發送完整序列之前會等待序列全部生成，但我們不相信這種猜測是正確的。

視覺多模態

GPT-4的視覺多模態能力相對于領先的研究來說是最不引人注目的部分。當然，目前還沒有任何人將多模態LLM的研究商業化。

GPT-4的視覺編碼器與文本編碼器是分開的，但存在交叉注意力。據我們所知，該架構類似于Flamingo。這使得GPT-4的參數數量增加了。在文本預訓練之后，通過另外約2萬億個標記進行微調。

對于視覺模型，OpenAI原本想從頭開始訓練，但該模型還不成熟，因此他們決定通過從文本開始進行降低風險。

下一個模型GPT-5，據說將從頭開始訓練視覺，并且能夠自主生成圖像。此外，它還能夠處理音頻。

視覺能力的一個主要目的，是使自主代理能夠閱讀網頁并轉錄圖像和視頻中的內容。他們訓練的數據包括聯合數據（渲染的LaTeX/文本），網頁的屏幕截圖，YouTube視頻采樣幀，并使用Whisper進行轉錄。

有趣的是，對于所有這些對LLM過度優化的內容來說，視覺模型的IO成本與文本模型不同。在文本模型中，數據加載非常便宜，就像我們在關于亞馬遜云危機的文章中所描述的那樣。而在視覺模型中，數據加載的IO成本高出約150倍。每個標記的數據加載約為600字節，而不是文本的4字節。目前在圖像壓縮方面有很多工作正在進行。

這對于正在針對2-3年后LLM的用例和比例，進行硬件優化的硬件供應商來說非常重要。他們可能會發現自己處于一個每個模型都具備強大的視覺和音頻功能的世界。他們可能會發現他們的架構不太適應這種情況。總的來說，架構肯定會進一步發展，超越當前我們所看到的基于文本的稠密模型和/或MoE模型的簡化形式。

本文來自微信公眾號：Web3天空之城（ID：Web3SkyCity），作者：Dylan Patel、Gerald Wong，編譯：天空之城城主

關鍵詞