一、GPT-4實現了以下幾個飛躍式提升
GPT-4相比于之前的模型,實現了多個方面的提升。其中包括強大的識圖能力、2.5萬字的文字輸入限制、回答準確性的顯著提高、以及能夠生成歌詞和創意文本,實現風格變化。
根據OpenAI官方的介紹,GPT-4是一個超大的多模態模型,它的輸入可以是文字(上限2.5萬字),還可以是圖像。甚至只需要簡單在紙上畫一個網站的草稿圖或拍一張照片上傳給GPT-4,它就可以立馬生成網站的HTML代碼。
GPT-4可以接受文本和圖像形式的prompt,新能力與純文本設置并行,允許用戶指定任何視覺或語言任務。它在人類給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出(自然語言、代碼等)。在一系列領域——包括帶有文本和照片的文檔、圖表或屏幕截圖上——GPT-4展示了與純文本輸入類似的功能。此外,它還可以通過為純文本語言模型開發的測試時間技術得到增強,包括少樣本和思維鏈prompt。
二、GPT-4強大的推理和語言能力體現
GPT-4在各種專業測試和學術基準上的表現與人類水平相當。例如,它通過了模擬律師考試,且分數在應試者的前10% 左右;相比之下,GPT-3.5的得分在倒數10%左右;做美國高考SAT試題,GPT-4也在閱讀寫作中拿下710分高分、數學700分(滿分800)。
許多現有的機器學習基準測試都是用英語編寫的。為了初步了解GPT-4在其他語言上的能力,研究團隊使用Azure Translate將MMLU 基準——一套涵蓋57 個主題的14000 個多項選擇題——翻譯成多種語言。在測試的26種語言的24種中,GPT-4優于GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言性能。
三、GPT-4在用戶意圖理解力的提升
GPT-4在用戶意圖理解方面比以前的模型有了大幅改進。
在一個由5,214個提示組成的數據集上,這些提示提交給了ChatGPT 和OpenAI API,與GPT-3.5生成的結果相比,GPT-4生成的結果在70.2%的提示上被優先選擇。GPT-4還可以理解圖表中數據的含義,并做進一步計算。用戶可以直接把論文截圖發給它,GPT-4可以按像素處理其中的文字和圖片,并給出對整篇論文的總結摘要。在修改代碼方面,出現問題啥也不用想,直接把1萬字的程序文檔一股腦扔給GPT-4就行。格式也不用管,你只需要Ctrl+A、Ctrl+C、Ctrl+V。此外,OpenAI還在為機器學習模型設計的傳統基準上評估了GPT-4。GPT-4大大優于現有的大型語言模型,以及大多數SOTA模型。