根據(jù)發(fā)布的o3測(cè)試數(shù)據(jù)顯示,美國(guó)AIME數(shù)學(xué)競(jìng)賽中達(dá)到了96.7分,大幅度超過(guò)了o1預(yù)覽版的56.7和o1的83.3%,僅錯(cuò)了一道題相當(dāng)于一名頂級(jí)數(shù)學(xué)家的水平。
保持提示詞簡(jiǎn)單直接:模型擅長(zhǎng)理解和相應(yīng)簡(jiǎn)單、清晰的指令,而不需要大量的指導(dǎo)。 當(dāng)時(shí)我對(duì)這一條的理解,覺得是為了讓o1模型更好的理解我的要求,同時(shí)可以加快模型的處理速度,因?yàn)槟P筒恍枰ㄙM(fèi)額外的時(shí)間去解析復(fù)雜的語(yǔ)句。
OpenAI發(fā)布了新的大語(yǔ)言模型o1,專注于邏輯推理優(yōu)化,其推理能力在多個(gè)領(lǐng)域超越現(xiàn)有模型。o1模型通過(guò)思維鏈模式訓(xùn)練,提升了數(shù)學(xué)、編程、科學(xué)問(wèn)題解決能力。在AIME和GPQA測(cè)試中表現(xiàn)優(yōu)異,超越人類專家水平。o1模型使用大規(guī)模強(qiáng)化學(xué)習(xí)算法,強(qiáng)調(diào)思維鏈和強(qiáng)化學(xué)習(xí)的重要性。OpenAI未向用戶展示原始思維鏈,但提供摘要。o1模型目前可供ChatGPT Plus訂閱用戶使用。