波蘭研究團隊開發(fā)ORCA數(shù)學基準測試,對五個主流大語言模型進行評估。結(jié)果顯示ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的準確率均低于63%。測試涵蓋生物化學、工程建筑、金融經(jīng)濟等七個領域的500道數(shù)學題目。研究發(fā)現(xiàn)模型主要在四舍五入和計算錯誤方面存在問題,表明自然語言推理進步并未直接轉(zhuǎn)化為可靠的計算能力。
北京第二十六維信息技術有限公司(至頂網(wǎng))版權(quán)所有. 京ICP備15039648號-7 京ICP證161336號京公網(wǎng)安備 11010802021500號
舉報電話:010-62641205-5060 涉未成年人舉報專線:010-62641208 舉報郵箱:jubao@zhiding.cn
網(wǎng)上有害信息舉報專區(qū):https://www.12377.cn