距离2025年考研初试刚好一个月,相信大模型厂商还来不及把试卷增加到训练集来作弊,正好测试一测: 选手一:DeepSeek V3 选手二:最新出炉的Kimi K1.5 选手三:Chatgpt 4o 测试方法:直接上传如笔记配图1、2、3所示的网传试卷图片(数一),比较考验OCR和多模态能力 单项选择题 提示词:请告诉我所有选择题的答案 正确答案:BBDAB DACCD 满分50分 DeepSeek V3:BCDAB ACCAC 得分25分 Kimi k1.5:BBDDA DCCCD 得分35分 ChatGPT 4o:DBCAB ABCCB 得分25分 填空题 提示词:请告诉我所有填空题的答案 各模型回答见笔记配图4,满分30分 DeepSeek V3:错4道(选择题第11到15题)得分5分 Kimi k1.5:错1道(填空题第12题)得分25分 ChatGPT 4o:得分0分(全错) 解答题 提示词:请告诉我所有解答题的答案 各模型回答见笔记配图5,满分70分,都以最终答案对就对,不对就0分,不考虑过程得分。 DeepSeek V3:做对了第20、22题 得分24分 Kimi k1.5:做对了第22题 其余做错 得分12分 ChatGPT 4o:做对了第17题 其余做错 得分10分 总分 DeepSeek V3:54分 Kimi k1.5:72分 ChatGPT 4o:35分 Kimi k1.5夺冠并且大概率能过国家线 作者评价 o1,文心一言和通义千问没法上传多张图片没法测,但至少国产大模型碾压o4是实实在在的。 #ai #人工智能 #大模型 #考研 #数学 #互联网#deepseek