当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
SwiftUI 是不是一个败笔?
如何看待当今小学生的疯狂内卷?
为什么国外网站总喜欢弹出cookie访问权限弹窗,国内网站却没有,这么做有什么意义?
如何评价华为鸿蒙电脑?
为什么江苏省的GDP一直没有广东高?
大家在广州的一天是怎么样的呢?
有没有一款音乐播放器,能连接nas音乐,创建音乐库,自动匹配歌词封面等等?类似infuse的概念呢?
女主播和榜一大哥现实碰面会做什么?
如何看待国内开源项目的不可持续性?
为什么《歌手》不请周杰伦、陈奕迅、王菲、张学友、孙燕姿、梁静茹、王力宏、林俊杰当节目嘉宾?
你们做过最龌龊的事情是什么?
网传厦门某国企研发部门要求每日考察后端 400 行,前端 1000 行代码量,如属实,这个考核合理吗?
扫黑风暴为什么他们费老大劲杀这么多人不如直接把督导组干掉?
go 有哪些成熟点的后台管理框架?
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
鸿蒙电脑会在国内逐渐取代windows电脑吗?
为什么一枚导弹的命中率是70%,发射3枚命中率就变成了***.3% ?
我的实际车速是66km/h,旁边有车超速,我被拍了违章,说是车速85km/h,怎么申诉?
万兆的网络速度有多大意义?
求大神解答,为什么大家都不喜欢用docker?
特厨隋坡探店成都快餐店,给出80分以上的高分,为什么评分远高于大饭店?
为什么说Go语言的设计是工程先进但学术落后?
什么时候你意识到做技术永无出路?
polars到底行不行?
你身边身材最好的女生是什么样?