当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
为什么有人爱 Firefox 胜过 Chrome 呢?
国产数据库有什么坑?
为什么微信不向telegram学习?
为什么武林中的女侠不但武功奇高,还没有练出来麒麟臂大粗腿和老茧?
大家猜猜伊朗的结局如何?
你们的腰突是怎么突然好的?
一个练过功夫的姑娘能打过一个没练过的男人吗?
为什么米哈游不自己搞个***网站?
为什么***骂 Ubuntu,但是 Ubuntu 一直是所有 Linux 发行版中知名度、热度最高的?
以色列为什么要打伊朗?
目前最具性价比的全栈路线是啥?
《欢天喜地七仙女》中 「仙女下嫁凡人」 的设定,在今天是否过时?
一台主机上只能保持最多 65535 个 TCP 连接吗?
字节跳动技术副总裁开源了自己与Trae合作的首个项目,如何评价目前AI开发的水平?
为什么现在小县城的孩子越来越学不过大城市的孩子?
江西通报救护车 800 公里收费 2.8 万「不合理,暂停医院转运服务」,该医院要承担怎样的法律责任?
NAS将来会被什么产品取代?
PHP现在真的已经过时了吗?
你见过最无用的节俭行为是什么?
如何评价《一人之下》***第 721(764)话?
中国民间中小工厂能快速造出武器吗?
电影《碟中谍》系列中哪一部最好?
30岁了,你在深圳过着什么样的生活?
为什么QQ上的网络状态没有了?
谁在半夜看过鱼缸里的鱼,它们都在干什么?
你认为NS2现在值得入手吗?
冬天也要穿胸罩吗?
老板说我设计了一周的海报还是不行,我到底该怎么学啊?
日本AV对中国人的毒害有多大?
duckdb的性能如何?