新闻中心

开云(中国)KAIYUN·官方网站让大家对 Grok3 的期待值被拉到了空前的进度-开云·Kaiyun(中国)官方网站-科技股份有限公司

发布日期：2026-04-17 05:43 点击次数：98

北京时刻 2 月 18 日，马斯克与 xAI 团队，在直播中负责发布了 Grok 最新版块 Grok3。

早在本次发布会之前，依靠着各样干系信息的抛出，加上马斯克本东谈主 24/7 不终止的预热炒作，让大家对 Grok3 的期待值被拉到了空前的进度。在一周前，马斯克在直播中接洽 DeepSeek R1 时，还信心满满地示意「xAI 行将推出更优秀的 AI 模子」。

从现场展示的数据来看，Grok3 在数学、科学与编程的基准测试上如故高出了现在统统的主流模子，马斯克以致声称 Grok 3 改日将用于 SpaceX 火星任务筹画，并瞻望「三年内将终了诺贝尔奖级别迫害」。

但这些现在齐只是马斯克的一家之言。笔者在发布后，就测试了最新的 Beta 版 Grok3，并提议了阿谁经典的用来刁难大模子的问题：「9.11 与 9.9 哪个大？」

缺憾的是，在不加任何定语以及标注的情况下，堪称现在最灵巧的 Grok3，仍然无法正确回应这个问题。

Grok3 并没准确识别出这个问题的含义 | 图片来源：极客公园

在这个测试发出之后，很短的时刻内飞速激励了不少一又友的关切，无特有偶，在国际也有许多雷同问题的测试，举例「比萨斜塔上两个球哪个先落下」这些基础物理 / 数学问题，Grok3 也被发现仍然无法轻视。因此被戏称为「天才不肯意回应陋劣问题」。

Grok3 在施行测试中的许多学问问题上出现「翻车」 | 图片来源：X

除了网友自愿测试的这些基础知识上 Grok3 出现了翻车，在 xAI 发布会直播中，马斯克演示使用 Grok3 来分析他堪称频繁玩的 Path of Exile 2 ( 充军之路 2 ) 对应的处事与升华成果，但施行上 Grok3 给出的对应谜底绝大部分齐是差错的。直播中的马斯克并莫得看出这个昭着的问题。

Grok3 在直播中也出现给出数据大批差错的情况 | 图片来源：X

因此这个无理不仅成为了国际网友再次嘲讽马斯克打游戏「找代练」的实锤根据，同期也为 Grok3 在施行愚弄中的可靠性，再次打上了一个大大的问号。

关于这么的「天才」，岂论施行智力几何，改日被用于火星探索任务这么的十分复杂的愚弄场景，其可靠性齐要打上一个大大的问号。

现在，重大在几周前赢得 Grok3 测试阅历、以及昨天刚刚用上几个小时的模子智力测试者，关于 Grok3 面前的发达，齐指向了一个相通的论断：

「Grok3 是很好，但它并不比 R1 或 o1-Pro 更好」

「Grok3 是很好，但它并不比 R1 或 o1-Pro 更好」 | 图片来源：X

Grok3 在发布寺东谈主方的 PPT 中，在大模子竞技场 Chatbot Arena 中终了「遥遥发轫」，但这其实也愚弄了一些小小的作图时期：榜单的纵轴仅列出了 1400-1300 分段的排行，让正本 1% 的测试畛域差距，在这个 PPT 展示中齐变得荒谬昭着。

官方发布 PPT 中的「遥遥发轫」成果 | 图片来源：X

而施行的模子跑分畛域，Grok3 其实也只比 DeepSeek R1 以及 GPT4.0 终明晰不到 1-2% 的差距：这对应了不少用户在施行测试中「并无昭着判袂」的体感成果。

施行上的 Grok3，只比自后者高了 1%-2% | 图片来源：X

此外诚然在分数上，Grok3 高出了现在公开测试的统统模子，但这少许并不被许多东谈主买账：毕竟 xAI 在 Grok2 期间就有在这个榜单中「刷分」，跟着榜单对回应长度作风作念降权处理而大幅裁减分数的情况，因此频繁被业内东谈主士诟病「高分鸠拙」。

岂论是榜单「刷分」，如故配图诡计上的「小时期」，齐展示出的是 xAI 以及马斯克本东谈主关于模子智力「遥遥发轫」这件事的握念。

而为了这些差距，马斯克所付出的代价堪称高尚：在发布会中，马斯克用近乎自满的口气示意，用了 20 万张 H100（马斯克直播中示意使用「高出 10 万」张 ) 考试 Grok3，总考试小时数达到两亿小时。这让一部分东谈主以为这是对 GPU 行业的又一个过错利好，并认为 DeepSeek 给行业带来的改变是「愚蠢」的。

不少东谈主认为堆砌算力将会是模子考试的改日 | 图片来源：X

但施行上，有网友对比了使用 2000 张 H800 考试两个月得出的 DeepSeek V3，筹画出 Grok3 其施行的考试算力花消是 V3 的 263 倍。而 DeeSeek V3 在大模子竞技场榜单上与得分 1402 分的 Grok3 的差距，以致还不到 100 分辛苦。

从这些数据出炉之后，就有不少东谈主快速刚劲到，在 Grok3 登顶「宇宙最强」的背后，其实是模子越大，性能越强的逻辑，如故出现了昭着的角落效应。

即使是「高分鸠拙」的 Grok2，其背后也有着 X（Twitter）平台内海量的高质料第一方数据行为相沿来使用。而到了 Grok3 的考试中，xAI 当然也会遭受 OpenAI 面前雷同遭受的「天花板」——优质考试数据的不及，让模子智力的角落效应飞速曝光。

关于这些事实，最早刚劲到而且亦然最深入剖析的东谈主，详情是 Grok3 的开发团队与马斯克，因此马斯克也在应酬媒体上不停示意面前用户体验到的版块「还只是只是测试版」「齐全版将在改日几个月推出」。马斯克本东谈主更是化身 Grok3 居品司理，建议用户平直在接洽区响应使用时所遭受的多样问题。

他大致是地球上粉丝数目最多的居品司理 | 图片来源：X

但不到一天之内，Grok3 的发达，无疑给寄但愿依靠「松懈飞砖」考试出智力更强的大模子的自后者敲响了警钟：根据微软公开的信息测度，OpenAI GPT4 参数体积为 1.8 万亿参数，比较 GPT3 如故普及了高出 10 倍，而听说中的 GPT4.5 的参数体积以致还会更大。

模子参数体积飞涨的同期考试老本也在飙升 | 图片来源：X

有 Grok3 在前，GPT4.5 以及更多想要持续「烧钱」，以参数体积来赢得更好模子性能的选手，齐不得不探讨到如故近在目下的天花板，应该怎样迫害。

此时此刻，OpenAI 的前首席科学家 Ilya Sutskever 在前年 12 月曾示意「咱们所纯属的预考试将会驱散」，又被东谈主再行牢记来，并试图从中找到大模子考试的实在出息。

Ilya 的不雅点，如故为行业敲响了警钟 | 图片来源：X

彼时，Ilya 准确想到到了可用的新数据接近缺少，模子难以再持续通过获取数据来普及性能的情况，并这种情况刻画为化石燃料的花消，示意「正如石油是有限资源一样，互联网中由东谈主类生成的内容亦然有限的」。

在 Sutskever 瞻望中，预考试模子之后的下一代模子将会有「实在的自主性」。同期将具备「雷同东谈主脑」的推明智力。

与如今预考试模子主要依赖的内容匹配（基于模子此前学习的内容）不同，改日的 AI 系统将能够以雷同于东谈主脑「想维」的方法，来巩固学习并拓荒起贬指责题的次序论。

东谈主类对某一个学科作念到基本的能干，只需要基本专科竹素即可终了，但 AI 大模子却需要学习数以百万计的数据才能终了最基础的初学成果，以致当你换了个问法之后，这些基础的问题也无法正确剖析，模子在实在的智能上并莫得得到普及：著述起原提到的那些基础但 Grok3 仍然无法正确回应的问题，便是这种表象的直不雅体现。

但在「力大飞砖」除外，Grok3 淌若确凿能向行业揭示「预考试模子行将走到尽头」这个事实，那它对行业仍然称得上有着紧迫的启发酷好酷好。

未必，在 Grok3 的怒潮渐渐褪去之后，咱们也能看到，更多雷同李飞飞「在特定数据集的基础上 50 好意思元微调出高性能模子」的案例出现。并在这些探索中开云(中国)KAIYUN·官方网站，最终找到实在通向 AGI 的谈路。

热点资讯

	kaiyun中国官方网站模拟出当然伟力的磅礴-开云·Kaiyun(中国)…
	kaiyun街头瓜摊陈志（云南）摊主为何买卖差-开云·Kaiyun(中国…
	kaiyun中国官方网站品级更高的、品相更好的-开云·Kaiyun(中国…
	kaiyun并愉快悉数复牌指令及全面盲从上市法规-开云·Kaiyun(中…
	kaiyun官方网站 -开云·Kaiyu…