第139章新的SOTA

当晚，徐辰收到张乐阳发来的消息，语音里透着掩饰不住的兴奋，甚至连称呼都变了：

“徐神！搞定了！彻底收敛了！精度比我们预期的还要高两个百分点！老板刚才看了结果，高兴得差点没把桌子拍碎，直夸我们这次效率高！我跟老板提了一嘴是您帮忙改的算法，老板说改天一定要请您吃饭！”

紧接着，是一张截图。

图片上是校级计算中心的任务队列管理界面。

“我跟中心那边打好招呼了，我们课题组的账号权限已经给你开通了。这是SSH密钥和IP地址。你直接远程登录就行，不用再跑一趟了。现在四张A100全空着，优先级调到了最高，你随便造！”

“谢了，学长。”

徐辰回了个抱拳的表情。

这个忙也不算白帮，几个小时前，他还得排队填表看人脸色；现在，他手里握着物理学院国家重点项目的算力通道，享受着VIP级别的待遇。

……

徐辰打开终端，输入指令，连接服务器。

“来吧，LAART，让我看看你的成色。”

他敲下了那行早已准备好的指令。

运行！

……

这个阶段是AI的训练阶段，在这个阶段，模型需要通过海量的文本数据，学习语言的语法、词汇之间的关联，以及基础的世界知识。

风扇的轰鸣声仿佛透过网络传了过来。

屏幕上，一行行日志开始飞速滚动。

Epoch  1/100  |  Loss:  2.4582  |  Accuracy:  12.4%

Epoch  2/100  |  Loss:  1.8923  |  Accuracy:  28.7%...

起初，Loss曲线的下降并不算快，这在徐辰的预料之中。因为LAART模型引入了复杂的几何约束，模型在初期需要花费大量时间去“寻找”那些逻辑盒子在向量空间中的正确位置。

这就像是在玩拼图，刚开始总是最慢的。

徐辰没有盯着屏幕发呆，他起身给自己泡了杯咖啡，顺便看了会美剧。

两个小时后。

当他再次回到屏幕前时，终端里的数据已经发生了翻天覆地的变化。

Epoch  50/100  |  Loss:  0.1245  |  Accuracy:  94.2%

“收敛速度比预想的要快。”

徐辰眉毛一挑。

普通的Transformer模型在处理逻辑推理任务时，往往需要海量的数据“喂”进去，靠概率去“蒙”出逻辑关系，所以收敛极慢，且很容易过拟合。

但LAART不一样。

它的“逻辑门控单元”就像是一个严厉的老师，一旦模型试图“瞎蒙”，就会被几何约束狠狠地惩罚。这迫使模型必须去学习真正的因果链条，而不是统计规律。

“差不多了。”

徐辰终止了训练，保存了模型权重。

……

接下来，是见证奇迹的时刻——推理测试。也就是看一下刚刚训练好的AI在实际推理上的成绩怎么样。

他打开了那个专门用来测试逻辑能力的CLUTRR数据集，随机抽取了一道题输入模型。

Context（上下文）：“爱丽丝的丈夫是鲍勃。鲍勃的女儿是克莱尔。克莱尔的哥哥是大卫。大卫的儿子是艾瑞克。”

Question（问题）：“爱丽丝是艾瑞克的什么人？”

徐辰按下了回车。

这个问题，在2025年的今天，如果你扔给ChatGPT或者DeepSeek，它们一定能秒回正确答案。

但这并不意味着这个问题简单。

现在的大模型能答对，是科技巨头们“力大砖飞”的结果。他们把参数量堆到了万亿级别，把全人类的互联网数据都喂了进去。它们答对，是因为它们“背”过类似的题，或者靠海量的参数强行记住了概率分布。

而徐辰现在跑的这个SLRM模块的Demo，是个什么水平？

它是一个参数量只有几千万、训练数据仅限于CLUTRR自带的几十兆文本、没有经过任何大规模预训练的“婴儿模型”。

如果让同样规模的传统Transformer模型来做这道题，大概率就是一个废话生成器。要知道GPT-1的参数量都有1.2亿个，在当时，这种体量的模型仅仅被视为文字接龙工具，根本谈不上逻辑推理。

……

屏幕上光标闪烁了0.1秒，就弹出了结果。

回答:  Grandmother  (祖母)

逻辑路径:爱丽丝-＞(妻子)-＞鲍勃-＞(女儿)-＞克莱尔-＞（哥哥）-＞大卫-＞（儿子）-＞艾瑞克.

“漂亮！”

徐辰打了个响指。

不仅仅是答案正确，更重要的是那个逻辑路径。这说明模型不是在“猜”，而是在那个高维的几何空间里，真正地构建出了人物关系图谱，并通过向量运算，一步步推导出了结果！

……

但这只是单例测试，说明不了大问题。真正的考验，是全量数据集的泛化能力测试。

他首先进行了离线测试。也就是用CLUTRR数据集中，预先划分好的“验证集”来跑分。这部分数据模型在训练时是没见过的，可以初步检验模型的泛化能力。

他敲下了测试指令，看着进度条一点点向前推进。

趁着测试的空档，他打开了Papers  With  Code网站，搜索了CLUTRR数据集的最新排行榜。

排名第一的，是DeepMind在半年前发布的Neuro-Symbolic  GNN  (v2)，准确率达到了92.4%。这是一个专门为逻辑推理设计的、极其复杂的混合架构，号称融合了神经网络和符号AI的精髓。

紧随其后的是OpenAI的GPT-4o  (Fine-tuned)，经过专门的微调后，在这个任务上也跑出了91.8%的高分。

再往下，是Meta的LLaMA-3-70B，得分88.5%。

“最高92.4%……”

徐辰看着这个数字，若有所思。

“看来这两年，工业界也没闲着，确实在逻辑推理上下了不少功夫。能把概率模型逼到这个份上，已经是工程学的奇迹了。”

随后，徐辰还搜到OpenAI的灵魂人物伊利亚对于这类问题的感叹：“缩放定律在逻辑任务上开始显示出边际效应递减。我们投入了10倍的数据和算力，却只换来了0.5%的提升。我们需要一个新的范式，但我们还不知道它是什么。”

看着这段文字，徐辰心中涌起一股奇异的感觉。

其实，站在金字塔顶端的那群人——无论是哈萨比斯、伊利亚，还是杨立昆——他们比谁都清楚，当前的LLM已经撞上了一堵看不见的墙。

他们就像是把“炼丹术”发挥到极致的古代方士，虽然能炼出璀璨的琉璃，却始终无法触及化学的本质。他们知道单纯靠堆算力、堆数据，永远无法让概率模型产生真正的、严谨的逻辑闭环。

他们在黑暗中在此徘徊，焦灼地等待着。

……

就在这时，终端窗口发出“叮”的一声轻响。

测试完成。

徐辰深吸一口气，将目光移回终端。

屏幕的最下方，一行白色的字符静静地停在那里。

【测试准确率:  95.3%】

徐辰愣了一下，随即揉了揉眼睛，凑近屏幕确认了一遍。

95.3%。

比DeepMind那个集结了全球顶尖算力与智慧、结构复杂到令人发指的SOTA模型，还要高出整整3个百分点！

在机器学习这个卷到极致的领域，通常提升0.5个百分点，就足以让一篇论文登上CVPR或者NeurIPS这样的顶会；提升1个百分点，那就是年度最佳论文的有力竞争者。

提升3个百分点？

那不叫提升。

那叫代差。

更可怕的是，DeepMind那个模型，可是经过了无数工程师日夜调优、用了数千张TPU训练了几个月才得到的“完全体”。

而徐辰眼前这个呢？

这只是一个他花了两天时间手搓出来的、甚至连Dropout、LayerNorm这些基础的神经网络优化技巧都还没来得及加的基础模型。

徐辰靠回椅背，看着屏幕，忍不住感叹了一句。

“这就是数学的降维打击啊……”

……

徐辰看着那个接近满分的数字，心中虽然高兴，但并没有狂喜。

毕竟这只是离线测试，也就是在自己家门口跑跑，谁知道会不会有过拟合的嫌疑？

他打开了CLUTRR数据集的官方评测网站。

这是一个全球AI研究者公认的竞技场。你需要下载官方提供的“测试集”，这部分数据是绝对保密的，不仅没见过，而且难度更高，逻辑链条更长。

然后，徐辰将模型预测的结果文件上传到服务器，由官方进行评分。

由于只上传预测结果，不上传模型，并不会泄露模型，所以徐辰也就放心地提交了。

在注册账号时，徐辰犹豫了一下。

“起个什么名字好呢？”

他想了想，手指在键盘上敲下了一个字母。

X

“就用这个吧，Xu的首字母，简单好记。”

……

屏幕上出现了一个旋转的加载图标，几秒钟后，页面刷新。

准确率95.12%。

徐辰看着这个数字，满意地点了点头。

线上和线下的成绩几乎一致，说明模型的泛化能力极强，没有过拟合。

“对于一个还没怎么调参、连Dropout都没加的‘玩具模型’来说，这个成绩，勉强及格吧。”徐辰凡尔赛道。

他伸了个懒腰，看了一眼窗外已经泛白的天空。

“困了，睡觉。”

他随手关掉了网页，合上了电脑，就像是刚刚打完了一局普通的单机游戏，爬上床，拉过被子，秒睡。

然后徐辰不知道的是，这个测试虽然不会泄露模型，但是测试的分数会即时更新到排行榜……

　　(https://www.66kxs.net/book/4792/4792324/40923756.html)

1秒记住66小说网：www.66kxs.net。手机版阅读网址：m.66kxs.net

第139章 新的SOTA

第139章新的SOTA