第一百八十七章随身老爷爷_首富从AI浪潮开始路大头

轮一轮的试。虽然成功率不高，但是效率比手写已经大大提高了，试的多了也有一些迁移工作的效果不错。

碰上那些特别重要、特别难的，再汇报给赵文渊。

这种情况一般赵文渊也做不了什么，他就等着韩路一来。

韩路一坐下之后认认真真的从上到下看一遍，然后就开始写，噼里啪啦的输入一串提示词，各种关键参数和逻辑都写在里面，然后回车，等五分钟。

这个难点就攻克了。

经历了最初的震惊、迷茫、怀疑世界之后，赵文渊已经适应了这种模式。

可能这个世界就是有天才吧。

有难题，找韩总。

我直接把韩总当我的随身老爷爷用不就完了吗？管他怎么做到的呢。

像现在，卡了全组两天的两个算子迁移，韩路一坐下十分钟，解决了。

第一个是rope。

这个东西说白了，是让模型知道一段文本里每个词所在的位置。短文本里问题不明显，可一旦上下文拉长到十六k，显卡那边的三角函数近似误差就开始增多的厉害。之前测试的时候，前八k还算正常，到了后面，生成结果就会出现莫名其妙的错位。

赵文渊他们试了两天，一直在精度和性能之间来回拉扯。精度压下去，速度掉得厉害；速度提上来，误差又爆。

韩路一坐下之后，只看了一遍日志，就让智能体把s/s查表的粒度重新切了一档，又把缓存策略改成按block复用。

五分钟后，十六k长上下文测试通过，性能损耗从原来的百分之四十七降到了百分之十八。

第二个是yernor。

这个算子看起来简单，可训练里调用频率极高，慢一点点，整条训练链路都会被拖住。韩路一改了两个访存顺序，又让智能体把向量化读写补上，性能直接从n卡基准的百分之五十二拉到百分之八十一。

赵文渊当时看着那两个绿色pass，心情已经很平静了。

平静到有点麻木。

解决完问题，韩路一制止了赵文渊想要接着工作的势头。

“停一下，我有别的事要和你商量。”

赵文渊看向韩路一。

“nex那边开始动作了，我预测他们四月开始就不会再给我们提供api接口，所以在那之前我们要把汤圆10做出来，确保汤圆能接住kaiwu海外版迁移过来的流量。”

赵文渊听完之后在电脑上切了一下屏幕，看了看训练进度，然后对韩路一说：“韩总，时间上有点赶，但是应该来得及。只是，我比较担心的是双语适配问题。”

赵文渊调整了一下坐姿，面向韩路一，谨慎的分析起来。

“预训练倒是问题不大，用的互联网上的原始数据，本身就是英文居多。关键是后训练，模型的理解能力主要来源于后训练的提高，你现在提供的那批标注虽然质量极高，但都是中文的，对英文能力的提升恐怕……”

赵文渊的话没说完整，但意思到位了。

然后他用期待的眼神看向韩路一：“韩总，不知道英文的标注，你能不能——”

这就是赵文渊的新策略。

有需求，找韩总

章节内容不完整，请退出阅读模式查看完整内容！