第一百八十七章 随身老爷爷 路大头
轮一轮的试。虽然成功率不高,但是效率比手写已经大大提高了,试的多了也有一些迁移工作的效果不错。
碰上那些特别重要、特别难的,再汇报给赵文渊。
这种情况一般赵文渊也做不了什么,他就等着韩路一来。
韩路一坐下之后认认真真的从上到下看一遍,然后就开始写,噼里啪啦的输入一串提示词,各种关键参数和逻辑都写在里面,然后回车,等五分钟。
这个难点就攻克了。
经历了最初的震惊、迷茫、怀疑世界之后,赵文渊已经适应了这种模式。
可能这个世界就是有天才吧。
有难题,找韩总。
我直接把韩总当我的随身老爷爷用不就完了吗?管他怎么做到的呢。
像现在,卡了全组两天的两个算子迁移,韩路一坐下十分钟,解决了。
第一个是rope。
这个东西说白了,是让模型知道一段文本里每个词所在的位置。短文本里问题不明显,可一旦上下文拉长到十六k,显卡那边的三角函数近似误差就开始增多的厉害。之前测试的时候,前八k还算正常,到了后面,生成结果就会出现莫名其妙的错位。
赵文渊他们试了两天,一直在精度和性能之间来回拉扯。精度压下去,速度掉得厉害;速度提上来,误差又爆。
韩路一坐下之后,只看了一遍日志,就让智能体把s/s查表的粒度重新切了一档,又把缓存策略改成按block复用。
五分钟后,十六k长上下文测试通过,性能损耗从原来的百分之四十七降到了百分之十八。
第二个是yernor。
这个算子看起来简单,可训练里调用频率极高,慢一点点,整条训练链路都会被拖住。韩路一改了两个访存顺序,又让智能体把向量化读写补上,性能直接从n卡基准的百分之五十二拉到百分之八十一。
赵文渊当时看着那两个绿色pass,心情已经很平静了。
平静到有点麻木。
解决完问题,韩路一制止了赵文渊想要接着工作的势头。
“停一下,我有别的事要和你商量。”
赵文渊看向韩路一。
“nex那边开始动作了,我预测他们四月开始就不会再给我们提供api接口,所以在那之前我们要把汤圆10做出来,确保汤圆能接住kaiwu海外版迁移过来的流量。”
赵文渊听完之后在电脑上切了一下屏幕,看了看训练进度,然后对韩路一说:“韩总,时间上有点赶,但是应该来得及。只是,我比较担心的是双语适配问题。”
赵文渊调整了一下坐姿,面向韩路一,谨慎的分析起来。
“预训练倒是问题不大,用的互联网上的原始数据,本身就是英文居多。关键是后训练,模型的理解能力主要来源于后训练的提高,你现在提供的那批标注虽然质量极高,但都是中文的,对英文能力的提升恐怕……”
赵文渊的话没说完整,但意思到位了。
然后他用期待的眼神看向韩路一:“韩总,不知道英文的标注,你能不能——”
这就是赵文渊的新策略。
有需求,找韩总
章节内容不完整,请退出阅读模式查看完整内容!