第一百一十七章平台期_首富从AI浪潮开始路大头

开几个测试用例，几个使用不同编程语言在不同应用场景下进行的代码生成，生成完之后再放进bugkiller扫一遍，看错误率。韩路一同时打开视界看了看模型直接生成的代码。

生成质量确实上了一个台阶。

但赵文渊的表情不像是来报喜的。

他翻到下一页，是一张更详细的曲线。五轮训练的提升幅度标得很清楚：第一轮上次会议分享过了，768；第二轮到第三轮，提了5个点；第三轮到第四轮，28个点；第四轮到第五轮，01个点。

曲线在快速变平。

“847已经是后训练能做到的极限了，”赵文渊说，“再往上走，就不是加数据加显卡能解决的问题了。”

韩路一看着那条曲线。

他想起上次开会的时候，赵文渊在会议室投屏上放的同一条s形曲线。当时的状况，准确率还处在scalgw的前半段。

数据点在曲线的极速上升阶段。

现在数据点走到高原了，大力出奇迹，这招在这不再好使了。

“也就是说，”韩路一的手点在办公桌上，“我们用开源底座做微调这条路，走到头了。”

“不是走到头了，是走到平台了。”赵文渊纠正他，“就像减肥，平台期是可以突破的，但是你得换一种方式才能突破。”

“什么方式？”

赵文渊合上笔记本，从腋下抽出那个本子。韩路一瞄了一眼，牛皮纸封面，上面用黑笔密密麻麻写了一堆英文缩写和箭头，像上学时候的笔记本。

赵文渊翻到其中一页，把本子摊在茶几上。

“三条路。”

他指着第一行。

“第一条，继续走rlhf，强化学习加人类反馈。”

rlhf，rercentlearngfrohuanfeedback，强化学习加人类反馈。简单说，就是让真实用户来当裁判，用户觉得生成得好，模型记住；用户觉得不行，模型改。久而久之，模型就能学会“用户认为好的内容”。

韩路一没说话，等他往下讲。

“思路很简单，开物上线这几个月，真实用户的操作数据我们全都留着。用户觉得生成得好的，点了采纳；觉得不行的，手动改了或者重新生成。这些行为本身就是最好的反馈信号。用这些数据训一个奖励模型，然后用强化学习让天工去拟合这个奖励函数。”

“有别于之前我们基于bugkiller数据的反馈训练，这种训练可以让模型更加理解用户输入所对应的意图，这是超越bug修复的部分，更偏向于语义理解。”

“成本呢？”

“标注基础设施加上奖励模型训练和迭代，大概五百到一千万，时间三到六个月。上限嘛，”赵文渊想了想，“估计能再提三到五个点，到八十八左右。”

“这个提升不算大。”

“在这个阶段每一点提升都很艰难，而且这条路的核心优势不在上限。”赵文渊说，“开物的真实用户行为数据，是我们独有的资产。别人花钱也买不到。”

韩路一点了下头。

“第二条，”赵文渊翻到下一页，“oe，混合专家模型。”

章节内容不完整，请退出阅读模式查看完整内容！