第一百一十七章 平台期 路大头
开几个测试用例,几个使用不同编程语言在不同应用场景下进行的代码生成,生成完之后再放进bugkiller扫一遍,看错误率。韩路一同时打开视界看了看模型直接生成的代码。
生成质量确实上了一个台阶。
但赵文渊的表情不像是来报喜的。
他翻到下一页,是一张更详细的曲线。五轮训练的提升幅度标得很清楚:第一轮上次会议分享过了,768;第二轮到第三轮,提了5个点;第三轮到第四轮,28个点;第四轮到第五轮,01个点。
曲线在快速变平。
“847已经是后训练能做到的极限了,”赵文渊说,“再往上走,就不是加数据加显卡能解决的问题了。”
韩路一看着那条曲线。
他想起上次开会的时候,赵文渊在会议室投屏上放的同一条s形曲线。当时的状况,准确率还处在scalgw的前半段。
数据点在曲线的极速上升阶段。
现在数据点走到高原了,大力出奇迹,这招在这不再好使了。
“也就是说,”韩路一的手点在办公桌上,“我们用开源底座做微调这条路,走到头了。”
“不是走到头了,是走到平台了。”赵文渊纠正他,“就像减肥,平台期是可以突破的,但是你得换一种方式才能突破。”
“什么方式?”
赵文渊合上笔记本,从腋下抽出那个本子。韩路一瞄了一眼,牛皮纸封面,上面用黑笔密密麻麻写了一堆英文缩写和箭头,像上学时候的笔记本。
赵文渊翻到其中一页,把本子摊在茶几上。
“三条路。”
他指着第一行。
“第一条,继续走rlhf,强化学习加人类反馈。”
rlhf,rercentlearngfrohuanfeedback,强化学习加人类反馈。简单说,就是让真实用户来当裁判,用户觉得生成得好,模型记住;用户觉得不行,模型改。久而久之,模型就能学会“用户认为好的内容”。
韩路一没说话,等他往下讲。
“思路很简单,开物上线这几个月,真实用户的操作数据我们全都留着。用户觉得生成得好的,点了采纳;觉得不行的,手动改了或者重新生成。这些行为本身就是最好的反馈信号。用这些数据训一个奖励模型,然后用强化学习让天工去拟合这个奖励函数。”
“有别于之前我们基于bugkiller数据的反馈训练,这种训练可以让模型更加理解用户输入所对应的意图,这是超越bug修复的部分,更偏向于语义理解。”
“成本呢?”
“标注基础设施加上奖励模型训练和迭代,大概五百到一千万,时间三到六个月。上限嘛,”赵文渊想了想,“估计能再提三到五个点,到八十八左右。”
“这个提升不算大。”
“在这个阶段每一点提升都很艰难,而且这条路的核心优势不在上限。”赵文渊说,“开物的真实用户行为数据,是我们独有的资产。别人花钱也买不到。”
韩路一点了下头。
“第二条,”赵文渊翻到下一页,“oe,混合专家模型。”
章节内容不完整,请退出阅读模式查看完整内容!