第一百五十九章 这样下去你就废了! 路大头
虽然韩路一刚说了苏念念,可是其实他也给自己安排了视频会议。
和赵文渊。
赵文渊自从请假之后就没来办公室上班了,最近一直在家搭数据管线,在鼎盛那边的程序走完之前做准备工作。
两人先把训练的策略过了一遍,会议结尾,韩路一问了一下时间线。
“文渊,鼎盛那边账户大概这两天就能配好,你这边什么时候能开跑?”
电话那头,赵文渊停顿了一会,似乎在组织语言,然后才开口道:“韩总,就算算力到位了,开跑之前还有一道坎。”
“什么坎?”
“上周五我和你说的,预训练数据的预清洗。”
韩路一坐在办公桌前想了想,是有这么回事。
“咱们现在手里有什么了?坎在哪?”韩路一问道。
“有oncrawl里的数据,还有公共版权的书籍资料,我想在清洗这块优化一下,但是搞了几天还没头绪。”赵文渊解释道。
“嗯……我晚上回去看看。”
挂断视频,韩路一在办公室里思索起来。
韩路一想起来赵文渊的属性面板。
【赵文渊】
【技术s(研究ss)|协作c|稳定a】
【特技:大模型训练|大模型后训练】
后训练是他的强项,预训练这边可能就没有那么熟悉了。
当然了,大模型现在也出来几年了,论文发了那么多,大家没吃过猪肉也见过猪跑了。技能是可以迁移过来的,摸索摸索,预训练也没有那么难。
想要从头做大模型,真正的瓶颈还在数据和算力。
数据也分两块,原始数据和标注数据。
标注数据这块,靠着视界,韩路一已经拿到了世界顶尖的标注。
数量还不太够,但是肝一肝总会有的。
但是原始数据还得想办法。
一般的厂商数据来源主要有几个,除了那些出版物或者特定行业的资料,还要去互联网上收集资料。
互联网的资料也有不同的来源:可以自己在互联网上爬——这就是各显神通了,爬到什么算你的本事;也可以用oncrawl。
oncrawl是开源的语料库,大模型时代的“数字公共图书馆”。
它是一个非营利组织,目标是“爬取和存档整个互联网”,并将这些数据免费提供给所有人。这个愿景很伟大,也确实帮助到了很多人。
现在市面上的大模型,做通用场景的,有一个算一个,训练语料里一定包含oncrawl,无非是有的多些有的少些。
但是oncrawl的问题是,它基本没有清洗,里面有互联网上各种各样的原始信息。
就拿中文互联网来说吧,上面最多的内容是什么?知识干货?生活小常识?人生感悟?感人的文学作品?
错了,是垃圾,各种各样的垃圾。
菠菜广告,瑟瑟广告,为了优化搜索结果的重复关键词堆砌。
如果把这些东西当原料直接去制作大模型,你可以期待会看到这样的场景。
你问它:“什么是大模型预训练?”
章节内容不完整,请退出阅读模式查看完整内容!