第一百五十九章这样下去你就废了！_首富从AI浪潮开始路大头

虽然韩路一刚说了苏念念，可是其实他也给自己安排了视频会议。

和赵文渊。

赵文渊自从请假之后就没来办公室上班了，最近一直在家搭数据管线，在鼎盛那边的程序走完之前做准备工作。

两人先把训练的策略过了一遍，会议结尾，韩路一问了一下时间线。

“文渊，鼎盛那边账户大概这两天就能配好，你这边什么时候能开跑？”

电话那头，赵文渊停顿了一会，似乎在组织语言，然后才开口道：“韩总，就算算力到位了，开跑之前还有一道坎。”

“什么坎？”

“上周五我和你说的，预训练数据的预清洗。”

韩路一坐在办公桌前想了想，是有这么回事。

“咱们现在手里有什么了？坎在哪？”韩路一问道。

“有oncrawl里的数据，还有公共版权的书籍资料，我想在清洗这块优化一下，但是搞了几天还没头绪。”赵文渊解释道。

“嗯……我晚上回去看看。”

挂断视频，韩路一在办公室里思索起来。

韩路一想起来赵文渊的属性面板。

【赵文渊】

【技术s（研究ss）｜协作c｜稳定a】

【特技：大模型训练｜大模型后训练】

后训练是他的强项，预训练这边可能就没有那么熟悉了。

当然了，大模型现在也出来几年了，论文发了那么多，大家没吃过猪肉也见过猪跑了。技能是可以迁移过来的，摸索摸索，预训练也没有那么难。

想要从头做大模型，真正的瓶颈还在数据和算力。

数据也分两块，原始数据和标注数据。

标注数据这块，靠着视界，韩路一已经拿到了世界顶尖的标注。

数量还不太够，但是肝一肝总会有的。

但是原始数据还得想办法。

一般的厂商数据来源主要有几个，除了那些出版物或者特定行业的资料，还要去互联网上收集资料。

互联网的资料也有不同的来源：可以自己在互联网上爬——这就是各显神通了，爬到什么算你的本事；也可以用oncrawl。

oncrawl是开源的语料库，大模型时代的“数字公共图书馆”。

它是一个非营利组织，目标是“爬取和存档整个互联网”，并将这些数据免费提供给所有人。这个愿景很伟大，也确实帮助到了很多人。

现在市面上的大模型，做通用场景的，有一个算一个，训练语料里一定包含oncrawl，无非是有的多些有的少些。

但是oncrawl的问题是，它基本没有清洗，里面有互联网上各种各样的原始信息。

就拿中文互联网来说吧，上面最多的内容是什么？知识干货？生活小常识？人生感悟？感人的文学作品？

错了，是垃圾，各种各样的垃圾。

菠菜广告，瑟瑟广告，为了优化搜索结果的重复关键词堆砌。

如果把这些东西当原料直接去制作大模型，你可以期待会看到这样的场景。

你问它：“什么是大模型预训练？”

章节内容不完整，请退出阅读模式查看完整内容！