第二百四十四章 他还没看过图吧? 路大头
汤圆模型在云垠的这批硅明生产的l100上已经远程试部署过了,算子适配都做完了,单卡和小集群都没什么问题。
韩路一和赵文渊这次过来,就是为了做最后一步的验收的,其中最关键的就是压力测试。
所谓压力测试,就是一下发送大量的请求,看看现在的架构能够提供最多多少人同时使用。
按照计划,在两周之内,御风的推理数据都要迁移上来。这个时间很紧张,所以中间一点儿差错都不能出。
御风现在注册用户是两百多万,日活二十万,单这个用量就快要把这五百张显卡的算力用满了。
幸好鼎盛那边送来的两千张卡快到位了,下一步的扩容有了方向。但是鼎盛的卡是另一家国产卡,算子和指令集与l100重合的不多,等于要用,在l100上做过的工作就得重做一遍。
这么一看,就体现了英伟达cuda体系的价值。当生态已经建立起来的时候,迁移成本高的可怕。
韩路一没有慌张,出问题是正常的,有他在,都可以解决。
“现在的数据是多少?”
“现在的每秒请求数(qps)在十六。”
韩路一挑了挑眉,来之前他们已经测算过了,要支持二十万的日活,每个用户每天都不止会发一条,多的可能几十条请求。
每秒请求数最少要在三十以上才行。
而现在的架构理论上能跑到五十,就算考虑到调度损耗、通信损耗、框架损耗这些,保守的看,也能到四十以上。
现在只有十六,只有最低标准的一半。
赵文渊一边说着,一边把电脑中的后台视图、监控曲线、输出日志都打开来在桌面上。
“江松然联系过了吗?”
“刚才发过信息,他还在看。”
江松然人还在海城,他入职的时候韩路一就保证过,绝不让他出差,所以虽然是这么大的事,韩路一也没带他过来。
“开个视频吧,一起看看,快一点儿。”韩路一说。
刘彧这边已经用手机拨通了视频。
画面里的江松然看起来也正在忙,头发很乱,背景是他的卧室。从早晨接到赵文渊的消息之后,他一直也没闲着。
“韩总,gpu利用率我们看过了,基本是满负荷了,问题不在这。”
看起来每张卡都在干活,但是产出却不快。
江松然和赵文渊又一起去查驱动日志。
从软件层面看,一切都很正常。
最后,赵文渊把模型配置都调出来,和江松然一起看。
配置没问题。
模型切分没问题。
并行策略没问题——
其实就这么用肉眼看,能看出问题的概率更小。
可是有的时候生产事故就是这么难排查,就像在盲人摸象。
所有的工具,各种监控数据,打印日志,各种热力图、散点图,都是为了帮你把这个象摸的更清楚。
但是人类毕竟不是计算机,人类看不见计算机的思考过程,只能想象。
当所有的摸象手段都不起效的时候,直接把代码、配置文件拿出来,然后想象运行的结果,
章节内容不完整,请退出阅读模式查看完整内容!