返回第一百八十三章 这不是有戏了吗?  路大头首页

关灯 护眼     字体:

上一页 目录 下一章

“reduce时按4-stride展开,避免banknflict。”

“k/v矩阵按row-ajor缓存在sharedory,避免跨bank连续冲突。”

“先保证精度,再做性能优化。”

回车。

智能体又开始勤勤恳恳的劳动了。

五分钟后,一个大大的绿色pass出现在屏幕上。

赵文渊在旁边眼珠子都快要瞪出来了。

“不是……这怎么回事?”

他不顾韩路一还坐在电脑前,把头凑到屏幕前面,把测试报告从头到尾看了一遍。

精度误差:23e-6,远低于1e-5的要求。

性能:n卡实现的83。

不是70,是83。

赵文渊又把生成的代码拉出来,逐行看了一遍。

他越看越沉默。

这段代码根本不是那种“能跑就行”的粗糙实现:softax用的是三阶段onlealgorith,reduce的展开策略干净利落,sharedory的使用几乎没有浪费。

这是一个对底层硬件有深刻理解的人才能写出来的东西。

不,准确地说,是一个对底层硬件有深刻理解的人,才能指导ai写出来的东西。

赵文渊转过头,看着韩路一。

“韩总,你第二次输入的那些提示词——softax三阶段、tile64x64、4-stride展开——你怎么知道的?”

韩路一靠在椅背上:“我看了文档。”

“我去,原来你看了文档啊,不早说。”赵文渊先开了个玩笑,然后声音突然拔高了,“我也看了两天文档,跑了十几个测试,我都没找到这个tile尺寸,你看了几分钟就看出来了?”

韩路一没有回答,只是笑了笑。

赵文渊盯着他看了好一会儿,最后像是泄了气一样靠回椅子上。

“行吧。”他说,“我不问了。”

他之前不是没想过用ai来做这些工作,但是ai根本做不了。每次跑出来的结果,不是卡死,就是偏差太大。

怎么韩路一一上手就好用了?

赵文渊现在只想火速删掉发给韩路一的那个共享文档的标题。

韩路一在他眼前,把他觉得不可能的事情做出来了。

如果这个不是偶然呢?

如果scaled_dot_product_attention可以这样做,那其他算子呢?

什么暂无可行性啊?

什么叫“别想了,没戏”啊?

这不是有戏了吗?

他现在非常想让那个前同事过来现场看看。

『加入书签,方便阅读』

上一页 目录 下一章