发布日期:2024-06-19 08:11 点击次数:150
台北电脑展2024当作期间,文Q有幸独家采访了AMD GPU本领与工程研发高档副总裁王启尚(David Wang)。
王启尚先生有着30多年的显卡和芯片工程研发教授,咫尺在AMD精采架构、IP和软件等GPU本领开采,同期提醒着AMD显卡、数据中心GPU、客户端和半定制业务SoC的工程研发。
与王启尚先生的合影
访谈从AI LLM大说话模子初始。
王启尚在此前3月份北京举办的AMD AI PC立异峰会上就开门见平地分析了LLM的发展趋势,大型闭源模子越来越雄壮,比如GPT-4的参数目照旧达到1.76万亿;即即是相对袖珍的开源模子也在推广,Llama 2参数目达700亿,阿里通义千问2达到720亿。
如斯雄壮的LLM,关于算力的需求是十分“饥渴”的,雷同需要海量的电力去撑捏,远超一般数据中心的承受才气,越发引起行业的担忧。
对此,王启尚分析指出,基础大模子的参数限度成长弧线比摩尔定律来得还要强横,险些每两年就增长多达5-10倍,是以出身了新的“混杂众人模子”(MOE)计谋,将单一大模子变为广博众人模子的集聚,每一个齐有我方有益擅长的畛域,因此不需要超等雄壮以致无遗弃,战胜畴前会越来越流行。
在硬件方面,每一年齐在更新换代,匹配大模子的快速进化趋势,重心就是进步算力和算法、内存容量和带宽。
其中,算力和精度密切关系,趋势是越来越低,前几年需要16位,当今缓缓转向8位精度,AMD下一代CDNA4 MI350会进一步降至6位省略4位,而最终可能会走向2位省略1位——东说念主脑就是1位省略2位的。
虽然,这个精度也要看模子的瞎想,未必可能需要量化和重新西宾。
咫尺来看,没什么“魔法”大幅缩小硬件的功耗,能作念的就是用功进步能效。
比如AMD的下一代家具,性能不错进步35倍,但功耗不会加多这样多,客户依然闲静购买越来越多的GPU,毕竟算力依然不够。
王启尚承认,电力的问题会一直存在,畴前数据中心可能真是需要自建发电厂。
回到距离咱们更近的AI家具,比如说Strix Point的下一代移动处分器锐龙AI 300系列,NPU的算力达到了50TOPS,不错荒诞更多对算力有需求的场景,更多地接办CPU、GPU的使命。
王启尚示意,每一种AI引擎齐有符合我方的使命,比如CPU主要作念通用运算,GPU不错快速西宾大模子,NPU则不错竣事最低的功耗和最高的能效,虽然将负载移动到NPU上齐需要一定的优化和时刻。
罕见是在GPU、NPU之间,存在着折衷和谐和,取决于你看中高速率照旧高能效。
另一方面,在畴前,AMD但愿通过多层的Graph Compile 编译器,把柄系统里的AI引擎类别,不错将不同的负载分拨给不同的AI引擎,让CPU、GPU、NPU同期跑起来,达到最高后果。
不外这方面还需要一定的时刻,咫尺仍是将一起的使命负载放在归拢个编译器里实践,咱们能作念的是让统共这个词模子变得更熟谙,使其绵薄地进行编译最好化,但这仍需要一定的东说念主力本钱。
当笔者问到,提及CPU、GPU、NPU的多引擎组合,Intel也照旧具备全线实力,NVIDIA也在尝试作念我方的CPU,AMD又该奈何办呢?
王启尚以为,每一家厂商齐有我方的独到上风,AMD的三种引擎在业内齐詈骂常好的,也罕见平衡。
畴前,AMD将络续进展三种引擎齐不错提供最好景色的上风,每一样齐要作念好,同期延续AMD一贯的企业文化,在软件方面坚捏开源,和行业伙伴共同立异,打造绽开的生态链,拥抱AI大时期。
比如AMD聚会博通、想科、谷歌、慧与、Intel、Meta、微软共同晓示了绽开的行业尺度UALink(Ultra Accelerator Link),共同股东AI基础设施诞生。
在这八大首创成员中,谷歌、慧与、Meta、微软齐是数据中心客户,齐罕见欢畅能有这样的绽开尺度,不错更尺度化、更容易地扩建大限度数据中心,不会被遗弃在专有有筹谋打算中。
终末聊到了王启尚的专长,也就是GPU发展,包括锐龙AI 300系列核显使用的RDNA 3.5(省略叫RDNA 3+),以及下一代显卡将会使用的RDNA 4。
具体细节咫尺笃定无法公开,不外王启尚泄露,RDNA 3.5重心针对APU环境作念了优化,比如集成图形中枢限度从12个CU单位加多到最多提供16个CU单位(笔者换算为增幅33%),关于APU来说詈骂常强悍的,不错更好地用于游戏。
RDNA 4在游戏方面的重心就是通过AI增强游戏体验,包括更强的后光跟踪,更多的AI加快画质和帧率。
事实上,这亦然RDNA GPU家眷发展的大标的。
把柄王启尚先生的精彩共享,咱们翘首跂踵AMD在畴前的AI疼痛!