AMD锐龙AI嵌入式P100系列升级:CPU翻倍12核心、GPU暴涨8倍

短语录 网络资讯 1

3月10日消息,嵌入式,一个极为广阔的市场。从ATM取款机到超市零售终端,从医院工厂到最新机器人,可以说嵌入式无处不在,与每个人的生活都息息相关。

众多行业厂商对于嵌入式领域也是非常投入,从处理器、显卡到存储,产品不断日新月异。

年初,AMD发布了新一代嵌入式处理器“锐龙AI嵌入式P100系列”,首次将锐龙嵌入式产品带入AI时代。

锐龙AI嵌入式P100系列又分为两个不同的子系列,之前发布的面向沉浸式体验的,比如下一代数字座舱、智能工厂、嵌入式显示等等,最多6核心。

这次登场的更高端,主打工业自动化、汽车自动驾驶、物理AI(具身智能)等等领域,规格也高得多,核心数量8个起步,最高达到12个。

现如今,智能工业与边缘计算已经进入了全新的时代,各种新的应用层出不穷,无论是智能自动化,还是AI融合终端,抑或大规模物理AI,都在蓬勃发展。

而在幕后默默贡献的,除了各种AI大模型、算法和应用,更离不开底层AI硬件的高效支持,这正是锐龙AI嵌入式P100系列处理器大展神威的地方,应用领域也是极为广阔的。

诸如智能工厂里的工业PC、PLC、HMI(人机交互界面)、工业机械臂,物理AI领域的机器人、机器狗,以及医疗健康、影视广播、半导体制造与测试,锐龙AI嵌入式P100系列都能如鱼得水。

顺带预告一下,今年下半年,AMD还将再接再厉继续推出“锐龙AI嵌入式X100系列”,最多达16个核心,主要用于自动化系统物理AI等尖端领域,驱动AI技术与应用的全新飞跃。

无论6核心还是12核心,锐龙AI嵌入式P100系列处理器的底层架构是相通的,都源于移动端的Strix Point,也就是锐龙AI 300/400系列。

它采用了异构架构的单芯片设计,一颗芯片内,就集成了Zen 5架构的CPU x86计算引擎、RDNA 3.5架构的GPU AI与图形引擎、XDNA 2架构的NPU AI引擎,提供性能强大、能效极高的AI计算平台。

对比之前的4-6核心版本,这次的8-12核心版本架构不变,但规格、性能更加强大,无论CPU、GPU还是扩展连接性都得到了显著的增强,比如CPU核心数量增加最多2倍、GPU能力增加最多8倍、系统算力增加最多36%,等等。

其中,CPU部分自然是核心数量更多,最高可提供12核心24线程,加上二级缓存从最多6MB增至最多12MB,三级缓存从最多8MB增至最多24MB,可以更从容地处理更高负载,执行更多并发任务。当然也少不了AVX-512、VNNI指令的强力辅助。

GPU部分从2个WGP工作组(4单元)大幅增至8个WGP工作组(16单元),可以更轻松地应对多屏、大屏、高清屏显示,以及4K、8K高画质游戏,当然还有更多的AI图形类任务。

NPU部分倒是没变,依旧最高50 TOPS的算力。

扩展连接性方面,可提供多达16条PCIe 4.0通道,用于连接NVMe存储、摄像头、协处理器等各种扩展设备,按照需要灵活配置。

内存支持一方面保持DDR5-5600不变,另一方面从LPDDR5X-7500提高到LPDDR5X-8533,从而在空间受限设备中提供更高带宽,这对于AI类应用是至关重要的。

如果对比上一代的锐龙嵌入式8000系列,新品可以带来最多39%的多线程性能提升,系统级算力更是提升了最多2.1倍。

惊喜的是,规格大幅增强的同时,BGA封装尺寸依然非常迷你的40×25毫米,热设计功耗范围也依然是15-54W(标准28W)。

如此对于寸土寸金的嵌入式设备无疑是极为友好的,而且兼容性、通用性极佳,不同平台的设计可以互通,从而大大降低开发难度和成本。

如前所述,整个锐龙AI嵌入式P100系列家族,无论是4-6个核心,还是8-12个核心,差别只在于规格和性能高低不同,架构、封装、BIOS、功耗、兼容性等等都是完全相通的,因此具备极强的灵活性。

客户无论打造什么样的产品,从紧凑型工业PC到高端工业视觉再到大型单板系统,只需要根据规格、性能方面的要求,功耗、发热方面的限制等等因素,选择最合适的型号即可。

而在发展的过程中有新的需求了,再升级到更高型号也是顺理成章的,毫不费力,可以大大缩短产品开发与上市周期。

这是全系列详细的SKU型号与规格,此次新增的一共只有三款:

P164i:8核心16线程,8MB二级缓存,16MB三级缓存,5.0GHz加速频率,12单元GPU,2.8GHz频率。

P174i:10核心20线程,10MB二级缓存,24MB三级缓存,5.0GHz加速频率,12单元GPU,2.8GHz频率。

P185i:12核心24线程,12MB二级缓存,24MB三级缓存,5.1GHz加速频率,16单元GPU,2.9GHz频率。

三者其他规格都是一致的,包括:四屏4K120或双屏8K120视频输出、两个USB4、一个USB 3.2、一个USB 3.1、三个USB 2.0和一个安全BIOS USB、-40℃到105℃工业级温度范围等等。

作为嵌入式产品,它们同样享受2.5年标准生命周期支持,扩展最长可达10年。

CPU+GPU+NPU三剑客组合,整个平台的总算力高达80 TOPS。

它们可以单独或组合满足各种AI负载,无论是爆发式的还是持续式的,无论是需求高算力还是低时延,都不在话下。

官方称,新系列可以支持接近2倍数量的虚拟机、更大规模的大语言模型,例如Llama 3.2-Vision 11B,从而推动更先进的AI与混合型工作负载。

当然,对于这种异构计算和异构AI,软件层面的优化至关重要,尤其是NPU、GPU。

得益于AMD ROCm开放软件生态系统的支持,锐龙嵌入式处理器所运行的嵌入式应用,已经有了一整套经过广泛验证的开源AI软件栈,覆盖视觉、多模态与语言、动作与控制等各个层面。

开发人员可以在依赖开源编译器、运行时、库的同时,运行标准AI框架,并且不需要重新编写代码,就可以即时访问适用于嵌入式的模型。

在编程层面,AMD ROCm软件采用了开源的HIP(异构计算可移植接口),可以将GPU编程从硬件中解耦释放出来,也就是使其不再依赖特定厂商的GPU,从而消除软件栈和硬件之间的供应商锁定,无论开发还是移植都更加便捷。

当然不能少了CPU,AMD Zen 5核心提供了隔离能力和充足的性能裕量,可以在单个平台上,以确定性的多任务方式整合多个关键工作负载。

锐龙嵌入式处理器这种紧密集成、统一的CPU、GPU、NPU异构架构,一方面可以在任何混合工作负载下,实现高效的工作负载分配,运行在最合适的引擎上,同时确保可预测的低时延,再搭配熟悉的框架和软件栈,更能在广泛的不同场景中,大大精简开发与部署工作。

另一方面,多个高性能引擎的集成,可以不需要任何外部扩展硬件,就能实现先进的计算与图形性能,厂商能够更轻松地设计可扩展的强大平台。

值得一提的是,AMD还为工业领域的混合关键型应用,提供了一个封装式、垂直整合的虚拟参考堆栈。

它基于Xen虚拟管理程序构建,可在隔离域中运行Linux、Windows、Ubuntu、RTOS系统环境,从而实现安全性、实时性能、灵活性,最终形成可扩展的开放架构,加速下一代嵌入式系统简化设计。

针对不同的应用场景,锐龙AI嵌入式P100系列处理器和开发软件栈都做了深度的优化支持,这里简单举几个例子。

用于工业PC的智能机器视觉:

锐龙AI嵌入式P100系列能够将PLC、HMI整合到同一台工业PC之中。

强大的CPU性能可满足实时监测、处理优化的需要,GPU和NPU则可以为多路摄像头视觉、丰富的HMI仪表板提供支撑。

还支持利用DeepSORT、RAFT-Stereo、CenterPoint、GDR-Net、PaDiM、Llama 3.2-Vision等模型的低时延异常检测。

用于自主运行的物理AI:

针对移动机器人,锐龙AI嵌入式P100系列可以在CPU上管理导航、运动控制与路径规划,GPU则处理多路摄像头数据,实现空间感知、视觉SLAM、视觉-语言-动作(VLA)等高级AI工作负载。

CPU与GPU之间的统一内存也至关重要,保证了低时延、快速响应。

NPU也没闲着,可以支持始终在线的低功耗推理,支持基于YOLOv12、MobileSAM等模型的目标检测与场景理解。

3D医学成像与临床智能:

利用U-Net、nnU-Net、MONAI 等模型,锐龙AI嵌入式P100系列可以在边缘端支持超声、内窥镜、组织分类、肿瘤检测等的3D成像。

借助MedSigLIP加速从成像到报告的工作流程,支持通过Med-PaLM2实现临床推理与问答能力,以及成像、AI分析、报告功能的整合。

8-12核心的锐龙AI嵌入式P100系列处理器已经在试产,将在第三季度投入大规模量产,同时配套的开发文档和工具已经准备就绪。

下半年,AMD还会提供相应的客户参考开发板,拥有完整的配置和丰富的接口,搭配相应的文档和工具即可用于嵌入式开发评估,加速产品开发、原型迭代、平台软硬件验证。

目前,全球多家ODM合作伙伴已经推出基于AMD锐龙AI嵌入式P100系列处理器的解决方案,并均已量产。

包括凌华科技(ADLink)、研华科技(Advantech)、华擎、艾讯(Axiomtek)、康佳特(congatec)、E.E.P.D.、广积科技(iBASE)、控创(Kontron)、瑞传科技(Portwell)、蓝宝石、SolidRun等等。

4-6核心平台方案均已上市,8-12核算新版本即将陆续到来。

锐龙AI嵌入式P100系列处理器8-12核心版本,主要用来打造向工业自动化应用、可全天候运行的AI驱动型系统。

它基于x86 SoC片上系统的可扩展边缘计算,可提供强大灵活的计算、图形与AI性能。

可覆盖从感知到推理全流程的AI加速,异构架构搭配开放软件栈。

提供全天候的运行能力与工业级的可靠性,完美适合实时运行与长期部署。