2024年12月12日,STM32 全球线上峰会隆重举行,并发布重磅新品STM32N6 — ST首款带神经处理单元硬件加速器(NPU)的MCU。来自意法半导体的专家深入全面地解读了这款重磅新品的性能及生态。
▲ 扫码观看STM32全球线上峰会 — 中国区技术研讨会
STM32N6到底凝聚了哪些黑科技,如何为边缘AI部署赋能?让我们来一探究竟。
MCU + NPU 架构开山之作,STM32N6让边缘AI部署更轻松
STM32N6是高性能STM32 MCU的旗舰产品,是ST采用MCU+NPU架构的开山之作。
STM32N6采用Cortex-M55内核,800MHz主频,是ST迄今为止最强大的 MCU,也是ST首个集成神经网络硬件加速单元的STM32 MCU。这种全新架构为微控制器应用领域开辟了新方向 — 在 MCU 上实现强大的 AI 性能。
专用嵌入式神经处理单元(NPU)STM32N6集成自研硬件NPU,处理能力达600GOPS,是目前最高性能STM32H7的600倍;同时具有3TOPS/W的极低功耗,在运行AI模型时,不需要任何散热装置。
Arm Cortex-M55 内核 STM32N6内核为Cortex-M55,主频达800MHz,新增150个DSP 矢量扩展指令集 (MVE),可实现在数据被送到NPU之前的预处理,或从NPU得到结果的后处理。
大容量嵌入式RAM STM32N6内置4.2 Mbytes嵌入式RAM,支持实时数据处理和多任务处理,如存储NPU运算中的推理数据,或作为帧缓存,或H264压缩时的中间数据。
强大的计算机视觉能力 STM32N6集成并行和MIPI CSI-2摄像头接口及专用图像处理单元 (ISP),提供600GOPS的AI处理算力,可胜任很多机器视觉应用。
扩展的多媒体功能 STM32N6集成2.5D图形加速器、H264编码器,以及JPEG编解码的硬件加速,能轻松实现在运行AI处理时,把从摄像头获取的视频通过以太网口或USB(UVC协议)传输到外部。
增强的安全功能 STM32N6包括为Cortex-M55核和NPU配备的Arm TrustZone,目标认证SESIP3、PSA L3。
STM32N6为用户带来MPU级别的NPU性能,同时具备所有MCU的优势,体积更小,功耗更低,成本更低,BOM更优,还具有快速启动和快速唤醒功能,因此为许多低功耗AI应用开启“芯”门。这一点,我们可通过一款人体姿态识别演示得到验证,即在STM32N6和STM32H7上运行相同的YOLOv8 模型:STM32H7帧率为2.7 FPS且非实时;而STM32N6在NPU上每秒可进行300多次推理,快了近两个数量级。
STM32N6产品线包括两大系列:内置NPU硬件加速器和无NPU硬件加速器,提供不同的封装和不同I/O脚选项,以满足工业、消费类和可穿戴等不同应用需求。
其中无NPU系列主要满足一些不需要AI硬件加速的计算机视觉类应用,此时STM32N6可以用作一个高主频、大存储、带图像显示和多媒体方案的高性能MCU。
NPU神经处理单元:解锁AI应用全新可能
神经网络单元(NPU)是专门为加速神经网络计算和人工智能相关任务而设计的。它针对矩阵乘法、卷积和其他线性代数运算进行了优化。因此,为具有AI功能的嵌入式系统带来了巨大优势:为神经网络计算提供高性能运算单元,擅长处理图像分类、语音处理及自然语言等,且能效高,非常适合电池供电设备;还可减少MCU上处理AI任务的延迟,这对于实时应用非常重要。
下图展示了在STM32H7、树莓派4 CPU和STM32N6三种不同类型的设备上运行同一个经典目标检测AI用例的性能对比,可看到三种设备的性能差异并明确了拥有NPU的巨大优势。
将NPU引入MCU的创举,为AI应用解锁一系列全新可能性。下图展示了在STM32N6神经处理单元上和STM32N6内核Cortex-M55上运行经典神经网络模型的比较,使用NPU时性能提升了30倍到100倍以上。
ISP专用图像信号处理器:以合理成本实现计算机视觉用例
以往,图像信号处理器ISP是作为一个独立组件来配合MCU,而STM32N6将ISP嵌入到MCU中,这一创新设计将大幅简化计算机视觉用例,应对MCU上计算机视觉的大部分挑战。那么,将ISP嵌入MCU有哪些优势呢?
需要特别指出的是,STM32N6 ISP专为计算机视觉用例设计,与智能手机中的高性能ISP不同。计算机视觉主要关注场景的清晰度和观察对象的相关性。因此,STM32N6的ISP比用于智能手机的先进视觉处理要求低,但非常适合以合理的成本在MCU上处理常用的计算机视觉应用。
在技术参数方面,STM32N6的ISP支持高达500万像素图像传感器,每秒30帧。ISP有三个不同通道,每个通道可并行运行不同的处理任务,服务于不同的功能块,如NPU或CPU。
ISP功能非常广泛,包括裁剪、去马赛克、坏像素校正、对比度调整、伽马校正等等,以及有用的后处理和颜色压缩。它还带有必要的中间件,包括自动白平衡和自动曝光,并为Cortex-M55优化的图像处理提供一个特定库。
ST还提供了针对MCU/MPU免费的ISP调整工具——ISP IQ Tune。它是一款出色的ISP调整工具,用于所有集成ISP的STM32,界面友好,完全免费,支持多操作系统,可引导用户一步步完成ISP调整,简洁快速,即使非专业图像质量人员也能轻松使用。
用STM32N6的ISP进行图像处理的关键步骤为:第一步,通过曝光控制提高图像清晰度;第二步,自动白平衡校准白色,使其更逼真;第三步,通过增加对比度改善图像中的形状和颜色,使其更亮。
通过STM32N6的ISP及其专用配置软件,用户无论在通用视觉还是机器视觉的应用中都能获得出色的图像质量,同时还能为NPU提供适合其处理的输入图片,兼容市场上更多的摄像头种类。
GPU高级图形支持:实现多样化应用场景
STM32N6 还提供高级图形支持,内置Chrom ART、Chrom-GRC、NeoChrom GPU等硬件图形显示加速器,最新的NeoChrom GPU可处理2.5D图像加速,H264编码支持1080p 30FPS,JPEG codec支持图像编解码。
在ST电动自行车演示中,我们可以看到STM32N6展现的高级图形能力。通常需要10.5M字节数据存储图形,现在通过NeoChrom加速器压缩图像,只需830K字节即可。在图形加速转换过程中,CPU负载仅占用2%,而关闭NeoChrom GPU后,则会上升到近70%。而且STM32N6的4.2M字节的内部内存,使用户可以直接从内部运行大多数图形应用,无需外部内存。
客户使用STM32N6可实现多样化的图形应用场景,如计算机视觉、音频、图形和图像等相关应用。
为AI打造完整生态系统,加快应用落地
除了强大的硬件性能外,软件对硬件的支持程度也很重要。在开发STM32N6的同时,ST在软件生态系统和工具链上投入巨大,原生支持主流人工智能框架,如TensorFlow和Keras,对于所有其他人工智能框架,如PyTorch,通过ONNX格式支持。
ST提供了一个完整的软件生态系统和边缘AI在线开发工具链,支持从模型选型、模型预训练与微调、到针对不同的STM32硬件的优化测试。工具链主要包括:
这些软件生态系统资源都包括在ST Edge AI套件中。只需三步,用户就可基于STM32工具链轻松训练和部署一个神经网络模型到STM32 MCU:
推动合作创新,让边缘AI随处可见
随着更多推理任务在边缘端处理,极大减少延时、降低功耗、提升安全,越来越多的边缘人工智能解决方案加速落地,边缘AI市场腾飞之势不可阻挡。据预测,2023年到2030年,TinyML 微控制器市场将以每年超过100%的速度增长,这将推动硬件加速市场规模达到20亿美元。
越来越多的STM32用户开始边缘人工智能开发。截至2024第三季度,使用ST边缘AI平台开发的活跃项目数量已达 51,000 个。作为嵌入式AI技术的创新者,ST也在与AI行业领导者密切合作,共同推动边缘AI的创新和落地。
开发者在他们的产品中采用边缘AI可以分为三个基本场景:
为帮助开发人员实现上述用例,意法半导体已在嵌入式AI布局多年。本次峰会推出的重磅新品STM32N6是ST采用MCU+NPU架构的开山之作,代表了ST在嵌入式AI技术创新方面取得的斐然成绩。它采用ST自有IP的NPU —— Neural-ART加速器,带来强大的AI硬件加速能力;集成ISP专用图像处理器,可实现高性价比的图像预处理和计算机视觉;内置4.2MB SRAM缓存,支持更多种类的机器学习算法;高级图形支持能力实现多样化应用场景;全面的安全性能为用户系统提供可靠保障。
在将这么多黑科技集于一身的同时,STM32N6仍是一款优秀的STM32 MCU产品,继承了STM32的核心DNA和完善的生态系统。ST为STM32N6提供的完整开发工具链可保证设计人员得心应手地开发创新型AI应用。