M1 Ultra 能杀死 DSP 吗?

/ 阅读:4043
作者: 飞飞

苹果发布会第二天,一早到公司同事 @焦聚 就问我:

“DSP是不是要淘汰了?”

这个问题,每十年都会被翻出来

M1 Ultra 确实强得离谱,Geekbench 多核跑分 24055 已经匹敌 AMD 3990X (现在 Amazon 零售 $8385 美金),因此 Mac Studio 可谓 “买 CPU 送电脑”。


很难想象,如果新款 Mac Pro 整合两块 M1 Ultra 能强到什么程度。


迫于苹果的压力,Intel 和 AMD 必须要挤爆牙膏,预计 CPU 行业能迎来新一轮性能爆发,

这让我们重新思考一个问题 :

如果 CPU 很强很强

DSP 会被淘汰吗?



~————————————~

DSP 几斤几两 ?

~————————————~

录音行业的“标准声卡”厂商人称“4A 公司”,它们目前都带有 DSP 和 (插件级) 效果器,逐个看看。

先是我们评测的 Apollo X 系列,DSP 运算芯片的型号是:

SHARC ADSP-21469

主频 450MHz (留意不是 GHz)

214XX 系列是 2008 年发布的

能查到这是65nm制程

相比目前苹果的 5nm、AMD 的 7nm、Intel 的 10nm,这是将近 20 年的差距..

不过 mouser 现在给 ADSP-21469 (KBCZ4) 的报价还高达 $39 美金/片,Apollo 声卡里有好几片。


相比起 Avid, UA 已经算“先进”

无论 HDX 还是 Carbon 都用的

TI TMS320-C6727

2007 年发布,主频 250MHz..

制程 90nm, 单价$18美刀..

虽然 HDX 有 18 片,Carbon 有 8 片,但这些成本相比整机售价就算根毛.. Avid 卖的是“标准”..


当然业内也有先进的芯片

Antelope 以前打算用纯粹的 FPGA 运算,后来发现还是要加上 DSP,于是又有了“SC”后缀 (代表“协同”) 的声卡,有些效果器走 FPGA,有些走 DSP,这是业内独一家的设计方式。

FPGA 是 Lattice LFE5U85F

400MHz / 40nm / $52 美刀

DSP 是 NXP MIMXRT1052

主频600MHz (ARM M7)

制程算是“先进”:28nm

不过这块 DSP 的零售价仅为 $14 美刀/片...说明售价并不是由制程决定的。


“4A 公司”已经介绍了三个 A,最后一个“A”是我们拆解的 Apogee Desktop,DSP 芯片是:

Intel Cyclone V SE

具体型号:5CSEBA2U19C8N

双核FPGA SoC (ARM A9)

600MHz主频, 28nm制程

这块 FPGA 可以设计成 DSP,价格也是这里最贵的——$69 美金/片,当然 Apogee 也只用了一片..


$69 美金能买到啥 CPU?

查了一下 NewEgg,用 Apogee 那片 DSP 的价格已经能买到散装奔腾 G6400 (2020年上市,14nm 制程)、盒装酷睿 i5-3450 (2012年,22nm) 与盒装赛扬 G555 (2012 年,32nm)



~——————————————~

那为啥不用 CPU ?

~——————————————~

也有人这么干:NI Maschine+

它用了 Intel Atom C3508

$86 美金/片、14nm 制程

之前业内的独立“鼓机工作站”都用 SoC + DSP (或 FPGA) 方案,NI 是首个使用 CPU 级别芯片的鼓机工作站,用来运行宿主工作站和效果器运算。


我没拆过 Maschine, 但我知道

它没有散热孔和风扇

毕竟 C3508 热功耗 12W

对比常规 Intel CPU,这个 TDP 热功耗已经非常低,上文 $69 美金的 Intel G6400 有 58W、i5-3450 是 77W、赛扬 G555 是 65W。

留意 TDP“热功耗”不是“实际功耗”,实际功耗会更高。

对比 DSP,CPU 的功耗是不可接受的:ADSP-21469 最高功耗 1W/片,Cyclone V 是双核 1.8W

如果声卡和效果器用上 CPU..

可能需要巨大的风扇..

UA 的用户应该知道,Apollo 声卡虽然全是散热孔,但发热也是惊人的,Apogee Desktop 会好一点,因此官方没加入散热孔,但发热也远高于常规声卡。


个别的机架声卡里确实有风扇

例如 Pro Tools Carbon

目前在售带风扇的声卡,行业里据我所知就只有两三个,而且都是机架式设计。


CPU 的效率也经常被吐槽 :

“一核干活, 多核围观”

这是十几年的老论据,DSP 虽然只有几百 MHz,但全部用来处理音频,效率 100%。虽然 CPU 多核效率已有所提升,但 M1 的效率优势是“能效”(发热低),如果比“多核效率”,按 Geekbench 算一下只有 70%,与同样核心数的 Intel 酷睿持平,低于 Intel 至强的 80% ~


“多核优化”是个系统工程

还取决于操作系统、DAW 和插件

任何一环没做好都影响整体

对比 Logic Pro 和 Studio One 的资源占用情况,很明显 Logic Pro 优化更好,充分利用了 M1 的性能核心,而 Studio One 只能和 macOS 系统一起抢夺效率核心,多核优化最差的是 Avid,想用 Pro Tools 你只能上更贵的电脑..

留意 Studio One 5.5 已经是“原生”支持 M1 的版本


另外如果音频设备要上 CPU,大概率还要搭配 Windows CE 或者 XP 系统,这也有风险,

下图是某个用 CPU 的现场台子

价格好几十万, 就不点名了

真的会遇到“蓝屏”..



~————————~

其他原因

~————————~

篇幅有限,不能列出所有原因

还有一大原因是现场演出

演出时总不能打开一台电脑 ..

因此音乐人还需要独立的吉他效果器、独立的鼓机、独立的 DJ 台子、甚至独立的人声效果器..


事实上苹果发布 Mac Studio 时

就用了硬件的 DSP 效果器

而且还用了两台, 都是经典

一台 TC Fireworx, 一台 M3000

这又涉及到更多原因:

效果的算法/专利/品牌/传承

尤其是 TC 最值钱的“行业标准”混响算法,不是你可以随便用的,其实 Antelope 声卡当时升级到“SC”也是为了加入 Autotune 插件,这个效果应该只能用在 DSP 上。


我个人看法是:

DSP 永远不会消失

就像自行车不会被电动车取代

就像摇头电扇不会被空调取代

它原始落后、但方便高效

熟悉数码相机的朋友知道,SONY 今年发布的 A7M4,CMOS 和处理芯片都是 40nm 制程。


DSP 芯片的一些新进展

DSP 虽然发展缓慢,但也有进步,像 SHARC 已经升级到“SHARC+”的 ADSP 215xx,制程从 65nm 升级到 40nm,性能接近目前 21469 的两倍,主频可触达 1GHz;而最新的 Intel Cyclone 10 已经是 20nm 制程 (很贵,超过 $100 美金)..

根据芯片行业的共识,“缺芯”的问题可能在 2023 年解决,我猜今年 DSP 声卡厂商们可能都无法升级,明年倒是有可能。


  • FPGA是真的好用,音频用DSP的原因是如果资源足够的FPGA成本会比较高。而且FPGA是并行的哦,CPU可做不到并行。Cyclone 10价格因为缺芯导致价格起飞,缺芯前正常价格可比Cyclone 4还要低10%左右。话说每厂子用Xilinx吗,明明我才是FPGA的大佬。
    getter 评论道
    • Xilinx 一般用来做声卡的软件调音台,负责多通道信号的音量、Pan、跳线、Summing.. 我好像还没见过用 Xilinx 做效果器的
      飞飞 回复 getter
  • 那几个ARM核的严格来说不是DSP架构的芯片,当然所有数字芯片用来做信号处理都可以叫DSP,只不过正常M核应该算MCU,A核的算SoC或者CPU而已。Atom那颗也好几年了,性能挺弱的,实际NI应该很便宜就能买到,x86好处就是跑个轻量Linux之类的好开发,对MCU来说性能又足够强调度也好。SHARC可是浮点的大DSP核,只要愿意花时间做集成,能干的事情可太多了,和那些定点的小DSP可不是一个概念。
    叫我大力 评论道
    • 我也怀疑它不是 DSP,不过 Apogee 官方就叫它 DSP..
      飞飞 回复 叫我大力
      • 用高性能MCU来做DSP也叫DSP,不过不是专门的DSP架构芯片而已。按我们开发集成算法的经验,ARM核和相近价位的DSP核跑类似功能的算法,能效比差好多倍(更何况ARM-A核的SoC的话普遍还会贵一截)。
        叫我大力 回复 飞飞
  • 结合起来用才是最好的。比如UAD的插件,录音的时候用DSP实时处理,那混音的时候又不需要实时性能,用CPU跑多好啊,算力不比DSP强几万倍。每次混音挂了UAD插件,宿主的延迟直接增加40ms先不说,导出速度慢到实在是太令人难受了。
    YaungT 评论道
    • UAD 的延迟问题可能是“拟物化”界面太占资源,用 M1 Mac 应该会有改善,十几年前 Pro Tools 还没有离线导出,那时候导出才叫痛苦..
      飞飞 回复 YaungT
      • 手上就是M1 Max,实测对比老款intel Mac一点改善都没有...每次不带UAD的工程导出贼快,一旦带了UAD,速度就差不多拉到实时的水平,很难受
        YaungT 回复 飞飞
        • 我没用过UAD,不过按你这个讲法,UAD就是和实时一样的信号路径,只不过是数字处理而已,但只能像模拟设备一样走信号流,所以时间差不多。因为UAD的DSP在外部,外部DSP和UAD算法又不能像离线导出一样做文件和波形分析进行处理,只能按实际时间print一遍,只不过DSP资源够的话可以多算法多轨并行同时不占CPU资源。
          叫我大力 回复 YaungT
          • CPU版本的UADx出来了....刚说完没几天哈哈哈哈。用CPU跑UADx只要1ms附近,而且可以随便挂一堆,把DSP吊起来打了
            YaungT 回复 叫我大力
            • 确实没想到.. 我猜是疫情导致欧美的消费降级、录音棚倒闭、芯片涨价..让高端厂商多方面承压.. UA 的动作还是很快,先是发布不带 DSP 的 Volt 系列抢 PreSonus 和 Focusrite 市场,发布 Spark 之后对手又多了 Waves 和 iZotope,总之要找到更多的活路
              飞飞 回复 YaungT
            • 如果纯粹的算力已不是 DSP 的优势,新方向还有 Standalone,像 Apogee Desktop 连接 iPhone 和 iPad 可以通过自身触摸屏完成所有操作,对 APP 的重度使用者特别方便,我有朋友买回去玩手机 K 歌,直接 U87 加 DSP 效果还能调节每个按钮,真是开挂了
              飞飞 回复 YaungT
              • 其实UAD就应该能做到standalone的,不过估计在主控上固件开发交互比较麻烦吧,又不像Apogee一开始就做了屏幕在上面,要搞还得想办法做app做界面。它以前雷电接口估计主要是跑DSP原始数据流上下行的不是标准音频协议,按这个方式开发等于整个固件架构都变掉,这可比把算法择出来做成插件麻烦多了,就算要做起码也得半年吧(除非已经在做了)。猜对了来刀我😆
                叫我大力 回复 飞飞
              • 还有可能是压根就做不了,本地运算要先把数据buffer下来,硬件上没有足够的RAM是没办法的,这个和平时我们讲音频流传输时候的buffer size是两个概念,差N倍容量,DSP那边可能根本没留这么多硬件资源(估计原本的UAD应该就挺占运存的)。
                叫我大力 回复 飞飞
            • DSP运算资源的扩展能力是个大问题,用CPU架构来做运算成本也更低,合情合理的选择,只不过商业模式就要调整下了。😈
              叫我大力 回复 YaungT