在边缘侧重新思考语音AI：基于DGX Spark的实用离线流水线

Arm CPU 和开源技术如何借助 faster-whisper 与 vLLM 实现实时、隐私保护的语音对话

By Odin Shen

Reading time less than 1 minute

1. 引言

基于云的AI占据了大多数关注焦点，但真正实现响应和隐私保护的交互则发生在边缘侧。本文将展示如何基于Arm架构的NVIDIA DGX Spark平台，构建一个完全离线、实时运行的语音助手系统。该系统集成了 faster-whisper 和 vLLM 等开源组件，在无需将数据发送到本地环境之外的情况下，实现低延迟、接近人类对话体验的交互。

立即开始，你可以在 Arm Learning Path 上找到本篇博客的完整实例以及逐步操作指南。

2. 技术挑战：对云的依赖困境

在许多企业环境中，技术人员需要快速访问内部文档或获得实时支持。然而，依赖云端API会带来三个关键瓶颈：

延迟：与云端API的往返通信会打断语音对话的自然节奏。
隐私：将敏感数据发送到外部服务器会带来合规风险，尤其是在涉及专有内容时。
成本与可控性：基于API的计费模式和使用限制，会限制系统的扩展能力以及针对特定行业需求的定制化能力。

3. 解决方案：异构的开源流水线

为了解决上述问题，我们在DGX Spark上设计了一套流水线，该平台基于Grace-Blackwell GB10架构构建。在该方案中，CPU被定位为一个主动的、以低延迟为优化目标的计算引擎。

软件栈：为了实现最大的灵活性与性能，整个系统运行在以下开源工具上：

组件	软件/模型	功能说明	许可证/访问方式
音频采集	PyAudio	实时16kHz麦克风音频流	MIT许可证
语音检测	WebRTC VAD	基于30毫秒帧的语音/静音检测	BSD风格许可证
语音转文本	faster-whisper	在Arm CPU上高效、高质量的语音转录	MIT许可证
推理引擎	vLLM	支持量化模型的GPU加速大模型服务	Apache 2.0许可证
语言模型	Mistral-7B-Instruct / Llama-3-70B (GPTQ)	本地推理与自然语言响应	HF模型许可证/模型卡条款

4. 关键组件与系统设计

4.1 实时音频与语音活动检测

系统以16kHz单声道音频进行采集，并使用WebRTC的语音活动检测（VAD）在30毫秒的帧级别上检测语音信号。该方法能够确保系统只处理有效的语音输入，同时忽略背景噪声和静音间隔。

4.2 基于Arm架构CPU的高速语音转写

对于短时、对延迟敏感的任务，系统并未将其分流到GPU上，而是使用高性能的Arm CPU集群（Arm Cortex-X 和 Cortex-A 系列核心）来处理。

为什么选择Arm：Arm架构针对实时搜索、小批量推理任务等低延迟关键型工作负载进行了优化。
性能表现：在Arm CPU上运行 faster-whisper 可以满足低延迟需求，在交互式系统中，语音转写时间约为70至90毫秒。

4.3 基于GPU加速的推理（vLLM）

在完成语音转写后，文本会被传递至vLLM进行处理。DGX Spark采用统一内存（Unified Memory）架构，使CPU与GPU共享同一内存空间。该设计允许GPU直接访问CPU的输出数据，从而无需显式的数据传输或通过PCIe进行拷贝所带来的额外开销。

5. 系统架构流程图

该流程图展示了在DGX Spark上构建的一个高性能异构流水线。系统将任务分配给最合适的计算单元，以降低整体延迟。

在该流水线中，Arm Cortex-X 和 Cortex-A 系列CPU核心用于处理对延迟敏感的任务，例如音频采集和语音转写。这种方式可以实现低于100毫秒的响应时间。系统采用统一内存架构，使GPU能够直接访问共享DRAM中的转写数据，从而消除了传统PCIe数据传输带来的开销。整个流程的最后，由NVIDIA GPU运行vLLM引擎生成智能响应，从而实现高吞吐量且具备隐私保护的对话体验。