一些录音转文本(STT)的方案总结

本文最后更新于 2025年1月30日晚上

这几天有个需求，就是将一些中英文对话录音文件转文本，然后进行一些分析。所以就调研了一下录音转文本的方案。顺便总结一下 MacOS 上的录音／录屏方案。

STT 全称 Speech-to-Text，即语音转文本。一般有两种常见的需求：一种是将实时语音转文本的识别（流式处理），一种是将录音文件转文本。本文主要记录后者的一些方案。

1 - 录音转文本的方案

自部署方案

使用起来也非常简单，只需要两步：

# 安装
pip install openai-whisper

# 使用
whisper --model base --language zh --output-dir ./output ./input.m4a

目前一些其他的「自建」方案基本都是基于 OpenAI 的 whisper 模型: HuggingFace 的 Whisper 模型

这种自部署的优势就是安全，缺点是需要消耗本地算力，如果算力不足会比较慢，其次感觉 Whipser 对于纯英语识别来说比较好，但是对于中英文混杂的环境，效果还是比较差的。

API 方案

用几家大厂的 API 方案, 比如：

OpenAI 的 Whisper API

目前价格是每分钟 $0.006：https://openai.com/api/pricing/

OpenAI Whisper Price

其实这个价格也不算便宜了，转一个 1 小时左右的文本就要 3 RMB 左右。

Google 的 STT API

这个更贵，目前价格是每分钟 $0.016：https://cloud.google.com/speech-to-text/pricing

Google STT V2 Price

更多的一些厂商:

服务提供商	服务名称	收费标准	参考链接
微软 Azure	Azure 语音服务	按秒计费，包含标准和自定义语音转文本，以及按字符计费的文本转语音服务	价格详情
百度智能云	语音识别服务	支持预付费包和后付费阶梯计价，根据语言模型类型定价	价目详情
阿里云	智能语音服务	一句话识别按次计费，录音文件按时长计费，语音合成按字符计费	费用说明
腾讯云	语音识别	实时识别和文件识别按日使用量计费	计费概述
华为云	语音交互	按调用时长收费，支持按量付费和套餐包	服务价格
Sonix	转录服务	按小时收费或月度订阅制	价格详情

总之，API的方案确实很方便，但是价格其实都并不便宜。

于是最后我还是将眼光瞄向了国内的一些在线平台。

在线平台

主要试用了科大讯飞的讯飞听见，阿里的通义听悟和字节的飞书妙记。

用起来体验如下:

阿里：通义听悟

Link: https://tingwu.aliyun.com/

阿里通义听悟在中英混合文本识别方面表现最为出色，且提供充足的免费额度（赠送500小时, 除此之外每天签到都可以领取 10 小时）

活动界面

然后功能方面做的也很好，包括内容摘要，发言人识别，文本替换，AI改写等比较好用的功能。

字节：飞书妙记

Link: https://www.feishu.cn/product/minutes

飞书妙记也还不错，每月提供300分钟免费额度，勉强也还够用。

但是如果额度一旦用完，价格就有点贵了，只能付费升级到「飞书 Plus」来用不限时。

price

飞书妙记：界面

另外界面做的也挺朴素的，功能不像阿里的那么丰富，但是比较简练，作为常用的会议记录的用途也足够了。

科大讯飞: 听见

每月仅提供20分钟免费额度，识别效果也相对一般，充值也很贵，39.8RMB/月。

性价比较低。

2 - MacOS 录音方案

作为录制会议或者演讲等用途，经常有一个需求就是想同时录制麦克风 + 系统声音.

这里介绍一下我现在用的两种能获得录音音频的方式：

1 - 使用 Screenshot 录屏

录屏的话 MacOS 的 Screeshot（截屏）可以直接做到：

cmd + shift + 5 打开录屏，在选项中选择「麦克风」即可。
录制结束后获得一个 .mov 视频文件。
用 QuickTime Player 打开视频文件，在「文件」菜单中选择「导出为音频文件」，即可获得一个 .m4a 音频文件。

2 - 单纯录音

有时候我们不被允许录制屏幕，这时候只能通过单独录音的方式，而 MacOS 自带的 “QuickTime” 录音只能单独录制麦克风声音，这时候就需要用到其他手段。

BlackHole

一种方案是利用 BlackHole，BlackHole 作为一个虚拟音频设备，可以将 macOS 系统的音频输出捕获并重新路由，使其既能被录制软件录下又能通过扬声器播放出来。具体操作可以看：知乎：macOS使用BlackHole录制系统声音的同时输出声音

QuickRecorder

另一种就是通过安装其他应用的方式，一般用的最多的是 obs，但是 obs 太大了，搞起来比较复杂和麻烦。

于是我找到了一个使用起来还不错的很轻量的开源软件「QuickRecorder」：https://github.com/lihaoyun6/QuickRecorder

QuickRecorder

使用这个软件录制出来会生成一个 .qma 文件

qma 这种文件包格式可以容纳 2个音频文件，以及一个属性文件。

使用 QuickRecorder 内置的 QMA 播放器打开 .qma 可以同步播放系统声音和麦克风声音，并且可以独立调节音量（调节之后，音量属性会被记录在文件信息里，下次打开这个文件还是这套音量配置）。如果不需要分享的话，直接用 qma 格式保存在硬盘上就行了。如果需要发给别人，qma 播放器自带导出功能，可以将两个音频文件按照用户设定的音量比例混缩成一个普通的单轨音频文件 .mp3 / .m4a。ref

技术

#技术 #STT(Speech-to-Text) #录音 #录音转文本

一些录音转文本(STT)的方案总结

https://moreality.net/posts/8462/

作者

Moreality

发布于

2025年1月29日

许可协议

一个实现自动网页剪藏的工作流上一篇

2024 年度订阅总结: 降本增效下一篇