用「对」「语音输入法」提效 20%

导读: 我在 PC 上打了二十年字,从五笔到双拼,键盘是我最熟的工具。一个月前,我换掉了微信输入法。现在写这篇稿子的初稿,是我对着麦克风说出来的。整个过程我比较了 win+H、智谱、秘塔回响、Typeless、闪电说,最后停在闪电说 + 阿里云千问的组合上——每月实花 3-5 元。这篇把我的筛选逻辑、配置步骤、每月账本、避坑清单全交出来,希望也能帮你提效20%。
用「对」「语音输入法」提效 20%
我是个打字的老兵。
从五笔到搜狗拼音,再到现在微信输入法,从薄膜键盘换到青轴再换到矮轴红轴,这二十年里,键盘是我最熟的工具。
但这两年我慢慢意识到一件事:和 AI 打交道,键盘是个瓶颈。 你说一句话 AI 两秒就理解完了,你却要花三十秒敲完键盘。这不是交流,是隔着玻璃比手语。
一个月前我开始用 AI 语音输入法,用了一周就把手从键盘上拿下来。我自己都有点惊讶。
现在你看到的这篇稿子的初稿,就是我对着麦克风说出来的。 口述到自动分段整理完,用时5分钟。我手动加标点和润色用了十几分钟。以前同样一篇三千字初稿,光敲键盘我就得 30 分钟起步。
这是我自诩老键盘党之后,第一次被一个”输入”类工具彻底拿下。
但你可能听过各种数字,比如 2018 年斯坦福那篇著名论文:中文语音输入每分钟 123 字,键盘只有 43 字,速度是键盘的 3 倍。再比如 2026 年初搜狗官宣自家日均语音 20 亿次、识别率 98%(数据来自搜狗 2026-01 官方通稿与 36 氪相关报道)。
我比他们保守得多,日常综合提效大约 20%——因为写文章不只是打字,还有查资料、排版、改稿,语音只解决其中一部分。但就是这 20%,改变了我一整天的工作状态。
所以问题来了:语音输入这么猛,为什么我拖了一个月才换?更大的问题是,为什么 PC 上的语音输入,这么多年都没起来?
这篇文章,是我给自己答的一份题。
为什么 PC 上的语音输入,十年都差一口气
你有没有发现一个怪现象:手机上的语音输入已经熟得不能再熟,但 PC 上一直像个半成品。
我自己的手机是微信输入法。它最大的亮点是跨端粘贴——你在手机上复制一段话,两秒内 PC 微信就能粘过去。这个功能用过就回不去。但微信输入法电脑端不支持语音输入,我在 PC 上一直只能打字。
这就是我多年来的工作日常:手机上对着说,PC 上对着敲。两条工作流,两种速度,两个世界。
不是我一个人的问题。搜狗、百度、讯飞这些老牌输入法厂商,精力全在手机端。为什么?因为手机端语音是刚需,PC 端用户被默认成”会打字的人”。
那微软不是有 Win+H 吗?
我试过。这是我踩的第一个坑。
Win+H 是 Windows 自带的语音听写。英文场景下够用,但对中国大陆用户非常不友好。你去 Microsoft 官方问答社区搜”win+h 无法使用”,能翻出从 2021 年到现在的一长串投诉:界面能打开,loading 圈一直转,就是不识别。或者识别出来的是驴唇不对马嘴的音译。原因不复杂——它依赖微软在线语音服务,服务器在境外,对国内网络环境极不稳定。
顺着这条线我又试了智谱 AI 输入法、秘塔回响、Typeless。每一款都各有亮点,但每一款都让我觉得”差一口气”。差的到底是哪一口气,我花了大概两周才想明白。
划重点
- 手机端语音输入早就成熟,但 PC 端被大厂当成二线战场
- 微信输入法 PC 端不给语音,Win+H 在国内网络下不稳定
- PC 用户这十年等的,是一个”把 AI 真正搬到桌面”的产品
五款试下来,国外输在延时,国内输在架构
我把过去一个月试过的产品列一下,顺序按时间。
1. Win+H:先出局
前面说过,国内网络下跑不起来,pass。
2. 智谱 AI 输入法(小凹 / AutoGLM)
这是最接近我最终选择的候选人之一。官方宣称 97.8% 识别率,支持”翻译、总结、扩写、排版、代码解释、正则生成”等一整套小凹指令,还有”面向老板/面向伴侣/面向同事”的人设切换——产品力真的不错。
但用了一阵子后,我碰到了同一个问题:底层模型是锁死的。我写代码注释时想换成代码更强的模型,换不了。我写公众号时想用响应更快的小模型,也换不了。你只能用它给你的那一套。
3. 秘塔回响
秘塔这家公司我挺欣赏的,主力产品是 AI 搜索,回响是他们的语音产品。官网主打 “0.5 秒内把你说的话变成清晰、可用的文字”,还能实时整理成可发送的邮件和文档,顺带翻译。
响应速度确实快,整理效果也不错。但它的定位更像语音笔记和消息整理助手,不是日常全局输入法。你得打开它的界面说话,再复制出去。这个”打开→说→复制”的动作链,虽然只有几秒,但对习惯了快捷键全局唤起的老用户,每次都是一次心流中断。
4. Wispr Flow
这是海外最热的那款,融资 8100 万美元估值 7 亿美金(数据来自 36 氪 2026-01 报道)。UI 漂亮、跨平台齐全、上下文感知——听起来很美。
但我试用了一周就退了,三个原因叠在一起。
第一,延时墙。 掘金 2026-04 那篇《12 款语音输入工具横评》和腾讯云开发者社区的对比文都点名:Wispr Flow 官方延时 500-700ms,海外 LLM 时延”非常明显”。语音输入对延时极度敏感——每多等半秒,流畅感就碎一次。
第二,中文是”部分支持”。 一位台湾博主在 readingoutpost 的实测文里发现,Wispr Flow 对中文字数的计算有 bug:你说一万多个中文字,后台只算两百多字。这个 bug 变相让中文用户享受”无限免费额度”,也从侧面说明它的中文处理路径不是主流。纯中文场景下,它的准确率在几款横评里都不是最靠前的。
第三,Reddit 2026-02 出现了一波”Wispr Flow 信任危机”贴,用户集中反映免费试用期结束后识别质量下降(这条我不是亲历,是转述我看到的英文讨论,供你参考)。
加起来,12 美元/月 换一个延时高、中文弱、口碑起波动的产品,对我不值。
5. Typeless

华人团队做的,中英混输在同类里靠前。它官网那句”说话,不要打字”很戳——给出的对比数据是 QWERTY 键盘 45 wpm vs Typeless 语音键盘 220 wpm,节省 1 天/周。真故研究室那篇被虎嗅和腾讯新闻转载的《AI 语音输入法,人类进入”不打字”时代》就是用它完成的,用时 53 分钟写了 5500 字初稿。
但 Typeless 仍然是纯云端路径 + 订阅制。和 Wispr Flow 是同一类方案,核心短板不在产品力,在架构——你的音频要上传到他们的服务器。我对这件事有点不舒服。
6. 闪电说
留下来的那个。下一节专门讲为什么是它。
我先把这 6 款做一张横评给你。
| 工具 | 响应延时 | 音频是否上云 | 中文准确率 | 必须联网 | 价格 | 自带 API Key |
|---|---|---|---|---|---|---|
| Win+H | 中(国内不稳) | ✅ 上云 | 一般 | ✅ | 免费 | ❌ |
| 智谱 AI 输入法 | 中 | ✅ 上云 | 97.8% 官宣 | ✅ | 订阅 | ❌ |
| 秘塔回响 | 0.5 秒 | ✅ 上云 | 高 | ✅ | 免费 | ❌ |
| Wispr Flow | 500-700ms | ✅ 上云 | 部分支持 | ✅ | $15/月 | ❌ |
| Typeless | 中 | ✅ 上云 | 较高 | ✅ | $12/月 | ❌ |
| 闪电说 | <300ms | ❌ 本地 ASR | 跟随模型 | 部分(ASR 离线) | 客户端免费 | ✅ |
而闪电说做的事只有一件:把”底层模型谁来当”这个选择权还给了用户。
国外那条路输在延时墙和订阅费,还有中文不是原生优化。国内那条路前几款都好用,但共同的天花板是——底层大模型被产品锁死了,你没得选。
闪电说把这层天花板拆了。
划重点
- 国外软件的共同短板:延时、订阅费、中文支持不是一线
- 国内前几款的共同天花板:底层模型锁死,你不能换
- 真正的差异点在”架构”层面,不在”识别率”这个参数上
我为什么最后停在了闪电说
我点进闪电说模型页的那一刻,意识到它和前面五款都不是一回事。
一般的语音输入法给你的是成品:你交钱,它出文字,结束。
闪电说给你的是零件+组装说明。
说白了,它就像是你自己攒一台电脑——主板、CPU、显卡、内存、硬盘,闪电说只提供机箱(UI)和接线规则(交互),底层的 CPU(大模型)和显卡(语音识别)是你自己去各大服务商那儿挑的。阿里云、火山引擎、DeepSeek、Kimi,你喜欢谁就装谁。
这个架构决定了三件事。
一、数据我管
闪电说的语音识别是本地 ASR 优先——它下载一个约 1G 的本地模型常驻内存,你的音频文件留在你自己电脑里,不上传到云端。
知乎上那篇阅读量不错的体验文(作者 Chris)里有一句我觉得写得很准:“它的响应速度快得有点离谱”——原因就是不走云端。延时的物理下限就是你到服务器来回的网络时间,闪电说直接跳过了这一段。
代价是什么?占 1G 内存。对老电脑不太友好。但对我这台 32G 内存的笔记本,完全无感。
二、模型我选
这是闪电说最关键的设计。
它把模型分成两类:语音识别(ASR)服务商 和 大模型(LLM)服务商。两类各自独立配置,走不同的 API 协议。
翻译成人话:你说话这一步,和 AI 帮你润色那一步,是分开的。 你可以 ASR 用阿里云,LLM 用 DeepSeek;也可以两个都用阿里云;也可以都换成火山。
这种”零件自选”的架构,让闪电说不会被任何一家厂商绑架。阿里明天发个更强的 ASR 模型,你一键换过去就行,不用等闪电说客户端升级。
三、成本我控
Wispr Flow 要你每月付 12-15 美元。Typeless 一年 144 美元。
闪电说的账单怎么算?取决于你配的 Key 后面的那家服务商。
我用的是阿里云百炼。后面会详说,直接剧透结论:每月实花 3-5 元。
隐藏大招:语音 × 技能
光是输入法,闪电说已经够用。但它还有第二重身份:语音助手。
短按快捷键 → 语音输入(按一下开始说,按一下结束,轻量 LLM 帮你润色)。 长按快捷键 → 语音助手(按住说,松开结束,更强的 LLM 帮你执行复杂操作)。
比如你在微信里收到老板一条消息,你按住快捷键说”帮我回复,说下周一之前给”,它读屏理解上下文,自动生成一条得体的回复填进去。
这不再是输入法了,这是一个坐在你电脑里的助理。
配置一次,用一年:阿里云 + 千问白嫖清单
讲完为什么选它,讲怎么配。整个过程 5 分钟。
第一步:注册阿里云百炼
去 bailian.console.aliyun.com,支付宝或淘宝账号直接登录,创建 API Key。
这一步没什么坑,走完流程你会拿到一串 sk-xxx 格式的字符串,复制保存。
第二步:配置”大模型服务商 → 通义千问”
打开闪电说 → 模型 → 往下拉到「大模型服务商」→ 点「通义千问」卡片 → 粘贴刚才的 Key。
API 地址填 https://dashscope.aliyuncs.com/compatible-mode/v1(官方 OpenAI 兼容入口)。
然后在模型列表里选两个默认:
- 语音输入大模型:
qwen3.6-flash(快,1M token 免费额度) - 语音助手大模型:
qwen3.6-plus(稍慢但更聪明,处理复杂任务)
如果你在列表里没看到 qwen3.6-flash,点右上角”+ 添加模型”,把模型 ID 粘进去。阿里的模型名经常更新,直接去它百炼文档查最新的 latest 版。
第三步:配置”语音识别服务商 → 阿里云”
这一步和第二步容易混。闪电说把两条通道分开了,阿里云的配置卡片在”语音识别服务商”那一栏,不是”大模型服务商”里那个通义千问。
粘上同一个 Key(用同一个账号),模型选 qwen3-asr-flash-realtime(工业级实时语音识别)。
配完。整套流程结束。
两个反向决策:为什么不升级到更强的模型
第一个:“要不要把 LLM 换成 qwen3.6-max?”
答案是不要。四个理由:
- 它目前还是
-preview状态,行为不稳定 - 语音助手是延时敏感场景。max 参数量更大,首 token 延迟明显慢于 plus,说完话再等 2-3 秒,体验就崩了
- plus 对润色/问答/格式化已经够用,max 的质量甜区在长文、代码、复杂推理——不是这个场景
- max 每次 token 消耗是 plus 的 2-3 倍,免费额度也更容易吃完
一句话总结:语音助手场景,max 不是更好,是更慢。
第二个:“要不要把 ASR 切到某个带日期的快照版,比如 qwen3-asr-flash-realtime-2026-02-10?”
答案也是不要。
最初我以为切快照版能省钱,查了一圈发现不是这么回事。阿里云百炼的规则是:每个模型 Code(不管是 latest 版还是某个日期快照)都有自己独立的免费额度。切快照并不额外赚免费额度。
而官方文档白纸黑字写着一句话:“建议优先使用稳定版或最新版,限流条件更宽松”。
所以结论是:稳定版不是”旧版”,是官方在推的最新版。限流还宽。
唯一必做的五秒动作
如果你只记住这篇文章的一件事,记这件事。
打开百炼控制台 → 左侧「模型用量」→「免费额度」tab → 找到你在用的那个模型 → 右侧有个灰色拨钮 —— 打开它。

效果是什么?
当你的免费额度用完时,阿里云会自动停服(返回 403 AllocationQuota.FreeTierOnly),永远不会悄悄从你账户扣费。
三个模型都要开:
qwen3.6-flashqwen3.6-plusqwen3-asr-flash-realtime
这是个防付费陷阱的保险丝。做一次,终身受益。
顺便算一下账
为了让你对成本有概念,我把我实际一周的用量线性外推了一下(6 小时采样,按日均 30 次 ASR / 30 次 flash / 4 次 plus 估算)。
我把市面主流方案在相同用量下的月费做成了一张横评——27 倍差距,不是小数:

换到我的账本里拆开看:
| 项目 | 日用量 | 月用量 | 月费(假设零免费额度) |
|---|---|---|---|
| ASR 音频时长 | 5-7 分钟 | 150-200 分钟 | ¥2-3 |
| flash token | ~9K | ~27 万 | ¥0.3 |
| plus token | ~2.8K | ~8 万 | ¥0.2-0.3 |
| 合计 | ¥3-5 / 月 |
而账户里趴着的免费额度——按阿里云公开规则,ASR 每模型 36000 秒(约 10 小时)× 6 个模型 ≈ 60 小时,按当前单价折算价值近 50 元;文本 LLM qwen3.6-flash 与 qwen3.6-plus 两条线各含 latest 和历史快照,每个模型 1M token 免费额度,价值又是几十元。
加起来接近一百元的免费额度,按我这个用量够用至少一年。
有没有 Pro 用户会问”要不要买阿里云推的’入门型 AI 通用节省计划’”?——10 元送 20 元抵扣额度,1 个月有效。
三档算清楚:
- 月消费 ≤ 10 元(我落在这档):买 10 元套餐 = 亏 5-7 元
- 月消费 10-20 元:小赚 0-10 元
- 月消费 ≥ 20 元:固定省 10 元
结论:这个套餐是给月消费 20 元以上的中重度用户设计的。普通人买了反而亏。
划重点
- 必做一个动作:百炼控制台打开”免费额度用完即停”
- 我的实际月费 ¥3-5,免费额度趴着小一百元够用至少一年
- 不要买”10 元节省计划”——它不是给你准备的
会员版我试了三天就退了
闪电说客户端本身免费,但它有个 Pro 订阅。买 Pro 后闪电说会给你内置 Key,你不用自己去阿里云注册,开箱即用。
Pro 有三天免费试用。我试了三天就退了。
退的理由不是 Pro 不好,是对我这种愿意折腾 Key 的人,Pro 的付费逻辑不成立。
具体体感(这一段我没截图,只能如实说我的感受):Pro 的默认识别链路和我自配的 qwen3-asr-flash-realtime + qwen3.6-flash 组合没有明显差距。不是说 Pro 差,是我自己配的千问方案已经够好了,Pro 没给我带来”更准/更快/更稳”的明显增量。
付费一个产品的前提是它给我多做了我原本做不到的事。Pro 没做到这件事,对我就不值。
但如果你看到上面四步配置、觉得太折腾——比如你根本不想去阿里云注册、看到”+ 添加模型”就头大——那你应该直接买 Pro。它本质是”替你把 Key 这层抽象掉”的服务,对不想自配 Key 的人,省下的时间远远超过 Pro 的订阅费。
这是两种人的两种最优解,不是”哪个更好”的争论。
我做的选择是:免费客户端 + 自配千问 Key,年成本 < 50 元。
如果要我给你一个判断标准:
- 你对配置过程有耐心、喜欢自己调参 → 走自配 Key 这条路
- 你只想下载就用、不想碰控制台 → 买 Pro
回到开篇那个问题——为什么 PC 上的语音输入这么多年都没起来,为什么偏偏是一个月前?
我的答案是:不是语音识别技术变强了,是**“自带 Key”这种架构刚刚普及**。
二十年键盘党一个月就叛变,不是因为工具突然变好,是因为工具终于愿意把配对权还给用户。
最好用的 AI 语音输入法,是你自己攒的那一台。


📎 信息来源
- 斯坦福大学、华盛顿大学、百度 2018 年联合语音输入研究(中文键盘 43 字/分 vs 语音 123 字/分,纠错率 6.67% vs 17.73%)
- 36 氪、虎嗅、腾讯新闻 2026-01《AI 语音输入法,人类进入”不打字”时代》(真故研究室)
- 搜狗 2026-01 语音输入升级官方通稿
- 智谱 AI 输入法官网(autoglm.zhipuai.cn/autotyper)97.8% 识别率数据
- 秘塔回响官网(https://metasota.ai/)0.5 秒响应与功能定位
- 掘金 2026-04《2026 年开发者语音输入终极指南:12 款工具横评》
- 腾讯云开发者社区《2025 都用了哪些小而美的 AI 工具?- PC 端语音输入法 闪电说》(作者:王知鱼)
- 知乎 @Chris 《闪电说:一款本地 AI 语音输入法》体验文
- 阅读前哨站 readingoutpost.com Wispr Flow 中文使用实测与字数 bug 观察
- 阿里云百炼官方文档(稳定版限流说明、免费额度规则、节省计划规则)