首页 · 深度文章 · 用「对」「语音输入法」提效 20%

教程语音输入效率工具

用「对」「语音输入法」提效 20%

叁笙 2026-04-23 28 分钟阅读公众号原文 ↗

🎵 本文主题曲 · 桌面的光

0:00

导读： 我在 PC 上打了二十年字，从五笔到双拼，键盘是我最熟的工具。一个月前，我换掉了微信输入法。现在写这篇稿子的初稿，是我对着麦克风说出来的。整个过程我比较了 win+H、智谱、秘塔回响、Typeless、闪电说，最后停在闪电说 + 阿里云千问的组合上——每月实花 3-5 元。这篇把我的筛选逻辑、配置步骤、每月账本、避坑清单全交出来，希望也能帮你提效20%。

用「对」「语音输入法」提效 20%

我是个打字的老兵。

从五笔到搜狗拼音，再到现在微信输入法，从薄膜键盘换到青轴再换到矮轴红轴，这二十年里，键盘是我最熟的工具。

但这两年我慢慢意识到一件事：和 AI 打交道，键盘是个瓶颈。 你说一句话 AI 两秒就理解完了，你却要花三十秒敲完键盘。这不是交流，是隔着玻璃比手语。

一个月前我开始用 AI 语音输入法，用了一周就把手从键盘上拿下来。我自己都有点惊讶。

现在你看到的这篇稿子的初稿，就是我对着麦克风说出来的。 口述到自动分段整理完，用时5分钟。我手动加标点和润色用了十几分钟。以前同样一篇三千字初稿，光敲键盘我就得 30 分钟起步。

这是我自诩老键盘党之后，第一次被一个”输入”类工具彻底拿下。

但你可能听过各种数字，比如 2018 年斯坦福那篇著名论文：中文语音输入每分钟 123 字，键盘只有 43 字，速度是键盘的 3 倍。再比如 2026 年初搜狗官宣自家日均语音 20 亿次、识别率 98%（数据来自搜狗 2026-01 官方通稿与 36 氪相关报道）。

我比他们保守得多，日常综合提效大约 20%——因为写文章不只是打字，还有查资料、排版、改稿，语音只解决其中一部分。但就是这 20%，改变了我一整天的工作状态。

所以问题来了：语音输入这么猛，为什么我拖了一个月才换？更大的问题是，为什么 PC 上的语音输入，这么多年都没起来？

这篇文章，是我给自己答的一份题。

为什么 PC 上的语音输入，十年都差一口气

你有没有发现一个怪现象：手机上的语音输入已经熟得不能再熟，但 PC 上一直像个半成品。

我自己的手机是微信输入法。它最大的亮点是跨端粘贴——你在手机上复制一段话，两秒内 PC 微信就能粘过去。这个功能用过就回不去。但微信输入法电脑端不支持语音输入，我在 PC 上一直只能打字。

这就是我多年来的工作日常：手机上对着说，PC 上对着敲。两条工作流，两种速度，两个世界。

不是我一个人的问题。搜狗、百度、讯飞这些老牌输入法厂商，精力全在手机端。为什么？因为手机端语音是刚需，PC 端用户被默认成”会打字的人”。

那微软不是有 Win+H 吗？

我试过。这是我踩的第一个坑。

Win+H 是 Windows 自带的语音听写。英文场景下够用，但对中国大陆用户非常不友好。你去 Microsoft 官方问答社区搜”win+h 无法使用”，能翻出从 2021 年到现在的一长串投诉：界面能打开，loading 圈一直转，就是不识别。或者识别出来的是驴唇不对马嘴的音译。原因不复杂——它依赖微软在线语音服务，服务器在境外，对国内网络环境极不稳定。

顺着这条线我又试了智谱 AI 输入法、秘塔回响、Typeless。每一款都各有亮点，但每一款都让我觉得”差一口气”。差的到底是哪一口气，我花了大概两周才想明白。

划重点

手机端语音输入早就成熟，但 PC 端被大厂当成二线战场

微信输入法 PC 端不给语音，Win+H 在国内网络下不稳定

PC 用户这十年等的，是一个”把 AI 真正搬到桌面”的产品

五款试下来，国外输在延时，国内输在架构

我把过去一个月试过的产品列一下，顺序按时间。

1. Win+H：先出局

前面说过，国内网络下跑不起来，pass。

2. 智谱 AI 输入法（小凹 / AutoGLM）

这是最接近我最终选择的候选人之一。官方宣称 97.8% 识别率，支持”翻译、总结、扩写、排版、代码解释、正则生成”等一整套小凹指令，还有”面向老板/面向伴侣/面向同事”的人设切换——产品力真的不错。

但用了一阵子后，我碰到了同一个问题：底层模型是锁死的。我写代码注释时想换成代码更强的模型，换不了。我写公众号时想用响应更快的小模型，也换不了。你只能用它给你的那一套。

3. 秘塔回响

秘塔这家公司我挺欣赏的，主力产品是 AI 搜索，回响是他们的语音产品。官网主打 “0.5 秒内把你说的话变成清晰、可用的文字”，还能实时整理成可发送的邮件和文档，顺带翻译。

响应速度确实快，整理效果也不错。但它的定位更像语音笔记和消息整理助手，不是日常全局输入法。你得打开它的界面说话，再复制出去。这个”打开→说→复制”的动作链，虽然只有几秒，但对习惯了快捷键全局唤起的老用户，每次都是一次心流中断。

4. Wispr Flow

这是海外最热的那款，融资 8100 万美元估值 7 亿美金（数据来自 36 氪 2026-01 报道）。UI 漂亮、跨平台齐全、上下文感知——听起来很美。

但我试用了一周就退了，三个原因叠在一起。

第一，延时墙。 掘金 2026-04 那篇《12 款语音输入工具横评》和腾讯云开发者社区的对比文都点名：Wispr Flow 官方延时 500-700ms，海外 LLM 时延”非常明显”。语音输入对延时极度敏感——每多等半秒，流畅感就碎一次。

第二，中文是”部分支持”。 一位台湾博主在 readingoutpost 的实测文里发现，Wispr Flow 对中文字数的计算有 bug：你说一万多个中文字，后台只算两百多字。这个 bug 变相让中文用户享受”无限免费额度”，也从侧面说明它的中文处理路径不是主流。纯中文场景下，它的准确率在几款横评里都不是最靠前的。

第三，Reddit 2026-02 出现了一波”Wispr Flow 信任危机”贴，用户集中反映免费试用期结束后识别质量下降（这条我不是亲历，是转述我看到的英文讨论，供你参考）。

加起来，12 美元/月换一个延时高、中文弱、口碑起波动的产品，对我不值。

5. Typeless

Typeless 官网：说话，不要打字

华人团队做的，中英混输在同类里靠前。它官网那句”说话，不要打字”很戳——给出的对比数据是 QWERTY 键盘 45 wpm vs Typeless 语音键盘 220 wpm，节省 1 天/周。真故研究室那篇被虎嗅和腾讯新闻转载的《AI 语音输入法，人类进入”不打字”时代》就是用它完成的，用时 53 分钟写了 5500 字初稿。

但 Typeless 仍然是纯云端路径 + 订阅制。和 Wispr Flow 是同一类方案，核心短板不在产品力，在架构——你的音频要上传到他们的服务器。我对这件事有点不舒服。

6. 闪电说

留下来的那个。下一节专门讲为什么是它。

我先把这 6 款做一张横评给你。

工具	响应延时	音频是否上云	中文准确率	必须联网	价格	自带 API Key
Win+H	中（国内不稳）	✅ 上云	一般	✅	免费	❌
智谱 AI 输入法	中	✅ 上云	97.8% 官宣	✅	订阅	❌
秘塔回响	0.5 秒	✅ 上云	高	✅	免费	❌
Wispr Flow	500-700ms	✅ 上云	部分支持	✅	$15/月	❌
Typeless	中	✅ 上云	较高	✅	$12/月	❌
闪电说	<300ms	❌ 本地 ASR	跟随模型	部分（ASR 离线）	客户端免费	✅

而闪电说做的事只有一件：把”底层模型谁来当”这个选择权还给了用户。

国外那条路输在延时墙和订阅费，还有中文不是原生优化。国内那条路前几款都好用，但共同的天花板是——底层大模型被产品锁死了，你没得选。

闪电说把这层天花板拆了。

划重点

国外软件的共同短板：延时、订阅费、中文支持不是一线

国内前几款的共同天花板：底层模型锁死，你不能换

真正的差异点在”架构”层面，不在”识别率”这个参数上

我为什么最后停在了闪电说

我点进闪电说模型页的那一刻，意识到它和前面五款都不是一回事。

一般的语音输入法给你的是成品：你交钱，它出文字，结束。

闪电说给你的是零件+组装说明。

说白了，它就像是你自己攒一台电脑——主板、CPU、显卡、内存、硬盘，闪电说只提供机箱（UI）和接线规则（交互），底层的 CPU（大模型）和显卡（语音识别）是你自己去各大服务商那儿挑的。阿里云、火山引擎、DeepSeek、Kimi，你喜欢谁就装谁。

这个架构决定了三件事。

一、数据我管

闪电说的语音识别是本地 ASR 优先——它下载一个约 1G 的本地模型常驻内存，你的音频文件留在你自己电脑里，不上传到云端。

知乎上那篇阅读量不错的体验文（作者 Chris）里有一句我觉得写得很准：“它的响应速度快得有点离谱”——原因就是不走云端。延时的物理下限就是你到服务器来回的网络时间，闪电说直接跳过了这一段。

代价是什么？占 1G 内存。对老电脑不太友好。但对我这台 32G 内存的笔记本，完全无感。

二、模型我选

这是闪电说最关键的设计。

它把模型分成两类：语音识别（ASR）服务商 和 大模型（LLM）服务商。两类各自独立配置，走不同的 API 协议。

翻译成人话：你说话这一步，和 AI 帮你润色那一步，是分开的。 你可以 ASR 用阿里云，LLM 用 DeepSeek；也可以两个都用阿里云；也可以都换成火山。

这种”零件自选”的架构，让闪电说不会被任何一家厂商绑架。阿里明天发个更强的 ASR 模型，你一键换过去就行，不用等闪电说客户端升级。

三、成本我控

Wispr Flow 要你每月付 12-15 美元。Typeless 一年 144 美元。

闪电说的账单怎么算？取决于你配的 Key 后面的那家服务商。

我用的是阿里云百炼。后面会详说，直接剧透结论：每月实花 3-5 元。

隐藏大招：语音 × 技能

光是输入法，闪电说已经够用。但它还有第二重身份：语音助手。

短按快捷键 → 语音输入（按一下开始说，按一下结束，轻量 LLM 帮你润色）。长按快捷键 → 语音助手（按住说，松开结束，更强的 LLM 帮你执行复杂操作）。

比如你在微信里收到老板一条消息，你按住快捷键说”帮我回复，说下周一之前给”，它读屏理解上下文，自动生成一条得体的回复填进去。

这不再是输入法了，这是一个坐在你电脑里的助理。

配置一次，用一年：阿里云 + 千问白嫖清单

讲完为什么选它，讲怎么配。整个过程 5 分钟。

第一步：注册阿里云百炼

去 bailian.console.aliyun.com，支付宝或淘宝账号直接登录，创建 API Key。

这一步没什么坑，走完流程你会拿到一串 sk-xxx 格式的字符串，复制保存。

第二步：配置”大模型服务商 → 通义千问”

打开闪电说 → 模型 → 往下拉到「大模型服务商」→ 点「通义千问」卡片 → 粘贴刚才的 Key。

API 地址填 https://dashscope.aliyuncs.com/compatible-mode/v1（官方 OpenAI 兼容入口）。

然后在模型列表里选两个默认：

语音输入大模型：qwen3.6-flash（快，1M token 免费额度）
语音助手大模型：qwen3.6-plus（稍慢但更聪明，处理复杂任务）

如果你在列表里没看到 qwen3.6-flash，点右上角”+ 添加模型”，把模型 ID 粘进去。阿里的模型名经常更新，直接去它百炼文档查最新的 latest 版。

第三步：配置”语音识别服务商 → 阿里云”

这一步和第二步容易混。闪电说把两条通道分开了，阿里云的配置卡片在”语音识别服务商”那一栏，不是”大模型服务商”里那个通义千问。

粘上同一个 Key（用同一个账号），模型选 qwen3-asr-flash-realtime（工业级实时语音识别）。

配完。整套流程结束。

两个反向决策：为什么不升级到更强的模型

第一个：“要不要把 LLM 换成 qwen3.6-max？”

答案是不要。四个理由：

它目前还是 -preview 状态，行为不稳定
语音助手是延时敏感场景。max 参数量更大，首 token 延迟明显慢于 plus，说完话再等 2-3 秒，体验就崩了
plus 对润色/问答/格式化已经够用，max 的质量甜区在长文、代码、复杂推理——不是这个场景
max 每次 token 消耗是 plus 的 2-3 倍，免费额度也更容易吃完

一句话总结：语音助手场景，max 不是更好，是更慢。

第二个：“要不要把 ASR 切到某个带日期的快照版，比如 qwen3-asr-flash-realtime-2026-02-10？”

答案也是不要。

最初我以为切快照版能省钱，查了一圈发现不是这么回事。阿里云百炼的规则是：每个模型 Code（不管是 latest 版还是某个日期快照）都有自己独立的免费额度。切快照并不额外赚免费额度。

而官方文档白纸黑字写着一句话：“建议优先使用稳定版或最新版，限流条件更宽松”。

所以结论是：稳定版不是”旧版”，是官方在推的最新版。限流还宽。

唯一必做的五秒动作

如果你只记住这篇文章的一件事，记这件事。

打开百炼控制台 → 左侧「模型用量」→「免费额度」tab → 找到你在用的那个模型 → 右侧有个灰色拨钮 —— 打开它。

阿里云百炼控制台：免费额度用完即停开关

效果是什么？

当你的免费额度用完时，阿里云会自动停服（返回 403 AllocationQuota.FreeTierOnly），永远不会悄悄从你账户扣费。

三个模型都要开：

qwen3.6-flash
qwen3.6-plus
qwen3-asr-flash-realtime

这是个防付费陷阱的保险丝。做一次，终身受益。

顺便算一下账

为了让你对成本有概念，我把我实际一周的用量线性外推了一下（6 小时采样，按日均 30 次 ASR / 30 次 flash / 4 次 plus 估算）。

我把市面主流方案在相同用量下的月费做成了一张横评——27 倍差距，不是小数：

同样的用量，月费差了 27 倍

换到我的账本里拆开看：

项目	日用量	月用量	月费（假设零免费额度）
ASR 音频时长	5-7 分钟	150-200 分钟	¥2-3
flash token	~9K	~27 万	¥0.3
plus token	~2.8K	~8 万	¥0.2-0.3
合计			¥3-5 / 月

而账户里趴着的免费额度——按阿里云公开规则，ASR 每模型 36000 秒（约 10 小时）× 6 个模型 ≈ 60 小时，按当前单价折算价值近 50 元；文本 LLM qwen3.6-flash 与 qwen3.6-plus 两条线各含 latest 和历史快照，每个模型 1M token 免费额度，价值又是几十元。

加起来接近一百元的免费额度，按我这个用量够用至少一年。

有没有 Pro 用户会问”要不要买阿里云推的’入门型 AI 通用节省计划’”？——10 元送 20 元抵扣额度，1 个月有效。

三档算清楚：

月消费 ≤ 10 元（我落在这档）：买 10 元套餐 = 亏 5-7 元
月消费 10-20 元：小赚 0-10 元
月消费 ≥ 20 元：固定省 10 元

结论：这个套餐是给月消费 20 元以上的中重度用户设计的。普通人买了反而亏。

划重点

必做一个动作：百炼控制台打开”免费额度用完即停”

我的实际月费 ¥3-5，免费额度趴着小一百元够用至少一年

不要买”10 元节省计划”——它不是给你准备的

会员版我试了三天就退了

闪电说客户端本身免费，但它有个 Pro 订阅。买 Pro 后闪电说会给你内置 Key，你不用自己去阿里云注册，开箱即用。

Pro 有三天免费试用。我试了三天就退了。

退的理由不是 Pro 不好，是对我这种愿意折腾 Key 的人，Pro 的付费逻辑不成立。

具体体感（这一段我没截图，只能如实说我的感受）：Pro 的默认识别链路和我自配的 qwen3-asr-flash-realtime + qwen3.6-flash 组合没有明显差距。不是说 Pro 差，是我自己配的千问方案已经够好了，Pro 没给我带来”更准/更快/更稳”的明显增量。

付费一个产品的前提是它给我多做了我原本做不到的事。Pro 没做到这件事，对我就不值。

但如果你看到上面四步配置、觉得太折腾——比如你根本不想去阿里云注册、看到”+ 添加模型”就头大——那你应该直接买 Pro。它本质是”替你把 Key 这层抽象掉”的服务，对不想自配 Key 的人，省下的时间远远超过 Pro 的订阅费。

这是两种人的两种最优解，不是”哪个更好”的争论。

我做的选择是：免费客户端 + 自配千问 Key，年成本 < 50 元。

如果要我给你一个判断标准：

你对配置过程有耐心、喜欢自己调参 → 走自配 Key 这条路
你只想下载就用、不想碰控制台 → 买 Pro

回到开篇那个问题——为什么 PC 上的语音输入这么多年都没起来，为什么偏偏是一个月前？

我的答案是：不是语音识别技术变强了，是**“自带 Key”这种架构刚刚普及**。

二十年键盘党一个月就叛变，不是因为工具突然变好，是因为工具终于愿意把配对权还给用户。

最好用的 AI 语音输入法，是你自己攒的那一台。

闪电说「自带 Key」架构对比：成品 vs 零件组装

6 款 PC 端 AI 语音输入法决策矩阵

📎 信息来源

斯坦福大学、华盛顿大学、百度 2018 年联合语音输入研究（中文键盘 43 字/分 vs 语音 123 字/分，纠错率 6.67% vs 17.73%）
36 氪、虎嗅、腾讯新闻 2026-01《AI 语音输入法，人类进入”不打字”时代》（真故研究室）
搜狗 2026-01 语音输入升级官方通稿
智谱 AI 输入法官网（autoglm.zhipuai.cn/autotyper）97.8% 识别率数据
秘塔回响官网（https://metasota.ai/）0.5 秒响应与功能定位
掘金 2026-04《2026 年开发者语音输入终极指南：12 款工具横评》
腾讯云开发者社区《2025 都用了哪些小而美的 AI 工具？- PC 端语音输入法闪电说》（作者：王知鱼）
知乎 @Chris 《闪电说：一款本地 AI 语音输入法》体验文
阅读前哨站 readingoutpost.com Wispr Flow 中文使用实测与字数 bug 观察
阿里云百炼官方文档（稳定版限流说明、免费额度规则、节省计划规则）