Claude Code 大脑+Gemini 眼睛=更强Agent

先问你一句:Claude Code 这种顶配 AI,能不能看懂一段视频?
换我,第一反应也是:这还用问?这可是 Claude Code — 更新勤到几乎一天一个版本,上个月还放出个叫”动态工作流”的重磅功能:你一句话,它就能自己写出调度脚本,一口气派出几十上百个子 AI,分头干活、互相挑刺,最后把核对过的结果交给你。这种”一句话指挥一支 AI 军团”的玩法,眼下在主流工具里基本是独一份。这么能打的东西,看段视频还不是顺手的事?
直到我真把一个装了十几段录屏的文件夹甩给它,说:帮我看看哪几段能用、哪几段拍废了得重录。它回我一句:这是个二进制文件,我读不了。
不是它不想看,是它压根没长这只眼睛。
我有点不甘心,干脆把当下最能打的六个模型摆到一张表上。不比谁聪明、不比跑分 — 只比一件事:谁能直接读图、读 PDF、读视频、听声音,还能派活写代码:
| 模型 | 读图 | 读 PDF | 读视频 | 听音频 | 派活·写代码 |
|---|---|---|---|---|---|
| Claude Code(Opus 4.8) | ★★★★ | ★★★★ | ✘ | ✘ | ★★★★★ |
| Gemini 3.5 Flash | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★ | ★★★★ |
| GPT-5.5 | ★★★★★ | ★★★★ | ✘ | ✘ | ★★★★★ |
| 通义千问 3.7 | ★★★★★ | ★★★★ | ★★★★ | ★★★ | ★★★★★ |
| Kimi K2.6 | ★★★★ | ★★★ | ★★★ | ✘ | ★★★★ |
| MiniMax M3 | ★★★★ | ✘ | ★★★ | ✘ | ★★★★ |
(★ 越多越强,最高 ★★★★★;✘ = 压根不支持。截至 2026 年 6 月,以各家官网为准。)
看出门道了吗?
读图、读 PDF 都是四星打底,派活写代码更是满格的五星 — Claude Code 这一行,确实能打。可一到”读视频”和”听声音”,它和 GPT-5.5 一起,齐刷刷亮了两个叉。
这不是我截图截漏了。官方文档写得明明白白:能喂进去的,只有图片、PDF 和文字三样,连一张会动的 GIF,它都只看第一帧。
更值得琢磨的是这一列叉的分布:西边最强的那两个 — Claude、GPT-5.5 — 都看不了视频;反倒是 Gemini 和几个国产的,天生就能看。一道”能不能看视频”,把这六个顶级模型,劈成了两派。
而我每天用来派活的那个大脑,恰好是看不了的那派里的 Claude。
到这儿,其实摆着两条路。
一条是换掉 Claude,挑个天生会看视频的。可你再看那张表 — “读视频”这一格里,唯一拿到满星的是 Gemini 3.5 Flash;国产几个虽然也能看,但都还差着一档。
另一条路,是我最后选的:谁也不换。让 Claude 继续干它最擅长的派活、判断、调度;看画面这件它干不了的事,外包给那只满星的眼睛 — Gemini。
说白了,不是把 Claude 换成一个更强的,而是给这个强者,配一个同样强的搭子。两边各补所长,拼成一个更能打的 Agent。
想法不复杂。我照着把它搭了出来。
先别急着听原理。我把那个装了十几段录屏的文件夹,原样又甩了一次。这回它没再说”读不了”,而是几分钟后,递给我一张表:

一个文件夹十几段录屏,哪几段能用、哪几段拍废了得重录,它一段段打了分、列了问题。
这只是它装上眼睛之后能干的事情之一。下面我把这套东西拆开讲:它现在能干什么、为什么这只眼睛得我自己装、这套东西又是怎么设计的。
它现在能干这几件事
装好以后,我用得最多的,是这三件事。
看懂一段视频,到底发生了什么
你丢一段视频给它,它回你一份分镜笔记:几分几秒画面里在干嘛、屏幕上写了什么字、哪儿卡顿黑屏。

我拿它看一段陌生的操作录屏,不用从头熬到尾,扫一眼笔记就知道这段讲什么、卡在哪。
批量验收一整个文件夹
这是头号用例,就是开头那张表。
一个文件夹几十段录屏,它一段段打分、列问题、给”能用还是重录”的建议,最后汇成一张总表。
做视频选素材,过去得我一段段熬。现在它先过一遍,把明显废的挑出来,我只看它拿不准的那几段。
拆别人视频的手法
你给它一条做得好的视频,它能拆:哪个镜头用了什么手法、配乐和卡点怎么踩、节奏怎么走。

这一路我接到了另一个专做视频逆向的工具上 — 让它负责看懂”画面和声音是怎么做出来的”,再交给下游去学。
把这三件事摆一块儿,内核其实是同一件:让 Claude 终于能对着画面说话,而不是对着一份字幕瞎蒙。
为什么这只眼睛得我自己装
能用现成的,我从不自己造 — 重复折腾一个别人已经做好的东西,没意思。所以”给 Claude 接只眼睛”这念头一冒出来,我第一件事不是写代码,是去翻有没有人已经做好了。
翻完才发现:还真得自己来。
两道坎。一道在 Claude 官方身上,一道在那些现成的轮子上。
第一道:官方短期内不会补上这只眼睛
前面那张表里 Claude”读视频”那个叉,已经说明白了一半 — 它的输入清单里,从一开始就没接”视频”这条进料口。这里再补一刀:短期内它也长不出来。到今天,官方既没把视频列进输入清单,也没给过任何”哪个版本补上”的时间表。
所以等更新这条路,基本可以划掉了。刚才说过我不想换掉 Claude,那就只剩一条:从外面给它接一只眼睛。

第二道:现成的轮子,没一个长在我的活上
那市面上那些”让 Claude 看视频”的工具呢?我一个个试过来,摊开看是这样:
| 工具 | 看本地录屏 | 真看画面 | 用最新模型 | 能打分控成本 |
|---|---|---|---|---|
| 最火的那个(gemini-mcp-tool) | — | ❌ 只读文本/代码 | — | — |
| claudetube | ✅ | ❌ 只转字幕 | — | — |
| youtube 分析类 | ❌ 只认 YT | 🟡 抽帧瞎猜 | — | — |
| 某本地视频 MCP | ✅ | ✅ | ❌ 还在用旧模型 | — |
| 我要的 | ✅ | ✅ 整段看 | ✅ Gemini 3.5 Flash | ✅ |
一行行说。
生态里最火的那个 Gemini 工具,一周好几千号人在用,名字里带 Gemini,很多人以为它能看视频 — 其实它只分析文本和代码库,跟视频半毛钱关系没有。
有个专门让 Claude 看 YouTube 的,叫 claudetube,思路是先把视频下载下来、用语音转录成字幕。问题是它只读字幕,不看画面。我那段录屏有没有黑屏、有没有走错路,字幕里一个字都没有。
还有一类只认 YouTube 链接、靠抽帧凑合的,碰不了你电脑里那段本地录屏。剩下能看本地、也看画面的,要么零到一个星、代码停在去年,要么还在用上一代的 Gemini 2.5。
你发现没有?
把我那几个条件叠到一块儿 — 看本地录屏、真看画面、用最新模型、还得能打分控成本 — 一个都凑不齐。
不是这些工具不好。是没有一个,长在我的活上。

那就只能自己来了。
我没逼它硬看,给它请了个翻译
自己造,第一反应可能是:那得训个模型吧?
不用。
也别急着上土办法。Claude 想”看”视频,不是完全没辙,无非两条邪门路子:一是把声音转成字幕,让它读文字稿;二是从视频里抽几帧出来,当成图片喂给它。这两条我都试过 — 都不行。
转字幕,丢的是画面。录屏哪一秒黑了屏、屏幕上弹了什么字、鼠标点错了哪一步,字幕里一个字都没有;要是这段录屏压根没人说话,字幕直接是空白。
抽帧,丢的是时间。从一段连续操作里抽出几张静止画面,等于把一部电影撕成几张剧照 — 动作怎么连的、卡顿出在哪一秒、转场怎么过的,全没了。更别说你根本不知道该抽哪几帧:抽稀了,关键那一下正好漏过去;抽密了,几十张图一股脑喂进去,token 和钱哗哗地烧。
说到底,字幕和抽帧都是”绕着看”,不是”真看”。想让一段视频被原原本本看懂 — 画面、声音、时间线一个都不少 — 只剩一条路:请一个生来就会看视频的模型。
我换了个思路:Claude 不会看视频,可有的是 AI 天生会看。我不逼 Claude 自己用土办法硬看,我让它去喊一个会看的来。
我喊的是 Gemini — 准确说,是它 2026 年 5 月 19 号刚放出来的 3.5 Flash。这个模型生来就吃视频:画面、声音、时间线,一起进、一起理解,不用谁先帮它抽帧。
我打个比方。
这就像你不懂外语,要去谈一笔跨国生意。你不会逼自己半年啃下一门语言 — 你请个翻译。翻译负责听懂,你负责拍板。谁也没替谁,各干各最擅长的那一段。
还有件赶巧的事:这个”翻译”,我请得几乎不花钱。
前阵子我在 Google Cloud 上领到一笔 300 美金的赠金,正好拿来按次付费地调 Gemini 的 API。算下来,看一段录屏也就几分钱,这 300 块够 Claude 使唤这只眼睛使上好久。Claude 那边的派活本事是现成的,Gemini 这边的视频眼力又几乎白送 — 两边一拼,约等于零成本给 Claude 接了一双眼睛。
落到这套工具上,前面那三件事 — 看懂一段、批量验收、拆手法 — 它都接得住。不管你丢的是本地录屏、下载好的视频,还是一条 YouTube 链接,三种来源归成一种喂法,丢进去都一样。
每一段视频,最后吐出来的不是一段大白话,而是一份结构化的评分,Claude 接着就能拿去做判断。说白了,它管看,Claude 管想。
这轮子是怎么设计的
光能跑还不够。我想说说它是怎么搭起来的 — 因为真正费工夫的,不是接通,是把那些坑一个个填平。
整套东西,我拆成三层。
三层,各管一段
第一层,进料口。本地录屏、下载的视频、YouTube 链接,三种来源,归一成一种喂法。
第二层,那只眼睛。整段视频直接丢给 Gemini,绝不退回去抽帧。 前面算过抽帧的账 — 撕成剧照、丢掉时序 — 这一层就是为了不再走那条回头路:让 Gemini 一次看完整段,而不是几张孤零零的截图。
第三层,派活台。看懂一段、批量验收、拆解手法,三种意图,各走各的路。

听着顺。真修的时候,坑一个接一个。我挑几个有意思的:
| 卡在哪 | 怎么回事 | 怎么解的 |
|---|---|---|
| 钥匙不对 | Google 的 key 有好几种,长得像、用法两样,照主流教程接一次被拒一次 | 绕开官方标准库,自己裸连 |
| 文件太大 | 一段高清录屏动不动几十上百兆,直接喂会被拒 | 加一道自动压缩,超了先就地压一道(67 兆实测过) |
| 钥匙会漏 | 网络一抽风报错时,我那把 key 会跟着错误信息漏出去 | 给报错加了道脱敏,把 key 抹掉 |
| 体检脚本撒谎 | 开工前检查环境的脚本,在我配置全对的机器上梗着脖子报”没就绪” | 当场修了假报警 |
后面这两个坑,最有意思 — 它们不是我自己发现的。
东西造好,我没急着用。我反手又派了一队 AI,去审我自己刚写的这堆代码。
一个会漏密码,一个会撒谎。都是我自己埋的雷,自己没看出来,被另一队 AI 当场抓了包,两个都当天修了。
我越来越觉得,AI 时代真正好用的本事,可能不是把一个 AI 用到极致,是让它们互相搭台、互相挑刺。
真正变的,不是工具,是能力的定义
折腾完这一圈,我最大的收获,其实不是多了个看视频的工具。
是后来想通的一件事。
过去我们怎么判断一个人、一个 AI 强不强?看它单挑的本事,看它一个能不能全干了。
可你发现没有,现在最能打的那批组合,往往不是某一个全能选手,是一堆各有所长的家伙,被人调度到了一块儿。
开头那个”谁也不换、给 Claude 配只眼睛”的选择,不过是这条规律的一个小例子。
这种能力,越来越不像一个人的单打独斗,更像一个班组的分工。你强不强,越来越取决于你会不会调度,而不是你自己会不会。

短板不可怕。我手上这个 AI 有个大短板 — 看不了视频。我没干等它补,也没自己硬上,我给它请了个外援。这事儿,你也能做。
所以我把这套东西,开源了。
谁要是也想给自己的 Claude 装一双能看视频的眼睛,拿去用:
- GitHub:https://github.com/sandypoli-boop/claude-gemini-video
- 网盘(国内下载更快):https://share.weiyun.com/Wqpo42Kd
代码我清干净了,照着说明配上自己的 key 就能跑。
你手上那个 AI,有没有哪个短板,一直让你别扭?
也许它缺的,不是更强。是一个搭子。