叁笙早安 AI
首页 · 深度文章 · Claude Code 大脑+Gemini 眼睛=更强Agent
AI 工具 ClaudeGemini工作流

Claude Code 大脑+Gemini 眼睛=更强Agent

叁笙 2026-06-09 18 分钟阅读 公众号原文 ↗
Claude Code 大脑+Gemini 眼睛=更强Agent

先问你一句:Claude Code 这种顶配 AI,能不能看懂一段视频?

换我,第一反应也是:这还用问?这可是 Claude Code — 更新勤到几乎一天一个版本,上个月还放出个叫”动态工作流”的重磅功能:你一句话,它就能自己写出调度脚本,一口气派出几十上百个子 AI,分头干活、互相挑刺,最后把核对过的结果交给你。这种”一句话指挥一支 AI 军团”的玩法,眼下在主流工具里基本是独一份。这么能打的东西,看段视频还不是顺手的事?

直到我真把一个装了十几段录屏的文件夹甩给它,说:帮我看看哪几段能用、哪几段拍废了得重录。它回我一句:这是个二进制文件,我读不了。

不是它不想看,是它压根没长这只眼睛。

我有点不甘心,干脆把当下最能打的六个模型摆到一张表上。不比谁聪明、不比跑分 — 只比一件事:谁能直接读图、读 PDF、读视频、听声音,还能派活写代码:

模型读图读 PDF读视频听音频派活·写代码
Claude Code(Opus 4.8)★★★★★★★★★★★★★
Gemini 3.5 Flash★★★★★★★★★★★★★★★★★★★★★★★
GPT-5.5★★★★★★★★★★★★★★
通义千问 3.7★★★★★★★★★★★★★★★★★★★★★
Kimi K2.6★★★★★★★★★★★★★★
MiniMax M3★★★★★★★★★★★

(★ 越多越强,最高 ★★★★★;✘ = 压根不支持。截至 2026 年 6 月,以各家官网为准。)

看出门道了吗?

读图、读 PDF 都是四星打底,派活写代码更是满格的五星 — Claude Code 这一行,确实能打。可一到”读视频”和”听声音”,它和 GPT-5.5 一起,齐刷刷亮了两个叉。

这不是我截图截漏了。官方文档写得明明白白:能喂进去的,只有图片、PDF 和文字三样,连一张会动的 GIF,它都只看第一帧。

更值得琢磨的是这一列叉的分布:西边最强的那两个 — Claude、GPT-5.5 — 都看不了视频;反倒是 Gemini 和几个国产的,天生就能看。一道”能不能看视频”,把这六个顶级模型,劈成了两派。

而我每天用来派活的那个大脑,恰好是看不了的那派里的 Claude。

到这儿,其实摆着两条路。

一条是换掉 Claude,挑个天生会看视频的。可你再看那张表 — “读视频”这一格里,唯一拿到满星的是 Gemini 3.5 Flash;国产几个虽然也能看,但都还差着一档。

另一条路,是我最后选的:谁也不换。让 Claude 继续干它最擅长的派活、判断、调度;看画面这件它干不了的事,外包给那只满星的眼睛 — Gemini。

说白了,不是把 Claude 换成一个更强的,而是给这个强者,配一个同样强的搭子。两边各补所长,拼成一个更能打的 Agent。

想法不复杂。我照着把它搭了出来。

先别急着听原理。我把那个装了十几段录屏的文件夹,原样又甩了一次。这回它没再说”读不了”,而是几分钟后,递给我一张表:

Claude Code 调用 sandy-gemini-video 批量验收一整个录屏文件夹:逐段打分、判定能用还是重录、列出问题,汇成一张总表

一个文件夹十几段录屏,哪几段能用、哪几段拍废了得重录,它一段段打了分、列了问题。

这只是它装上眼睛之后能干的事情之一。下面我把这套东西拆开讲:它现在能干什么、为什么这只眼睛得我自己装、这套东西又是怎么设计的。

它现在能干这几件事

装好以后,我用得最多的,是这三件事。

看懂一段视频,到底发生了什么

你丢一段视频给它,它回你一份分镜笔记:几分几秒画面里在干嘛、屏幕上写了什么字、哪儿卡顿黑屏。

Claude Code 给单段录屏生成的带时间戳分镜笔记:每个时间点画面在做什么、屏幕上的文字、哪里黑屏卡顿

我拿它看一段陌生的操作录屏,不用从头熬到尾,扫一眼笔记就知道这段讲什么、卡在哪。

批量验收一整个文件夹

这是头号用例,就是开头那张表。

一个文件夹几十段录屏,它一段段打分、列问题、给”能用还是重录”的建议,最后汇成一张总表。

做视频选素材,过去得我一段段熬。现在它先过一遍,把明显废的挑出来,我只看它拿不准的那几段。

拆别人视频的手法

你给它一条做得好的视频,它能拆:哪个镜头用了什么手法、配乐和卡点怎么踩、节奏怎么走。

Claude Code 逆向拆解一条优质视频的手法:镜头切法、配乐卡点、节奏与签名动作

这一路我接到了另一个专做视频逆向的工具上 — 让它负责看懂”画面和声音是怎么做出来的”,再交给下游去学。

把这三件事摆一块儿,内核其实是同一件:让 Claude 终于能对着画面说话,而不是对着一份字幕瞎蒙

为什么这只眼睛得我自己装

能用现成的,我从不自己造 — 重复折腾一个别人已经做好的东西,没意思。所以”给 Claude 接只眼睛”这念头一冒出来,我第一件事不是写代码,是去翻有没有人已经做好了。

翻完才发现:还真得自己来。

两道坎。一道在 Claude 官方身上,一道在那些现成的轮子上。

第一道:官方短期内不会补上这只眼睛

前面那张表里 Claude”读视频”那个叉,已经说明白了一半 — 它的输入清单里,从一开始就没接”视频”这条进料口。这里再补一刀:短期内它也长不出来。到今天,官方既没把视频列进输入清单,也没给过任何”哪个版本补上”的时间表。

所以等更新这条路,基本可以划掉了。刚才说过我不想换掉 Claude,那就只剩一条:从外面给它接一只眼睛。

全能 AI 能读图、PDF、文本、代码,唯独卡在一个 .mp4

第二道:现成的轮子,没一个长在我的活上

那市面上那些”让 Claude 看视频”的工具呢?我一个个试过来,摊开看是这样:

工具看本地录屏真看画面用最新模型能打分控成本
最火的那个(gemini-mcp-tool)❌ 只读文本/代码
claudetube❌ 只转字幕
youtube 分析类❌ 只认 YT🟡 抽帧瞎猜
某本地视频 MCP❌ 还在用旧模型
我要的✅ 整段看✅ Gemini 3.5 Flash

一行行说。

生态里最火的那个 Gemini 工具,一周好几千号人在用,名字里带 Gemini,很多人以为它能看视频 — 其实它只分析文本和代码库,跟视频半毛钱关系没有。

有个专门让 Claude 看 YouTube 的,叫 claudetube,思路是先把视频下载下来、用语音转录成字幕。问题是它只读字幕,不看画面。我那段录屏有没有黑屏、有没有走错路,字幕里一个字都没有。

还有一类只认 YouTube 链接、靠抽帧凑合的,碰不了你电脑里那段本地录屏。剩下能看本地、也看画面的,要么零到一个星、代码停在去年,要么还在用上一代的 Gemini 2.5。

你发现没有?

把我那几个条件叠到一块儿 — 看本地录屏、真看画面、用最新模型、还得能打分控成本 — 一个都凑不齐。

不是这些工具不好。是没有一个,长在我的活上。

翻遍现成轮子:最火的不看视频、能看的只认 YouTube、能看本地的字幕党 -- 四个条件没一个能同时凑齐

那就只能自己来了。

我没逼它硬看,给它请了个翻译

自己造,第一反应可能是:那得训个模型吧?

不用。

也别急着上土办法。Claude 想”看”视频,不是完全没辙,无非两条邪门路子:一是把声音转成字幕,让它读文字稿;二是从视频里抽几帧出来,当成图片喂给它。这两条我都试过 — 都不行。

转字幕,丢的是画面。录屏哪一秒黑了屏、屏幕上弹了什么字、鼠标点错了哪一步,字幕里一个字都没有;要是这段录屏压根没人说话,字幕直接是空白。

抽帧,丢的是时间。从一段连续操作里抽出几张静止画面,等于把一部电影撕成几张剧照 — 动作怎么连的、卡顿出在哪一秒、转场怎么过的,全没了。更别说你根本不知道该抽哪几帧:抽稀了,关键那一下正好漏过去;抽密了,几十张图一股脑喂进去,token 和钱哗哗地烧。

说到底,字幕和抽帧都是”绕着看”,不是”真看”。想让一段视频被原原本本看懂 — 画面、声音、时间线一个都不少 — 只剩一条路:请一个生来就会看视频的模型。

我换了个思路:Claude 不会看视频,可有的是 AI 天生会看。我不逼 Claude 自己用土办法硬看,我让它去喊一个会看的来。

我喊的是 Gemini — 准确说,是它 2026 年 5 月 19 号刚放出来的 3.5 Flash。这个模型生来就吃视频:画面、声音、时间线,一起进、一起理解,不用谁先帮它抽帧。

我打个比方。

这就像你不懂外语,要去谈一笔跨国生意。你不会逼自己半年啃下一门语言 — 你请个翻译。翻译负责听懂,你负责拍板。谁也没替谁,各干各最擅长的那一段。

还有件赶巧的事:这个”翻译”,我请得几乎不花钱。

前阵子我在 Google Cloud 上领到一笔 300 美金的赠金,正好拿来按次付费地调 Gemini 的 API。算下来,看一段录屏也就几分钱,这 300 块够 Claude 使唤这只眼睛使上好久。Claude 那边的派活本事是现成的,Gemini 这边的视频眼力又几乎白送 — 两边一拼,约等于零成本给 Claude 接了一双眼睛。

落到这套工具上,前面那三件事 — 看懂一段、批量验收、拆手法 — 它都接得住。不管你丢的是本地录屏、下载好的视频,还是一条 YouTube 链接,三种来源归成一种喂法,丢进去都一样。

每一段视频,最后吐出来的不是一段大白话,而是一份结构化的评分,Claude 接着就能拿去做判断。说白了,它管看,Claude 管想。

这轮子是怎么设计的

光能跑还不够。我想说说它是怎么搭起来的 — 因为真正费工夫的,不是接通,是把那些坑一个个填平。

整套东西,我拆成三层。

三层,各管一段

第一层,进料口。本地录屏、下载的视频、YouTube 链接,三种来源,归一成一种喂法。

第二层,那只眼睛。整段视频直接丢给 Gemini,绝不退回去抽帧。 前面算过抽帧的账 — 撕成剧照、丢掉时序 — 这一层就是为了不再走那条回头路:让 Gemini 一次看完整段,而不是几张孤零零的截图。

第三层,派活台。看懂一段、批量验收、拆解手法,三种意图,各走各的路。

Claude 当大脑、Gemini 当眼睛:三层管线把进料口、那只眼睛、派活台串起来

听着顺。真修的时候,坑一个接一个。我挑几个有意思的:

卡在哪怎么回事怎么解的
钥匙不对Google 的 key 有好几种,长得像、用法两样,照主流教程接一次被拒一次绕开官方标准库,自己裸连
文件太大一段高清录屏动不动几十上百兆,直接喂会被拒加一道自动压缩,超了先就地压一道(67 兆实测过)
钥匙会漏网络一抽风报错时,我那把 key 会跟着错误信息漏出去给报错加了道脱敏,把 key 抹掉
体检脚本撒谎开工前检查环境的脚本,在我配置全对的机器上梗着脖子报”没就绪”当场修了假报警

后面这两个坑,最有意思 — 它们不是我自己发现的。

东西造好,我没急着用。我反手又派了一队 AI,去审我自己刚写的这堆代码。

一个会漏密码,一个会撒谎。都是我自己埋的雷,自己没看出来,被另一队 AI 当场抓了包,两个都当天修了。

我越来越觉得,AI 时代真正好用的本事,可能不是把一个 AI 用到极致,是让它们互相搭台、互相挑刺。

真正变的,不是工具,是能力的定义

折腾完这一圈,我最大的收获,其实不是多了个看视频的工具。

是后来想通的一件事。

过去我们怎么判断一个人、一个 AI 强不强?看它单挑的本事,看它一个能不能全干了。

可你发现没有,现在最能打的那批组合,往往不是某一个全能选手,是一堆各有所长的家伙,被人调度到了一块儿。

开头那个”谁也不换、给 Claude 配只眼睛”的选择,不过是这条规律的一个小例子。

这种能力,越来越不像一个人的单打独斗,更像一个班组的分工。你强不强,越来越取决于你会不会调度,而不是你自己会不会。

从单打独斗的全能选手,到班组分工各有所长 -- 强不强看你会不会调度

短板不可怕。我手上这个 AI 有个大短板 — 看不了视频。我没干等它补,也没自己硬上,我给它请了个外援。这事儿,你也能做。

所以我把这套东西,开源了。

谁要是也想给自己的 Claude 装一双能看视频的眼睛,拿去用:

代码我清干净了,照着说明配上自己的 key 就能跑。

你手上那个 AI,有没有哪个短板,一直让你别扭?

也许它缺的,不是更强。是一个搭子。

← 返回深度文章