首页 · 深度文章 · Claude Code 大脑+Gemini 眼睛=更强Agent

AI 工具 ClaudeGemini工作流

Claude Code 大脑+Gemini 眼睛=更强Agent

叁笙 2026-06-09 18 分钟阅读公众号原文 ↗

先问你一句：Claude Code 这种顶配 AI，能不能看懂一段视频？

换我，第一反应也是：这还用问？这可是 Claude Code — 更新勤到几乎一天一个版本，上个月还放出个叫”动态工作流”的重磅功能：你一句话，它就能自己写出调度脚本，一口气派出几十上百个子 AI，分头干活、互相挑刺，最后把核对过的结果交给你。这种”一句话指挥一支 AI 军团”的玩法，眼下在主流工具里基本是独一份。这么能打的东西，看段视频还不是顺手的事？

直到我真把一个装了十几段录屏的文件夹甩给它，说：帮我看看哪几段能用、哪几段拍废了得重录。它回我一句：这是个二进制文件，我读不了。

不是它不想看，是它压根没长这只眼睛。

我有点不甘心，干脆把当下最能打的六个模型摆到一张表上。不比谁聪明、不比跑分 — 只比一件事：谁能直接读图、读 PDF、读视频、听声音，还能派活写代码：

模型	读图	读 PDF	读视频	听音频	派活·写代码
Claude Code（Opus 4.8）	★★★★	★★★★	✘	✘	★★★★★
Gemini 3.5 Flash	★★★★★	★★★★★	★★★★★	★★★★	★★★★
GPT-5.5	★★★★★	★★★★	✘	✘	★★★★★
通义千问 3.7	★★★★★	★★★★	★★★★	★★★	★★★★★
Kimi K2.6	★★★★	★★★	★★★	✘	★★★★
MiniMax M3	★★★★	✘	★★★	✘	★★★★

（★ 越多越强，最高 ★★★★★；✘ = 压根不支持。截至 2026 年 6 月，以各家官网为准。）

看出门道了吗？

读图、读 PDF 都是四星打底，派活写代码更是满格的五星 — Claude Code 这一行，确实能打。可一到”读视频”和”听声音”，它和 GPT-5.5 一起，齐刷刷亮了两个叉。

这不是我截图截漏了。官方文档写得明明白白：能喂进去的，只有图片、PDF 和文字三样，连一张会动的 GIF，它都只看第一帧。

更值得琢磨的是这一列叉的分布：西边最强的那两个 — Claude、GPT-5.5 — 都看不了视频；反倒是 Gemini 和几个国产的，天生就能看。一道”能不能看视频”，把这六个顶级模型，劈成了两派。

而我每天用来派活的那个大脑，恰好是看不了的那派里的 Claude。

到这儿，其实摆着两条路。

一条是换掉 Claude，挑个天生会看视频的。可你再看那张表 — “读视频”这一格里，唯一拿到满星的是 Gemini 3.5 Flash；国产几个虽然也能看，但都还差着一档。

另一条路，是我最后选的：谁也不换。让 Claude 继续干它最擅长的派活、判断、调度；看画面这件它干不了的事，外包给那只满星的眼睛 — Gemini。

说白了，不是把 Claude 换成一个更强的，而是给这个强者，配一个同样强的搭子。两边各补所长，拼成一个更能打的 Agent。

想法不复杂。我照着把它搭了出来。

先别急着听原理。我把那个装了十几段录屏的文件夹，原样又甩了一次。这回它没再说”读不了”，而是几分钟后，递给我一张表：

Claude Code 调用 sandy-gemini-video 批量验收一整个录屏文件夹：逐段打分、判定能用还是重录、列出问题，汇成一张总表

一个文件夹十几段录屏，哪几段能用、哪几段拍废了得重录，它一段段打了分、列了问题。

这只是它装上眼睛之后能干的事情之一。下面我把这套东西拆开讲：它现在能干什么、为什么这只眼睛得我自己装、这套东西又是怎么设计的。

它现在能干这几件事

装好以后，我用得最多的，是这三件事。

看懂一段视频，到底发生了什么

你丢一段视频给它，它回你一份分镜笔记：几分几秒画面里在干嘛、屏幕上写了什么字、哪儿卡顿黑屏。

Claude Code 给单段录屏生成的带时间戳分镜笔记：每个时间点画面在做什么、屏幕上的文字、哪里黑屏卡顿

我拿它看一段陌生的操作录屏，不用从头熬到尾，扫一眼笔记就知道这段讲什么、卡在哪。

批量验收一整个文件夹

这是头号用例，就是开头那张表。

一个文件夹几十段录屏，它一段段打分、列问题、给”能用还是重录”的建议，最后汇成一张总表。

做视频选素材，过去得我一段段熬。现在它先过一遍，把明显废的挑出来，我只看它拿不准的那几段。

拆别人视频的手法

你给它一条做得好的视频，它能拆：哪个镜头用了什么手法、配乐和卡点怎么踩、节奏怎么走。

Claude Code 逆向拆解一条优质视频的手法：镜头切法、配乐卡点、节奏与签名动作

这一路我接到了另一个专做视频逆向的工具上 — 让它负责看懂”画面和声音是怎么做出来的”，再交给下游去学。

把这三件事摆一块儿，内核其实是同一件：让 Claude 终于能对着画面说话，而不是对着一份字幕瞎蒙。

为什么这只眼睛得我自己装

能用现成的，我从不自己造 — 重复折腾一个别人已经做好的东西，没意思。所以”给 Claude 接只眼睛”这念头一冒出来，我第一件事不是写代码，是去翻有没有人已经做好了。

翻完才发现：还真得自己来。

两道坎。一道在 Claude 官方身上，一道在那些现成的轮子上。

第一道：官方短期内不会补上这只眼睛

前面那张表里 Claude”读视频”那个叉，已经说明白了一半 — 它的输入清单里，从一开始就没接”视频”这条进料口。这里再补一刀：短期内它也长不出来。到今天，官方既没把视频列进输入清单，也没给过任何”哪个版本补上”的时间表。

所以等更新这条路，基本可以划掉了。刚才说过我不想换掉 Claude，那就只剩一条：从外面给它接一只眼睛。

全能 AI 能读图、PDF、文本、代码，唯独卡在一个 .mp4

第二道：现成的轮子，没一个长在我的活上

那市面上那些”让 Claude 看视频”的工具呢？我一个个试过来，摊开看是这样：

工具	看本地录屏	真看画面	用最新模型	能打分控成本
最火的那个（gemini-mcp-tool）	—	❌ 只读文本/代码	—	—
claudetube	✅	❌ 只转字幕	—	—
youtube 分析类	❌ 只认 YT	🟡 抽帧瞎猜	—	—
某本地视频 MCP	✅	✅	❌ 还在用旧模型	—
我要的	✅	✅ 整段看	✅ Gemini 3.5 Flash	✅

一行行说。

生态里最火的那个 Gemini 工具，一周好几千号人在用，名字里带 Gemini，很多人以为它能看视频 — 其实它只分析文本和代码库，跟视频半毛钱关系没有。

有个专门让 Claude 看 YouTube 的，叫 claudetube，思路是先把视频下载下来、用语音转录成字幕。问题是它只读字幕，不看画面。我那段录屏有没有黑屏、有没有走错路，字幕里一个字都没有。

还有一类只认 YouTube 链接、靠抽帧凑合的，碰不了你电脑里那段本地录屏。剩下能看本地、也看画面的，要么零到一个星、代码停在去年，要么还在用上一代的 Gemini 2.5。

你发现没有？

把我那几个条件叠到一块儿 — 看本地录屏、真看画面、用最新模型、还得能打分控成本 — 一个都凑不齐。

不是这些工具不好。是没有一个，长在我的活上。

翻遍现成轮子：最火的不看视频、能看的只认 YouTube、能看本地的字幕党 -- 四个条件没一个能同时凑齐

那就只能自己来了。

我没逼它硬看，给它请了个翻译

自己造，第一反应可能是：那得训个模型吧？

不用。

也别急着上土办法。Claude 想”看”视频，不是完全没辙，无非两条邪门路子：一是把声音转成字幕，让它读文字稿；二是从视频里抽几帧出来，当成图片喂给它。这两条我都试过 — 都不行。

转字幕，丢的是画面。录屏哪一秒黑了屏、屏幕上弹了什么字、鼠标点错了哪一步，字幕里一个字都没有；要是这段录屏压根没人说话，字幕直接是空白。

抽帧，丢的是时间。从一段连续操作里抽出几张静止画面，等于把一部电影撕成几张剧照 — 动作怎么连的、卡顿出在哪一秒、转场怎么过的，全没了。更别说你根本不知道该抽哪几帧：抽稀了，关键那一下正好漏过去；抽密了，几十张图一股脑喂进去，token 和钱哗哗地烧。

说到底，字幕和抽帧都是”绕着看”，不是”真看”。想让一段视频被原原本本看懂 — 画面、声音、时间线一个都不少 — 只剩一条路：请一个生来就会看视频的模型。

我换了个思路：Claude 不会看视频，可有的是 AI 天生会看。我不逼 Claude 自己用土办法硬看，我让它去喊一个会看的来。

我喊的是 Gemini — 准确说，是它 2026 年 5 月 19 号刚放出来的 3.5 Flash。这个模型生来就吃视频：画面、声音、时间线，一起进、一起理解，不用谁先帮它抽帧。

我打个比方。

这就像你不懂外语，要去谈一笔跨国生意。你不会逼自己半年啃下一门语言 — 你请个翻译。翻译负责听懂，你负责拍板。谁也没替谁，各干各最擅长的那一段。

还有件赶巧的事：这个”翻译”，我请得几乎不花钱。

前阵子我在 Google Cloud 上领到一笔 300 美金的赠金，正好拿来按次付费地调 Gemini 的 API。算下来，看一段录屏也就几分钱，这 300 块够 Claude 使唤这只眼睛使上好久。Claude 那边的派活本事是现成的，Gemini 这边的视频眼力又几乎白送 — 两边一拼，约等于零成本给 Claude 接了一双眼睛。

落到这套工具上，前面那三件事 — 看懂一段、批量验收、拆手法 — 它都接得住。不管你丢的是本地录屏、下载好的视频，还是一条 YouTube 链接，三种来源归成一种喂法，丢进去都一样。

每一段视频，最后吐出来的不是一段大白话，而是一份结构化的评分，Claude 接着就能拿去做判断。说白了，它管看，Claude 管想。

这轮子是怎么设计的

光能跑还不够。我想说说它是怎么搭起来的 — 因为真正费工夫的，不是接通，是把那些坑一个个填平。

整套东西，我拆成三层。

三层，各管一段

第一层，进料口。本地录屏、下载的视频、YouTube 链接，三种来源，归一成一种喂法。

第二层，那只眼睛。整段视频直接丢给 Gemini，绝不退回去抽帧。 前面算过抽帧的账 — 撕成剧照、丢掉时序 — 这一层就是为了不再走那条回头路：让 Gemini 一次看完整段，而不是几张孤零零的截图。

第三层，派活台。看懂一段、批量验收、拆解手法，三种意图，各走各的路。

Claude 当大脑、Gemini 当眼睛：三层管线把进料口、那只眼睛、派活台串起来

听着顺。真修的时候，坑一个接一个。我挑几个有意思的：

卡在哪	怎么回事	怎么解的
钥匙不对	Google 的 key 有好几种，长得像、用法两样，照主流教程接一次被拒一次	绕开官方标准库，自己裸连
文件太大	一段高清录屏动不动几十上百兆，直接喂会被拒	加一道自动压缩，超了先就地压一道（67 兆实测过）
钥匙会漏	网络一抽风报错时，我那把 key 会跟着错误信息漏出去	给报错加了道脱敏，把 key 抹掉
体检脚本撒谎	开工前检查环境的脚本，在我配置全对的机器上梗着脖子报”没就绪”	当场修了假报警

后面这两个坑，最有意思 — 它们不是我自己发现的。

东西造好，我没急着用。我反手又派了一队 AI，去审我自己刚写的这堆代码。

一个会漏密码，一个会撒谎。都是我自己埋的雷，自己没看出来，被另一队 AI 当场抓了包，两个都当天修了。

我越来越觉得，AI 时代真正好用的本事，可能不是把一个 AI 用到极致，是让它们互相搭台、互相挑刺。

真正变的，不是工具，是能力的定义

折腾完这一圈，我最大的收获，其实不是多了个看视频的工具。

是后来想通的一件事。

过去我们怎么判断一个人、一个 AI 强不强？看它单挑的本事，看它一个能不能全干了。

可你发现没有，现在最能打的那批组合，往往不是某一个全能选手，是一堆各有所长的家伙，被人调度到了一块儿。

开头那个”谁也不换、给 Claude 配只眼睛”的选择，不过是这条规律的一个小例子。

这种能力，越来越不像一个人的单打独斗，更像一个班组的分工。你强不强，越来越取决于你会不会调度，而不是你自己会不会。

从单打独斗的全能选手，到班组分工各有所长 -- 强不强看你会不会调度

短板不可怕。我手上这个 AI 有个大短板 — 看不了视频。我没干等它补，也没自己硬上，我给它请了个外援。这事儿，你也能做。

所以我把这套东西，开源了。

谁要是也想给自己的 Claude 装一双能看视频的眼睛，拿去用：

GitHub：https://github.com/sandypoli-boop/claude-gemini-video
网盘（国内下载更快）：https://share.weiyun.com/Wqpo42Kd

代码我清干净了，照着说明配上自己的 key 就能跑。

你手上那个 AI，有没有哪个短板，一直让你别扭？

也许它缺的，不是更强。是一个搭子。