首页 · 深度文章 · 2026 年 4 月，四家巨头同时给你家的 AI "装了眼睛"

ROB 智能家电

2026 年 4 月，四家巨头同时给你家的 AI "装了眼睛"

叁笙 2026-04-20 23 分钟阅读公众号原文 ↗

🎵 本文主题曲 · 看见的家

0:00

2026 年 4 月，四家巨头同时给你家的 AI “装了眼睛”

导读： 同样叫”智能家居”，有人每天手动操控 50 个设备，有人回家连手机都不用掏。2026 年 4 月，小米、华为、三星、亚马逊同时做了一件事——让你家的 AI 不再是瞎子。这篇拆清楚：它们装的是什么”眼睛”，你家该不该换。

你家的”智能”家居，可能还停在遥控器时代

先说一个场景。

晚上 11 点，准备睡了。掏出手机，打开米家 App——关客厅灯、关电视、拉卧室窗帘、开空调、调到睡眠模式。五个动作，点五下屏幕。

跟起身走一圈把这些事做完，省了多少时间？

大概 8 秒。

我家装米家全屋智能的时候，前前后后加了 40 多个设备——灯、窗帘电机、空调伴侣、门窗传感器、人体传感器、摄像头、智能插座，全部拉进米家 App。

装完那一个月特别兴奋。然后我开始设自动化规则。

“人走灯灭”——第一条，挺爽。 “22 点自动关客厅灯”——第二条，不错。 “温度超 26 度开空调”——第三条，合理。

设到第 18 条的时候，事情开始不对劲。

22 点关灯？那天正好加班到 23 点半，灯在我面前啪地灭了，眼前一黑。系统不知道我在加班，它只认时间。

人走灯灭？晚上窝在沙发看书，一动不动看了 20 分钟，客厅灯突然灭了。红外传感器检测不到”运动”，判定没人。我得站起来挥挥手，灯才肯重新亮。在自己家里看个书还得表演一段广播体操。

最离谱的是半夜三点，家里的猫从沙发上跳下来，触发了人体传感器，客厅灯唰地亮了——我被光晃醒了。红外传感器分不清猫和人，只知道”有东西在动”。

规则是死的，生活是活的。设了 18 条规则，一半时间在跟自己的规则打架。

红外传感器检测不到静坐的人

这三个场景，每一个都指向同一个问题：系统不理解”正在发生什么”。

加班到 23 点？系统不知道。坐着没动？系统当你不存在。猫跳了一下？系统以为来人了。

它不懂你。

你以为”智能”是聪明。实际上，你家那套系统不过是一个升级版遥控器——从物理按钮变成手机按钮，从手动开关变成定时开关。它不看、不想，只认规则。

直到 2026 年 4 月。

四月这一个月，四家巨头动手了

我之所以说”直到 4 月”，是因为这个月的密度不正常。

四家全球最大的智能家居平台，几乎同时做了一件事：把 AI 大模型塞进家里，让系统”长了眼睛”。

厂商	4 月关键动作	一句话翻译
小米	Miloco 本地副驾持续迭代 + MiMo-V2 万亿参数大模型 + 4 月密集发布 AI 摄像头、智能窗帘、空调	摄像头变成 AI 的眼睛，在你家本地跑视觉大模型
华为	小艺管家升级为”空间智能体”	不是控制设备，是”理解你家这个空间”
三星	Vision AI Companion + SmartThings AI 长辈关怀	电视和扫地机器人变成家庭监护员
亚马逊	Alexa+ 生成式 AI（4.15 意大利首发）	语音助手从”听令执行”变成”主动帮忙”

配角也在动——

博联让微信直接托管全屋智能，不用装 App，在对话框里控制全家设备。施耐德加入 Thread Group 董事会，底层通信协议加速融合。Home Assistant 发布 2026.4 版本，红外遥控支持让没有 WiFi 的老家电也能被拉进来。

为什么四家同时动手？

不复杂。端侧 AI 芯片够便宜了，大模型够小了。

2024 年，跑视觉语言模型的芯片组要几百美元。2026 年 3 月小米发布 MiMo-V2 系列，7B 参数的视觉模型能跑在家庭网关级硬件上，成本可能不到一个高端路由器。小米今年计划投入 160 亿元做 AI，三年 600 亿。

技术门槛跌到量产线以下，四家一起动手不奇怪。

划重点

4 月四家同时给智能家居”装 AI 大脑”，不是巧合，是端侧芯片和小模型成本到了临界点。

核心变化：AI 从云端下到本地，从”听命令”变成”看得懂你在干什么”。

博联、施耐德、Home Assistant 也在加速——不只是头部在动。

过去十年卡在哪——以及这次凭什么不一样

我把过去十年分成三代。

第一代：联网时代（2014-2020）

核心逻辑是**“把开关搬到手机上”**。

WiFi 插座、WiFi 灯泡、WiFi 摄像头——所有东西加一个 WiFi 模块，连上 App，远程开关。

本质？遥控器换了个形态。 从红外变手机，你还是得一个一个点。

第二代：自动化时代（2020-2025）

核心逻辑是**“用规则替代手动”**。

if 人走 → then 灯灭。if 温度 > 26 → then 开空调。if 时间 = 22:00 → then 拉窗帘。

比遥控器进了一步。但问题我开头说了——规则是死的，生活是活的。

而且这套 if-then 逻辑有个致命弱点：规则越多越容易冲突。

我见过有人在米家社区发帖，说自己设了 30 多条自动化，结果”灯亮了又关、关了又亮”，像闹鬼一样。原因是两条规则互相矛盾——一条说”人走灯灭”，另一条说”22 点自动开小夜灯”。传感器检测到没人，刚关灯，第二条规则又把灯打开了。

到最后，你不是在享受智能家居，你是在维护一套自动化系统。

这就是过去五年最大的讽刺：设备越来越多，“智能”这两个字越来越讽刺。

第三代：感知时代（2026-）

今年 4 月正在发生的事。

核心变化只有一个：AI 从”听你说什么”变成”看你在干什么”。

过去的系统靠你下指令。它不看、不听、不想，只等你开口。

现在的系统用摄像头、毫米波雷达、温湿度传感器”感知”你的状态。你不需要说话，它看你的动作就知道该干什么。

打个比方。

前两代是定时器。你告诉它”几点干什么”，它照做。

第三代是管家。管家不需要你每件事都吩咐——你走进客厅，管家看你的步态、手里拿的东西，就知道你是回来休息的还是要继续加班。灯光、温度、音乐，管家自己调。

从遥控器到定时器到管家——智能家居终于走到了”智能”这个词本来该有的意思。

智能家居三代演进

划重点

第一代解决”远程控制”，第二代解决”自动化”，第三代要解决的是”理解你”。

你家如果还停在”设规则”阶段，它在用 2020 年的逻辑干 2026 年的活。

关键突破：端侧视觉语言大模型 + 毫米波雷达 + 本地算力。

小米 Miloco：一个最具体的样本

四家的方案我都拆了一遍。但重点讲小米，因为这是我在用的平台。

小米在 2025 年 11 月发布了一个东西，叫 Miloco——Xiaomi Local Copilot，本地副驾。

名字有点极客，做的事情很好懂。

摄像头不再是监控，是 AI 的眼睛

Miloco 的核心是一个端侧视觉语言大模型：MiMo-VL-Miloco-7B。跑在你家本地硬件上，通过米家摄像头”看”家里正在发生什么。

注意——不是把画面传到云端让服务器分析。是在你家里、在本地、用你自己的设备跑 AI 推理。 视频画面不出家门。

它能看懂什么？

还记得开头那三个场景吗？一个一个对上——

加班到 23 点，灯灭了。 Miloco 的方案：摄像头看到你还坐在书桌前，屏幕亮着，手在键盘上——它判断”人还在工作”，不会因为到了 22 点就关灯。它不认时间，它认你的状态。

沙发上看书一动不动，灯灭了。 红外传感器靠”运动”判断有没有人，你不动它就当你不存在。Miloco 的视觉模型直接看到”沙发上坐着一个人在看书”——你不需要站起来挥手证明自己还活着。

猫从沙发跳下来，半夜亮灯。 红外传感器分不清猫和人，只知道”有东西在动”。Miloco 能分辨”跳下沙发的是猫还是人”。这一个差别，就是红外传感器和视觉 AI 之间的代差。

你在做饭 → 联动抽油烟机、厨房灯调最亮。孩子在爬沙发 → 推送提醒到你手机。老人长时间没活动 → 触发异常检测。

从”你告诉它做什么”变成”它看到你在做什么”。 这才是根本区别。

Miloco 视觉AI识别场景

自然语言替代 if-then

过去设自动化，在 App 里一步步选触发条件、执行动作、生效时间、例外条件。设 18 条规则点了上百次屏幕。

Miloco 允许你用一句话定义：“我说’睡了’的时候，帮我关掉客厅的灯和电视，拉上卧室窗帘，空调调到 25 度。”

不只是语音识别。它结合时间、你的位置、环境光、你之前的习惯，综合判断应该执行什么。

隐私这道坎

摄像头看我干什么？数据传到哪了？

这是 Miloco 必须说清楚的一点。

所有 AI 推理在本地完成，画面不上传云端。小米把这套系统开源放到 GitHub 上，任何人可以审计代码。

端侧部署不只是隐私的事，也是体验的事。 本地推理意味着响应更快——你盖被子的动作和灯灭之间的延迟，端侧比云端能快一个量级。

但也讲实话——Miloco 目前还在”探索阶段”。小米自己用的也是”探索方案”这个词。4 月新出的米家智能摄像头 4 Max AI（双摄 + AI 看护大模型）是离 Miloco 最近的量产硬件，但完整的视觉联动方案还没全面推送。

我的体感是：方向对了，但离”真正的管家”还差一步打磨。 复杂场景（比如多人同时在客厅做不同的事）识别还会搞混。

划重点

小米 Miloco 用摄像头 + 端侧视觉大模型实现”看懂你在干什么”。

核心优势：本地推理、不上传云端、断网也能用、代码已开源。

现实状态：探索阶段，复杂场景还需打磨。红外传感器→视觉 AI 的代差已经看得见。

各家路线不一样——看你选谁的”管家”

小米选了”摄像头 + 本地视觉 AI”。但不是唯一的路。

华为：传感器矩阵理解”空间”

华为鸿蒙智家走**“空间智能体”**路线。不靠单一摄像头，用全屋分布的传感器（人体存在、温湿度、光照、毫米波雷达）构建”空间模型”。小艺管家升级后，试图理解”这个空间里正在发生什么”。

优势： 不装摄像头也能感知，隐私顾虑更小。鸿蒙生态闭合度高，设备协同流畅。 劣势： 全套传感器部署成本高，更适合精装房或高端定制。

三星：电视和家电变”监护员”

Vision AI Companion 把电视变成家庭枢纽——看电视的时候它能帮你规划旅行、指导做饭。

更有意思的是 SmartThings 的 AI 长辈关怀：扫地机器人在家里转的时候，顺便观察老人活动轨迹，异常时推送给家人。一个清洁设备兼职当看护。

优势： 不需要额外装设备，已有的三星电视、冰箱、扫地机器人就是传感器。 劣势： 深度绑定三星生态，国内保有量不算高。

亚马逊：对话式 AI 管家

Alexa+ 是 4 月 15 日意大利首发的生成式 AI 语音助手。和老版 Alexa 最大区别——能听懂含糊指令。

你说”我有点累了”，它综合调用灯光、窗帘、音乐、温度，构建一个”休息场景”。不需要你把”关灯""拉窗帘""放音乐”拆成三条命令。

优势： 语音交互最自然，零学习成本。 劣势： 需要海外网络环境，国内可参考性有限。

Home Assistant：极客自建路线

2026.4 版本加了红外遥控支持和 AI Assist 增强。完全开源、完全自主，你定义 AI 行为逻辑，接入任何品牌设备。

优势： 极致灵活，隐私完全自控。 劣势： 需要动手能力，不适合”买回来就用”的人。

一张表看清

路线	代表	感知方式	适合谁
视觉感知 + 端侧 AI	小米 Miloco	摄像头 + 本地大模型	愿意装摄像头、重视性价比
空间传感器矩阵	华为鸿蒙	全屋传感器 + 空间模型	高端全屋定制、华为生态用户
屏幕枢纽 + 关怀	三星	电视/家电内置 AI	家电换代、有养老需求
对话式 AI	亚马逊 Alexa+	语音 + 生成式 AI	海外用户、语音偏好
开源自建	Home Assistant	任意传感器组合	极客、动手能力强

选全屋智能的标准，正在从”能连多少设备”变成”AI 能不能真的懂你在干什么”。

设备数量是上一代的竞争。这一代的竞争是：谁家的 AI 管家最像一个真人管家。

五条技术路线对比

划重点

五条路线没有绝对优劣，取决于你的生态偏好、隐私态度和预算。

国内最成熟的两条路：小米（性价比 + 开源透明）和华为（生态闭合 + 体验流畅）。

已经在用米家的人，升级成本最低——一个支持 Miloco 的网关 + 一个 AI 摄像头可能就够起步。

如果你现在要装全屋智能——看这三件事

绕了一大圈，最实用的是这一段。

看”脑”不看”量”

别数能连多少设备。那是 2020 年的指标。

问这套系统的 AI 能不能做到”主动感知”。 是靠 if-then 规则驱动，还是靠 AI 模型理解行为？前者是定时器，后者才是管家。

看”本地”不看”云端”

端侧 AI = 三个好处。

隐私： 数据不出家门。 速度： 本地推理比云端快。 稳定： 断网照常跑。

问清楚：AI 推理在哪跑？如果答案是”云端”，WiFi 一断，所有”智能”全部消失。

看”生态开放度”

Matter 协议支持吗？能接第三方设备吗？

施耐德加入 Thread Group 董事会是个信号——底层协议在统一。选生态开放的平台，将来换设备不用全部推倒重来。

米家用户的入门建议

如果你跟我一样选的米家，几个实操建议。

核心三件套： 中枢网关 + 人体存在传感器（选毫米波的，别选红外——我用红外踩的坑开头已经说了，静坐不动就判定”人走了”）+ 智能开关（必须选零线版）。

装修预留的三样——忘了任何一样后期补成本翻三倍：

开关底盒预留零线。 单火版智能开关看着省事，实际灯光闪烁、设备离线是常态。装修时多拉一根线几乎零成本，装完了再想补要砸墙。底盒选 86 型深底盒（≥5cm），塑料材质——金属底盒会屏蔽信号。
窗帘盒两端预留电源插座。 双层窗帘（纱帘+遮光）需要两个电机、两个插座。窗帘盒宽度双轨至少留 20cm。我当时只留了 15cm，后来发现塞不下双轨电机，只能拆了重做。
每个房间拉网线到弱电箱。 智能家居极度依赖网络稳定，WiFi 不够的地方加 AP。

关于 Miloco： 现在还是探索阶段。我的建议是先把基础自动化搭好——把红外传感器换成毫米波人体存在传感器，这一步就能解决 80% 的误触发问题。等 Miloco 正式版推送后再升级视觉感知。

写在最后

智能家居这个行业，我关注很多年了。

从最早的 WiFi 插座，到现在的端侧视觉大模型。十年下来，绕了一大圈，终于走到了一个让我觉得”对了”的方向。

不是因为技术有多炫。而是因为这是第一次，“智能”这两个字名副其实了。

过去十年给你的体验是”多了一个遥控器”。 2026 年开始，它给你的体验应该是”少操心了一件事”。

智能家居的终极形态不是”你控制一切”，而是”你什么都不用控制”。

我们还没到那一步。Miloco 的识别率还不够高，华为的空间智能体还在打磨，三星和亚马逊在国内落地还需要时间。

但方向清楚了。

下次你回家，灯自己亮了、窗帘自己拉了、空调调到你喜欢的温度——你甚至没掏手机。

那一刻，你家的 AI 终于”看见”你了。

你家现在有多少个智能设备？用起来是真的”智能”还是”智障”？

评论区说说你的真实体验——装了多少、花了多少、最想吐槽什么。