苹果测试工程师的日常

09:04 · 2026年4月24日 · 周五

急了😁

18:00 · 2026年4月23日 · 周四

这几天搓了一个我构思很久的、基于视觉的第二大脑。

背景是，现在很多构建第二大脑的方法都依赖用户主动记录和筛选，心智成本太高，普通人很难长期坚持。而且即使记录下来，内容也注定是不完整且带有偏差的。但第二大脑这个概念又确实很诱人，那么有没有更好的实现方式呢？

如果抛弃“笔记”这个概念，那么另一种“克隆大脑”的方式，也许就是尽可能无差别地记录大脑接收到的外部信号，比如视觉、听觉、触觉等。从唯物主义的角度看，大脑本质上就是这些信号长期刺激后的产物。那么，如果能够保留这些相对客观的信号，再结合一些主观指令和引导做对齐，理论上就有机会得到一个更接近自己的第二大脑。

而在这些信号里，视觉可能是最重要、信息也最丰富的一种。甚至可以把视觉信号看作语言信号的超集。毕竟所有语言都可以被写下来，最终以图像的形式成为视觉的一部分；但视觉中包含的大量信息，却未必能被语言完整描述。

之前我一直觉得，这件事要成立，至少需要两个前提：一是有一副只要睁眼就能持续录制的智能眼镜，二是有足够强的视频理解模型。很长一段时间里，我都觉得这两个前提还不具备，但现在情况已经有些不同了。

第一个前提是录制侧。虽然智能眼镜还不成熟，但现代人获取和处理信息，很大一部分已经发生在电脑和移动设备上，而这些设备的录制成本要低得多。另一方面，如果一定要等到眼镜成熟再开始记录，很多信息其实已经丢失了。

第二个前提是理解侧。去年年底国内一批发布 Coding Plan 的模型时，我意外发现，它们的视频理解能力，尤其是对录屏内容的理解，已经足够支撑基本的信息提取和意图提取。在这批模型里，GLM 4.7v 和 Kimi 2.5 的表现尤其突出，当时提取结果已经非常准确。根据我的测试，它们在这个任务上明显强于 Gemini 3 Pro，而且不是一点点。如果大家感兴趣，可以自己测一下感受一下。此外，这两个模型都是开源的。虽然个人本地部署依然有门槛，但理论上，一套全开源、Local First 的方案，已经到了愿意投入的话就能够得着的阶段。

然后上周我又比较深入地看了 bub 这个 Agent Framework，感觉它的理念和我很相投。它的可插拔架构很适合接入各种信号源，作为第二大脑的输入。所以这次我写了一个 bub-eye 插件，用 ffmpeg 把录屏接成了一个信号源。

然后就有了 visual-base 这个项目。它目前已经可以做到自动录屏，并自动调用 Kimi 生成行为日志。日志生成现在还是以 skill 的形式实现，实际使用时可以根据每个人不同的侧重点来定制。比如你更重视效率提升、信息检索，还是阅读记录，都可以生成不同取向的日志。

在我的设想里，我希望它最终能成为一个全视觉化的第二大脑。虽然现在也会输出文字日志来描述行为，但我更希望这些日志只是视频的索引。当我向第二大脑提问时，它可以根据这些日志自动定位到对应的视频时间点，切割相关片段，再基于视频内容继续分析。当然，这部分目前还在构想中。

这个项目现在还很早期，我也只在自己的 Intel Mac 上做过测试。理论上，只有 FFmpeg 这一层和平台相关，这部分我也做了包装，但目前还没有条件做更多平台验证。欢迎感兴趣的小伙伴试一试，提提意见，加个星星，也欢迎一起讨论有没有更好的想法。

https://github.com/oilbeater/visual-base

GitHub