九维我操你爹
这几天搓了一个我构思很久的、基于视觉的第二大脑。
背景是,现在很多构建第二大脑的方法都依赖用户主动记录和筛选,心智成本太高,普通人很难长期坚持。而且即使记录下来,内容也注定是不完整且带有偏差的。但第二大脑这个概念又确实很诱人,那么有没有更好的实现方式呢?
如果抛弃“笔记”这个概念,那么另一种“克隆大脑”的方式,也许就是尽可能无差别地记录大脑接收到的外部信号,比如视觉、听觉、触觉等。从唯物主义的角度看,大脑本质上就是这些信号长期刺激后的产物。那么,如果能够保留这些相对客观的信号,再结合一些主观指令和引导做对齐,理论上就有机会得到一个更接近自己的第二大脑。
而在这些信号里,视觉可能是最重要、信息也最丰富的一种。甚至可以把视觉信号看作语言信号的超集。毕竟所有语言都可以被写下来,最终以图像的形式成为视觉的一部分;但视觉中包含的大量信息,却未必能被语言完整描述。
之前我一直觉得,这件事要成立,至少需要两个前提:一是有一副只要睁眼就能持续录制的智能眼镜,二是有足够强的视频理解模型。很长一段时间里,我都觉得这两个前提还不具备,但现在情况已经有些不同了。
第一个前提是录制侧。虽然智能眼镜还不成熟,但现代人获取和处理信息,很大一部分已经发生在电脑和移动设备上,而这些设备的录制成本要低得多。另一方面,如果一定要等到眼镜成熟再开始记录,很多信息其实已经丢失了。
第二个前提是理解侧。去年年底国内一批发布 Coding Plan 的模型时,我意外发现,它们的视频理解能力,尤其是对录屏内容的理解,已经足够支撑基本的信息提取和意图提取。在这批模型里,GLM 4.7v 和 Kimi 2.5 的表现尤其突出,当时提取结果已经非常准确。根据我的测试,它们在这个任务上明显强于 Gemini 3 Pro,而且不是一点点。如果大家感兴趣,可以自己测一下感受一下。此外,这两个模型都是开源的。虽然个人本地部署依然有门槛,但理论上,一套全开源、Local First 的方案,已经到了愿意投入的话就能够得着的阶段。
然后上周我又比较深入地看了 bub 这个 Agent Framework,感觉它的理念和我很相投。它的可插拔架构很适合接入各种信号源,作为第二大脑的输入。所以这次我写了一个 bub-eye 插件,用 ffmpeg 把录屏接成了一个信号源。
然后就有了 visual-base 这个项目。它目前已经可以做到自动录屏,并自动调用 Kimi 生成行为日志。日志生成现在还是以 skill 的形式实现,实际使用时可以根据每个人不同的侧重点来定制。比如你更重视效率提升、信息检索,还是阅读记录,都可以生成不同取向的日志。
在我的设想里,我希望它最终能成为一个全视觉化的第二大脑。虽然现在也会输出文字日志来描述行为,但我更希望这些日志只是视频的索引。当我向第二大脑提问时,它可以根据这些日志自动定位到对应的视频时间点,切割相关片段,再基于视频内容继续分析。当然,这部分目前还在构想中。
这个项目现在还很早期,我也只在自己的 Intel Mac 上做过测试。理论上,只有 FFmpeg 这一层和平台相关,这部分我也做了包装,但目前还没有条件做更多平台验证。欢迎感兴趣的小伙伴试一试,提提意见,加个星星,也欢迎一起讨论有没有更好的想法。
https://github.com/oilbeater/visual-base
背景是,现在很多构建第二大脑的方法都依赖用户主动记录和筛选,心智成本太高,普通人很难长期坚持。而且即使记录下来,内容也注定是不完整且带有偏差的。但第二大脑这个概念又确实很诱人,那么有没有更好的实现方式呢?
如果抛弃“笔记”这个概念,那么另一种“克隆大脑”的方式,也许就是尽可能无差别地记录大脑接收到的外部信号,比如视觉、听觉、触觉等。从唯物主义的角度看,大脑本质上就是这些信号长期刺激后的产物。那么,如果能够保留这些相对客观的信号,再结合一些主观指令和引导做对齐,理论上就有机会得到一个更接近自己的第二大脑。
而在这些信号里,视觉可能是最重要、信息也最丰富的一种。甚至可以把视觉信号看作语言信号的超集。毕竟所有语言都可以被写下来,最终以图像的形式成为视觉的一部分;但视觉中包含的大量信息,却未必能被语言完整描述。
之前我一直觉得,这件事要成立,至少需要两个前提:一是有一副只要睁眼就能持续录制的智能眼镜,二是有足够强的视频理解模型。很长一段时间里,我都觉得这两个前提还不具备,但现在情况已经有些不同了。
第一个前提是录制侧。虽然智能眼镜还不成熟,但现代人获取和处理信息,很大一部分已经发生在电脑和移动设备上,而这些设备的录制成本要低得多。另一方面,如果一定要等到眼镜成熟再开始记录,很多信息其实已经丢失了。
第二个前提是理解侧。去年年底国内一批发布 Coding Plan 的模型时,我意外发现,它们的视频理解能力,尤其是对录屏内容的理解,已经足够支撑基本的信息提取和意图提取。在这批模型里,GLM 4.7v 和 Kimi 2.5 的表现尤其突出,当时提取结果已经非常准确。根据我的测试,它们在这个任务上明显强于 Gemini 3 Pro,而且不是一点点。如果大家感兴趣,可以自己测一下感受一下。此外,这两个模型都是开源的。虽然个人本地部署依然有门槛,但理论上,一套全开源、Local First 的方案,已经到了愿意投入的话就能够得着的阶段。
然后上周我又比较深入地看了 bub 这个 Agent Framework,感觉它的理念和我很相投。它的可插拔架构很适合接入各种信号源,作为第二大脑的输入。所以这次我写了一个 bub-eye 插件,用 ffmpeg 把录屏接成了一个信号源。
然后就有了 visual-base 这个项目。它目前已经可以做到自动录屏,并自动调用 Kimi 生成行为日志。日志生成现在还是以 skill 的形式实现,实际使用时可以根据每个人不同的侧重点来定制。比如你更重视效率提升、信息检索,还是阅读记录,都可以生成不同取向的日志。
在我的设想里,我希望它最终能成为一个全视觉化的第二大脑。虽然现在也会输出文字日志来描述行为,但我更希望这些日志只是视频的索引。当我向第二大脑提问时,它可以根据这些日志自动定位到对应的视频时间点,切割相关片段,再基于视频内容继续分析。当然,这部分目前还在构想中。
这个项目现在还很早期,我也只在自己的 Intel Mac 上做过测试。理论上,只有 FFmpeg 这一层和平台相关,这部分我也做了包装,但目前还没有条件做更多平台验证。欢迎感兴趣的小伙伴试一试,提提意见,加个星星,也欢迎一起讨论有没有更好的想法。
https://github.com/oilbeater/visual-base
律动轮-丢掉你的节拍器,快速掌握律动技术! 耗时三个... http://xhslink.com/o/4NspbwB8xF1
存下口令,来【小红书】瞧瞧这篇~
存下口令,来【小红书】瞧瞧这篇~