在AI辅助代码安全的赛道上,Mozilla最近交出了一份令人瞩目的答卷。他们利用Anthropic旗下先进的Claude Mythos模型,在Firefox浏览器中成功定位了271个安全漏洞,并且其中绝大多数被标记为“高危”。这不仅是模型能力的直接体现,更暴露了传统静态分析与人工审查之间长期存在的效率鸿沟。
据Mozilla工程师团队在官方博客中的披露,这批漏洞是在Firefox 150版本的迭代过程中被集中发现并修复的。271个漏洞里,有180个被定性为“高危”——意味着用户在正常浏览网页时就有可能被远程利用;此外还有80个中危和11个低危漏洞。面对外界“AI找Bug是不是又在画饼”的质疑,Mozilla直接甩出了12份完整的Bugzilla报告作为证据,证明这次不是单纯的技术噱头。

一个行业内的老问题被再次摆上台面:AI做代码审计时容易疯狂“脑补”——生成大量看起来有理有据、实则子虚乌有的幻觉报告。过去这类虚假预警会让工程师陷入“狼来了”的困境,人工复核成本飙升。Mozilla这次之所以能破局,除了模型自身能力的大幅进化外,还靠一套自研的Agent Harness(智能体工具包)。
这套工具包的核心逻辑并不复杂:它向模型下发明确指令,比如“在这个文件里找一个Bug”,同时提供读写文件、评估测试用例等具体工具,让模型反复执行直到任务完成。在实际跑流程时,工具包指向特定的源码文件,Mythos会自动生成测试用例——往往是精心构造的HTML代码,然后借助已有的fuzzing模糊测试工具进行验证。一旦触发内存崩溃,漏洞就基本坐实。为了进一步过滤误报,Mozilla还引入了第二个大语言模型给第一个模型的输出打分,只有评分足够高的报告才会被提交给开发者。
Mozilla资深工程师Brian Grinstead透露,经过双重校验后,最终生成的漏洞报告几乎零误报,“工程师拿到报告时能清晰确认:问题确实存在,修复工作已经完成,测试用例一旦入库就不会再复发。”这种闭环式的自动化漏洞发现-验证-修复流程,某种程度上已经接近DevSecOps的理想形态。
从更宏观的视角看,Mozilla这次的实践也给行业提了个醒:大模型在安全领域的落地,不能只靠“喂代码+问问题”的粗暴方式。定制化工具链、多模型协同、结合传统fuzzer的混合策略,才是真正把AI生产力转化为安全产能的关键。而Firefox作为浏览器中相对小众但极其重视隐私安全的玩家,其技术路径值得所有关注AI安全的人持续跟踪。
关键看点:
🌟 271个安全漏洞中,180个为“高危”,可能影响正常使用场景。
🤖 Mozilla通过AI模型配合智能体工具包,有效发现并修复漏洞。
🔍 双重验证机制确保最终报告几乎零误报,漏洞修复准确率得到保障。