月之暗面Kimi与清华大学MADSys实验室于2024年6月联合发布了名为Mooncake的创新推理系统设计方案。该方案的核心在于其独特的以KVCache为中心的PD分离技术和存换算架构,旨在显著提升大模型推理吞吐量。这标志着在人工智能推理效率领域的一次重要突破。

为了加速Mooncake技术的应用和推广,双方进一步联合9#AISoft、阿里云、华为存储、面壁智能以及趋境科技等业界领先企业,共同推出了Mooncake开源项目。此举旨在构建一个基于KVCache的核心大模型推理架构生态,促进技术普及和产业发展。这一合作模式也体现了产学研结合的有效性,有利于推动人工智能领域的技术创新和成果转化。
目前,Mooncake技术框架已正式在开源社区上线,为全球开发者提供了一个高效、开放的平台。其开源地址如下:

Mooncake开源项目不仅是对前期学术研究成果的落地实践,更是对超大规模KVCache缓存池这一创新理念的有效验证。通过独特的“存换算”架构,Mooncake显著降低了算力消耗,从而实现了推理吞吐量的显著提升。这一技术优势使其在降低成本的同时,大幅提高了推理效率,为人工智能产业的发展提供了新的驱动力。
Mooncake的开源采用分阶段推进策略。首先开源高性能KVCache多级缓存Mooncake Store,并确保其与各种推理引擎和底层存储/传输资源的兼容性。目前,传输引擎Transfer Engine已率先在GitHub上开源,为后续的开源工作奠定了基础。
Mooncake项目的最终目标是为大模型时代建立高性能、内存语义存储的标准接口,并提供一套可参考的实现方案,为未来人工智能技术发展提供坚实的基础架构支持,推动行业整体向更高效、更智能的方向发展。 这套标准接口的建立,将有利于减少大模型应用开发的重复工作,加速行业整体发展。

通过Mooncake推理系统架构图,我们可以直观地了解其设计理念的巧妙之处及技术先进性。该架构设计不仅展现了团队在技术方面的创新能力,也体现了产学研合作在推动人工智能领域发展中的重要作用。