近日,知乎与DataFun联合举办了一场聚焦大模型应用工程化实践的深度技术沙龙,吸引了来自15个行业、130余家企业的130位专业人士参与。本次沙龙深入探讨了如何将大模型技术从实验室研究转化为服务千万级用户的实际产品。
沙龙上,知乎CTO孙斌宣布了重磅消息:知乎自研的轻量高效大模型推理框架ZhiLight正式开源。此举标志着知乎在大模型工程化领域取得了显著进展,进一步彰显了其在AI领域的研发实力和开源承诺。

知乎在2024年持续发力大模型应用落地,先后推出知乎直答和专业搜索两项重要功能。这两项功能不仅提升了专业人士的生产力,更将AI搜索引向更专业、更实用的深度搜索阶段。知乎AI算法负责人王界武详细解读了知乎直答的构建过程及技术方案选择。
王界武指出,在构建AI问答系统时,知乎直答团队对比了LLM持续预训练+后训练和检索增强生成(RAG)两种方案,最终选择了RAG方案。RAG方案通过从知识库中检索相关信息作为上下文,再由大语言模型生成答案,有效降低了AI的“幻觉”问题,显著提升了答案的准确性和权威性。团队在Query理解、信息召回和模型生成等多个环节进行了深度优化。
在专业搜索方面,知乎直答团队则采用了多智能体协同工作机制,支持信息查询、内容分析、数学计算等多种功能。结合大语言模型强大的推理能力,系统可以深入分析用户的上下文和提问意图,从多角度、多层次召回高质量内容,提供更精准、全面的搜索结果。

王界武还透露,未来知乎直答团队将致力于产品与社区的深度融合,满足更多场景下的用户需求,并在准确性、时效性、交互模式等方面持续升级。同时,团队将进一步提升模型的推理能力,使知乎直答能够更好地解决复杂问题,提供更优的用户体验。这体现了知乎对产品持续迭代和用户体验提升的重视。
沙龙上,知乎自研的轻量高效大模型推理框架ZhiLight也正式亮相。知乎机器学习平台负责人王新介绍了ZhiLight的设计目标和优化重点。ZhiLight旨在快速部署和实践类似LLaMa的模型,并兼容OpenAI chat/completions接口,方便用户日常使用,并与开源引擎进行性能和稳定性对比。

ZhiLight在PCIe卡间通信优化、内存管理和并发请求管理等方面进行了深入优化,并集成了FlashAttention、Marlin、TensorRT、exllama等多个开源项目。通过计算与通信重叠和低精度通信等技术手段,单层Transformer计算时间降低了40%以上。在70B参数规模的模型测试中,ZhiLight的TTFT指标显著优于主流开源推理引擎,展现出其在效率和性能方面的优势。

此外,百川智能大语言模型资深算法专家王宇龙分享了对Agent技术的探索,认为基于LLM驱动的智能体能够利用大型语言模型的强大能力,革新智能体的工作方式,实现任务间的灵活切换,并通过自然语言理解来解决问题。 他还指出了当前Agent技术面临的主要挑战,并深入探讨了Agent与LLM的底层机制和未来发展方向。

“提示词布道师”李继刚则从Prompt工程的角度分享了其深刻见解,他提出了“Prompt=表达”的概念,并深入阐述了表达的构成要素以及与大模型“共振”的重要性,强调了Prompt设计中清晰简洁的重要性。

李继刚还分享了Prompt工程的实战经验,指出优秀的Prompt工程师需要兼具人文和技术素养,既要掌握编程和理性思维,又要具备写作和感性表达能力。 这反映了Prompt工程对跨学科人才的需求。
本次沙龙为业界同仁提供了一个前沿技术分享和深入交流的平台,也展现了知乎在大模型应用工程化实践方面的显著进展。 知乎将持续加强与行业和技术专家的合作,为互联网行业技术发展贡献力量。