在人工智能领域,跨模态大模型(Multimodal Large Models)的演进速度惊人。它们不再局限于单一信息源,而是旨在融合视觉、听觉、文本等多种感知能力,实现理解与推理上的飞跃。近日,快手在这一赛道上推出了其最新的下一代旗舰级多模态模型 Keye-VL-671B-A37B,并同步开源,这无疑为业界注入了一针强心剂,预示着跨模态AI正在走向更强大的能力边界。
Keye-VL-671B-A37B 的核心竞争力在于其“善看善思”的特点。从模型的设计理念来看,快手旨在通过对视觉感知、跨模态对齐和复杂推理路径进行系统性升级,使其在通用视觉理解、视频分析以及数学推理等多个核心基准测试中都展现出卓越的性能。这意味着,无论是日常的应用需求,还是涉及深度分析的复杂任务,Keye-VL-671B-A37B 都能够提供更精准、更稳定的输出,这标志着快手在AI技术实力上的又一次重要巩固。

在技术架构层面,Keye-VL-671B-A37B 选择了 DeepSeek-V3-Terminus 作为其强大的语言模型底座,并通过 MLP 层与其视觉模型 KeyeViT 进行连接。而 KeyeViT 则继承自 Keye-VL-1.5 的能力并进一步初始化。整个预训练过程历经三个阶段,系统性地构建起模型的跨模态理解与推理能力。尤其值得一提的是,模型采用了经过严格筛选的 300B 高质量预训练数据,确保在提升视觉理解能力的同时,有效控制了计算成本,这在实际落地应用中具有重要的经济效益考量。
具体的训练流程也颇具匠心。在初期,通过冻结视觉和语言模型的参数进行对齐训练;随后,开放所有参数进行全面的预训练;最后,在更高质量的数据上进行退火训练。这样的分步式优化,极大地增强了模型在细粒度视觉感知方面的能力。此外,训练后的微调流程也涵盖了监督微调(SFT)、冷启动(Cold Start)以及强化学习(RLHF)等关键环节,训练任务覆盖了诸如视觉问答(VQA)、图表理解、富文本 OCR 等多模态场景,展现了模型在泛化性和鲁棒性上的追求。
展望未来,快手表示 Keye-VL 系列模型将持续迭代,在巩固基础能力的同时,进一步整合多模态 Agent 能力,朝着“能用工具、能解复杂问题”的更智能化形态发展。模型的多轮工具调用能力将得到加强,使其在实际任务中能够自主调用外部工具,完成复杂的搜索、推理与信息整合。同时,Keye-VL 将深入探索“以图思考”、“以视频思考”等核心方向,赋能模型不仅仅是理解图像和视频,更能围绕这些内容进行深度思考和链式推理。这种从理解到思考的跃升,是当前多模态AI发展的关键方向。
通过基础能力与 Agent 能力的双重驱动,快手的 Keye-VL 系列目标是不断拓展多模态智能的边界,向着更通用、更可靠、推理能力更强的下一代多模态系统迈进。这一系列举措,不仅为快手自身在AI领域的竞争力增添了砝码,也为整个多模态AI技术的发展带来了新的机遇与挑战,促使行业不断思考和探索更高效、更泛化的AI应用模式。