快手旗舰Keye-VL-671B-A37B发布，多模态推理能力实现重大突破

在人工智能领域，跨模态大模型（Multimodal Large Models）的演进速度惊人。它们不再局限于单一信息源，而是旨在融合视觉、听觉、文本等多种感知能力，实现理解与推理上的飞跃。近日，快手在这一赛道上推出了其最新的下一代旗舰级多模态模型 Keye-VL-671B-A37B，并同步开源，这无疑为业界注入了一针强心剂，预示着跨模态AI正在走向更强大的能力边界。

Keye-VL-671B-A37B 的核心竞争力在于其“善看善思”的特点。从模型的设计理念来看，快手旨在通过对视觉感知、跨模态对齐和复杂推理路径进行系统性升级，使其在通用视觉理解、视频分析以及数学推理等多个核心基准测试中都展现出卓越的性能。这意味着，无论是日常的应用需求，还是涉及深度分析的复杂任务，Keye-VL-671B-A37B 都能够提供更精准、更稳定的输出，这标志着快手在AI技术实力上的又一次重要巩固。

在技术架构层面，Keye-VL-671B-A37B 选择了 DeepSeek-V3-Terminus 作为其强大的语言模型底座，并通过 MLP 层与其视觉模型 KeyeViT 进行连接。而 KeyeViT 则继承自 Keye-VL-1.5 的能力并进一步初始化。整个预训练过程历经三个阶段，系统性地构建起模型的跨模态理解与推理能力。尤其值得一提的是，模型采用了经过严格筛选的 300B 高质量预训练数据，确保在提升视觉理解能力的同时，有效控制了计算成本，这在实际落地应用中具有重要的经济效益考量。

具体的训练流程也颇具匠心。在初期，通过冻结视觉和语言模型的参数进行对齐训练；随后，开放所有参数进行全面的预训练；最后，在更高质量的数据上进行退火训练。这样的分步式优化，极大地增强了模型在细粒度视觉感知方面的能力。此外，训练后的微调流程也涵盖了监督微调（SFT）、冷启动（Cold Start）以及强化学习（RLHF）等关键环节，训练任务覆盖了诸如视觉问答（VQA）、图表理解、富文本 OCR 等多模态场景，展现了模型在泛化性和鲁棒性上的追求。

展望未来，快手表示 Keye-VL 系列模型将持续迭代，在巩固基础能力的同时，进一步整合多模态 Agent 能力，朝着“能用工具、能解复杂问题”的更智能化形态发展。模型的多轮工具调用能力将得到加强，使其在实际任务中能够自主调用外部工具，完成复杂的搜索、推理与信息整合。同时，Keye-VL 将深入探索“以图思考”、“以视频思考”等核心方向，赋能模型不仅仅是理解图像和视频，更能围绕这些内容进行深度思考和链式推理。这种从理解到思考的跃升，是当前多模态AI发展的关键方向。

通过基础能力与 Agent 能力的双重驱动，快手的 Keye-VL 系列目标是不断拓展多模态智能的边界，向着更通用、更可靠、推理能力更强的下一代多模态系统迈进。这一系列举措，不仅为快手自身在AI领域的竞争力增添了砝码，也为整个多模态AI技术的发展带来了新的机遇与挑战，促使行业不断思考和探索更高效、更泛化的AI应用模式。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

快手旗舰Keye-VL-671B-A37B发布，多模态推理能力实现重大突破

相关推荐

发表回复