DeepSeek爆火出圈,迅速发布全新多模态模型——Janus-Pro-7B,并立即开源。
在GenEval和DPG-Bench基准测试中,其性能超越了DALL-E 3和Stable Diffusion,引发业界广泛关注。
近几天,DeepSeek无疑占据了各大科技新闻的头条。其长时间霸榜热搜,甚至导致AI第一股英伟达股价暴跌近17%,单日市值蒸发约4.24万亿元人民币,创下美股单日跌幅最大纪录之一。这充分展现了DeepSeek强大的市场影响力以及其对行业格局的潜在冲击。
DeepSeek的热度持续升温,春节期间更是引爆全民体验热潮,服务器一度不堪重负而宕机。这既反映了其强大的用户吸引力,也暴露出其在基础设施方面仍需进一步完善。
值得注意的是,同一天,阿里巴巴旗下的通义千问也更新了其开源家族,发布了视觉语言模型Qwen2.5-VL,包含3B、7B和72B三种尺寸。这表明国内大模型竞争日益激烈,技术迭代速度不断加快。
DeepSeek连夜发布的新模型Janus-Pro-7B,实际上是此前Janus和JanusFlow的升级版。由毕业于北京大学的陈小康博士领导团队开发。
Janus-Pro-7B基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base构建,是一个统一的理解和生成多模态大模型,采用自回归框架。其核心创新在于将视觉编码解耦为独立路径,避免了以往方法中视觉编码器在理解和生成中角色冲突,提升了框架的灵活性和效率。具体来说,它使用SigLIP-L作为视觉编码器,支持384 x 384图像输入;对于图像生成,则采用LlamaGen中的VQ标记器。通过改进训练策略,将三个训练阶段调整为两个阶段,并优化数据集比例,最终实现了与现有SOTA模型持平的性能。
Janus-Pro-7B在多模态理解和视觉生成方面展现出显著优势,能够为简短提示提供更稳定的输出,并生成更高质量、更细节丰富的图像,同时具备生成简单文本的能力。相比于前代Janus模型,其性能得到全面提升。
更多多模态理解和视觉生成能力的定性结果。
DeepSeek的成功征服了全球用户,其影响力已蔓延至科技圈以外,成为全民热议的话题。游戏科学创始人兼CEO,同时也是《黑神话:悟空》制作人,也专门发微博表达了对DeepSeek的赞赏。
DeepSeek此前开源的推理模型R1,凭借其低廉的成本、免费的使用以及不输OpenAI o1的性能,迅速赢得了全球用户的青睐,引发了行业地震。仅以560万美元的训练成本,R1在多个AI基准测试中达到甚至超越了OpenAI o1模型,其性价比优势极其显著。同时,DeepSeek的完全免费策略,反观ChatGPT的付费模式,更增强了其竞争力,使其迅速登顶美区苹果应用商店免费App排行榜第一。
DeepSeek的成功,使其也面临着服务器压力过大,导致宕机等问题。 这也与其用户规模的快速增长直接相关。
业内人士关注DeepSeek的焦点,是如何在有限的资源下,达到与OpenAI同等水平的性能。与动辄耗资数十亿美元、使用数百万张显卡的国外巨头相比,DeepSeek在技术细节上更注重成本控制,例如通过模型蒸馏和纯强化学习等技术手段,大幅降低训练成本,并提升模型性能。
DeepSeek的成功,促使人们重新思考大规模AI算力投资的必要性。英伟达股价暴跌,市值蒸发近6000亿美元,引发了市场对于AI算力投资模式的讨论。
英伟达对DeepSeek的回应中,承认DeepSeek的卓越成就,并强调DeepSeek的案例展示了利用广泛可用的模型和符合出口管制的算力进行模型构建和推理的可行性。 Meta和OpenAI也受到冲击,纷纷采取应对措施,例如Meta成立研究小组分析DeepSeek技术,OpenAI则计划免费上线新模型o3-mini。
DeepSeek新版本的发布,以及Qwen 2.5-VL的更新,都表明国内大模型领域竞争愈发激烈,技术发展一日千里。
同一夜晚,杭州涌现了DeepSeek和Qwen两大重磅消息,堪称中国AI领域的“双星闪耀”。Qwen2.5-VL的出现,进一步丰富了国内多模态大模型的生态。
最后,值得一提的是,除了杭州“六小龙”的崛起,广东AI领域也涌现出三位杰出人才:DeepSeek创始人梁文锋(湛江人)、月之暗面、Kimi创始人杨植麟(汕头人)以及AI学术大佬何恺明(广州人)。他们的崛起共同推动了中国人工智能产业的快速发展。


















