DeepSeek发布视觉基元推理方法,提升多模态复杂推理能力
okx 4月30日消息,据DeepSeek发布的技术报告,其提出“视觉基元推理”(Visual Primitives)方法,通过将点、框等基础视觉单元嵌入推理链,解决多模态任务中的Reference Gap问题。该方法基于DeepSeek-V4-Flash架构,并通过压缩KV缓存实现低图像token消耗。在计数与空间推理基准测试中,其表现可比GPT-5.4、Claude-Sonnet-4.6及Gemini-3-Flash(仅限部分维度)。团队表示未来将开源部分基准与数据,模型权重将整合后发布。
