小红书开源最新多模态大模型 dots.vlm1：性能跃升顶尖梯队

网站编辑 • 2025年8月8日下午8:55 • 热点资讯 • 阅读 71

小红书人文智能实验室（Humane Intelligence Lab，简称 HI Lab）宣布开源其最新的视觉语言模型dots.vlm1（https://huggingface.co/rednote-hilab/dots.vlm1.inst）。作为 HI Lab 首个开源的多模态大模型，dots.vlm1 基于全自研的 12 亿参数NaViT视觉编码器和 DeepSeek V3 大语言模型构建而成。它在视觉理解与推理任务上展现出接近业界领先水平的能力，同时在纯文本任务中也保持了相当的竞争力。

在实际测试中，dots.vlm1 能够精准识别空间关系、解析复杂图表、解答数独问题，甚至能理解和完成高考数学题。其图像识别能力同样强大，无论是常见物体还是冷门图片，都能准确识别并给出详尽解释。例如，在面对经典的红绿色盲数字测试图时，dots.vlm1一次性全部答对，在颜色和形状识别上都表现出极高的准确性。

原创文章，作者：网站编辑，如若转载，请注明出处：https://www.devcn.xin/1593.html

小红书开源最新多模态大模型 dots.vlm1：性能跃升顶尖梯队

相关推荐

发表回复