小红书开源最新多模态大模型 dots.vlm1:性能跃升顶尖梯队
小红书人文智能实验室(Humane Intelligence Lab,简称 HI Lab)宣布开源其最新的视觉语言模型dots.vlm1(https://huggingface.co/rednote-hilab/dots.vlm1.inst)。作为 HI Lab 首个开源的多模态大模型,dots.vlm1 基于全自研的 12 亿参数NaViT视觉编码器和 DeepSeek V3 大语言模型构建而成。它在视觉理解与推理任务上展现出接近业界领先水平的能力,同时在纯文本任务中也保持了相当的竞争力。
在实际测试中,dots.vlm1 能够精准识别空间关系、解析复杂图表、解答数独问题,甚至能理解和完成高考数学题。其图像识别能力同样强大,无论是常见物体还是冷门图片,都能准确识别并给出详尽解释。例如,在面对经典的红绿色盲数字测试图时,dots.vlm1一次性全部答对,在颜色和形状识别上都表现出极高的准确性。
原创文章,作者:网站编辑,如若转载,请注明出处:https://www.devcn.xin/1593.html