计算学部视觉与信息处理团队携手多家合作单位,依托校(院)科教产项目支撑,在前期多模态信息融合、多模态医学影像配准研究的基础上,面向医疗与遥感两大垂直领域深入研究,成功推出“核影智析(NuclearShadowAI)”与“观天智解(Skywise-Solver)”两款多模态大模型。
“核影智析(NuclearShadowAI)”作为一款专为医学图像智能解析打造的多模态大模型,模型参数为70亿,是团队与山东省立医院、山东省肿瘤医院、南京市儿童医院及济南市第三人民医院等医疗机构紧密合作的成果,此外团队正与山东省中医院、山东省康复医院等医疗机构洽谈合作。该模型覆盖了肺、肾脏、肝脏、淋巴结、脊柱、乳腺、结肠等多个关键器官,不仅能对CT图像及脑核磁影像进行深度解析,还能精确识别病灶区域,细致解读器官形态及病变信息,极大提升了医学影像解读的效率与精确度。经过严格评测,“核影智析”在BERT相似性指标上为94.28%,DeepSeek准确度和一致性指标分别达到了81.14%和82.21%,同时,在GPT-4评测体系下,其准确性与一致性也分别取得了81.86%和83.31%的优异成绩,模型整体性能在医疗垂直领域处于领先地位。目前,“核影智析(NuclearShadowAI)”多模态大模型已在ModelScope开源,供研究者免费获取与使用,开源链接:https://modelscope.cn/models/QLUVIP/NuclearShadowAI。
“观天智解(Skywise-Solver)”是一款专为卫星遥感图像领域打造的多轮视觉问答多模态大模型,模型参数为20亿。其训练数据源自北京理工大学多维度信号与信息处理研究所,并辅以部分精选公开数据集,确保模型的精准与全面。目前,团队正与中国科学院空天信息创新研究院、湖南大学等研究机构探讨合作。
“观天智解(Skywise-Solver)”能够针对卫星遥感图像执行高效的多轮视觉问答(VQA)。通过连续的对话交互,该模型能够回答图像中的物体、数量、形态以及地理位置等关键信息,为遥感图像的识别与信息解析领域作出了积极贡献。经过严格评测,“观天智解”在BERT相似性指标上高达95.83%,DeepSeek准确度和一致性指标分别达到了87.50%和85.00%,在GPT-4评测体系下,其准确性与一致性也分别取得了87.25%和84.29%的优异成绩。这一进展在农业、林业、海洋监测、环境治理、城市管理以及军事等多个领域均有广阔的应用前景。目前,“观天智解(Skywise-Solver)”多模态大模型已在ModelScope社区开源,诚邀研究者共同探索。开源链接为:https://www.modelscope.cn/models/QLUVIP/Skywise-Solver。
视觉与信息处理团队将继续依托学部的各大科研平台,深化与山东省立医院、南京市儿童医院等临床应用单位的合作,并加强与北京大学、北京理工大学、东南大学等国内顶尖高校的交流,持续增强多模态大模型在两个垂直领域的性能,旨在推动多模态大模型在辅助医疗诊断、城市治理、黄河流域生态监控等多个实际场景中的落地与应用,助力科技与生活的深度融合,共创智慧未来。