近期,新莆京游戏大厅官方入口李明勇博士和2021级硕士研究生赵宗伟完成的一篇关于组合图像检索的研究论文“CLIP-ProbCR:CLIP-based Probability Embedding Combination Retrieval”被CCF B类会议ICMR 2024接收并发表,该会议是专注于多媒体内容搜索、检索领域的重要学术会议。
论文提出了一个使用文本和图像组合进行检索的图像检索模型。该模型使用概率嵌入的形式表示检索条件,改善因确定性嵌入而减少公共空间语义信息的丰富度的弊端。模型使用CLIP编码文本与图像,获得对应的特征,通过对特征添加概率分布获得特征的高斯概率密度函数,最后使用概率密度函数之间的乘法法则获得组合特征的表示。其中将特征建模为概率分布的过程中,文本域图像使用权重完全相同的概率嵌入器,简化组合检索模型的架构,减少网络训练的资源消耗,不需要复杂的辅助模块处理信息与多层次使用特征或大型架构。
多媒体检索国际会议(ACM International Conference on Multimedia Retrieval,ICMR)是美国计算机协会(ACM)的系列会议,是多媒体领域的顶级国际会议,自2011年起由历史悠久的图像和视频检索国际会议(International Conference on Image and Video Retrieval,CIVR)与多媒体信息检索国际会议(International Conference on Multimedia Information Retrieval,MIR)合并而成。ICMR会议聚焦于多媒体检索领域的最新研究成果、技术进展和应用实践,涵盖了图像、视频、音频、文本等多种媒体类型的检索技术。现已成为中国计算机学会CCF推荐的“计算机图形学与多媒体”领域B类会议。ICMR 2024作为第14届多媒体检索国际会议,于2024年6月10日至14日在泰国普吉岛举行。