西电学子获全球计算机视觉顶级会议ECCV 2024竞赛21项冠亚季军

来源:西电新闻网 2024-09-30 14:22

9月29日至10月4日,全球计算机视觉顶会之欧洲计算机视觉大会European Conference on Computer Vision(简称ECCV)将在意大利米兰举行,人工智能学院参赛队在ECCV 2024赛事中已斩获21项冠亚季军奖。团队针对三维重建与新视角合成、广义类别发现、视觉目标跟踪与分割等挑战提出了一系列创新性的解决方案。获奖队伍均收到大会邀请,在相关研讨会上分享展示获奖方案。另外,由学院博士生李志浩、王兆鑫等完成的两篇论文已被录用并将在大会上进行展示。以上竞赛由国家自然科学基金重点项目,教育部创新团队,国家学科创新引智基地等项目支持。

“ECCV 2024 OOD UNICORN”挑战专注于评估多模态大型语言模型的鲁棒性,它包括两个主要的数据集:OODCV-VQA和SketchyQA,以及它们的变体:OODCV-Counterfactual和Sketchy-Challenging。这些数据集旨在通过在问答场景中引入布尔值或数值回答,测试模型对于分布外问题和稀有对象的识别准确性。由2024级硕士研究生林佳栋、卢连平、张超组成的学生队伍获得该赛题冠军。

imagepng

林佳栋、卢连平、张超

队伍提出了一种基于Qwen-VL-Chat的多模态视觉问答框架,采用了Lora微调技术,专注于复杂场景下的鲁棒性提升。队伍通过精心设计的提示词工程,为不同的数据集定制化提示语,有效提高了模型在对象存在问题和计数问题上的准确性。在初步推理阶段,通过对错误样本的分析,队伍识别出模型在类别理解和罕见场景识别上的不足,并构建了针对性的训练集以增强数据多样性。该方案通过优化多模态大语言模型的泛化能力,突破了模型在处理分布外任务时表现不稳定这一技术难点,显著提升了模型在分布外任务中的推理准确性和问答性能。

“ECCV 2024 AI4VA:视觉艺术AI显著性估计”挑战的核心任务是考验视觉模型对漫画艺术中显著性特征的识别与解释能力。该挑战赛推出了AI4VA数据集,这是首个专注于漫画艺术的基准数据集。该任务的目标是创建能够生成显著性图估计的模型,以准确预测出漫画图像中的人类视觉注意力。由2024级硕士研究生赵霖楠、曹旭强组成的学生队伍获得该赛题冠军;由2024级硕士研究生尉思琪,李昱颖,卢艺辰组成的学生队伍获得该赛题季军。

imagepng

赵霖楠、曹旭强

队伍提出了一种基于全局特征分析的艺术细节预测网络ADP-GFA,该网络结合自监督学习与多尺度特征融合,显著提升了漫画图像中人类视觉注意力的预测效果。通过调整亮度、对比度、饱和度和锐度,并应用数据增强方法,如水平翻转和高斯模糊,队伍有效扩大了数据集的规模与多样性。针对训练时KL散度值较大的问题,提出显著性注视点映射方法,从显著性图像中模拟真实眼动追踪,提升了模型训练的可行性与稳定性。该方案解决了传统模型在显著性预测中存在的特征利用不充分的问题,显著提高了视觉模型对艺术细节的理解能力。

“ECCV 2024 AI4VA:视觉艺术AI深度排序”挑战致力于开发能够精确估计漫画艺术图像中各元素深度的模型。其目标是构建能够推断对象与观察者之间相对距离的模型,以生成准确反映场景三维结构的深度图。由2024级硕士研究生卢艺辰、李昱颖、尉思琪组成的队伍获得该赛题冠军。

imagepng

卢艺辰、李昱颖、尉思琪

队伍采用EcoDepth和EVP作为基准模型,针对漫画数据集进行了微调,优化了深度预测准确性。针对高分辨率和复杂内容图像的挑战,队伍提出了一种有效的图像分割策略,以提升模型性能。此外运用了多种后处理技术,包括支持向量回归、K最近邻、支持向量机、决策树和梯度提升回归树,以精确建立深度图与深度值的对应关系。通过合并同一模型在不同处理条件下的输出及不同模型的预测,实现了优势互补,进一步提升了结果。该方案通过融合不同处理下的基准模型结果,显著提升了深度排序的表现,成功解决了复杂漫画图像中深度信息获取难的问题。

“ECCV 2024 San Vitale”挑战任务为重建San Vitale教堂的玻璃碎片。当前重建这些原始玻璃的过程完全依赖人工,需要通过仔细比对每个碎片的颜色和形状来寻找匹配,这样的方式既费时又繁琐。该挑战赛旨在寻找最佳算法,帮助识别和连接这些玻璃碎片,以促进重建这座六世纪联合国教科文组织世界遗产的古老窗户。该赛题分为四个赛道,其中赛道1不包含干扰数据但提供标签;赛道2不包含干扰数据且不提供标签;赛道3包含干扰数据但提供标签;赛道4包含干扰数据且不提供标签。由2023级硕士研究生车晨悦、高琼、李国鑫组成的参赛队伍获得赛道1和赛道3双赛道冠军。由2023级硕士研究生祖岩岩、郝佳瑶和博士研究生张君沛组成的参赛队伍获得赛道2和赛道4双赛道冠军。

imagepng

车晨悦、高琼、李国鑫

imagepng

祖岩岩、郝佳瑶、张君沛

队伍1利用几何计算和图像处理技术,实现了图像碎片的智能拼接。在赛道1中,所有碎片为待整合的玻璃部分,而赛道3引入了冗余碎片。针对赛道3,队伍根据碎片边缘像素相似度进行聚类分析,有效剔除冗余碎片。通过计算碎片角度,将拼接问题转化为边缘匹配,寻找接近360度的潜在拼接点并设定容错范围。提取碎片特征并进行匹配,当角度和特征匹配度超过阈值时,碎片被认为可拼接。最后,通过标准化背景像素与拼接区域像素的平均值,筛选出像素差异小的碎片,确保拼接图像的视觉连贯性。该方案突破了玻璃碎片图像拼接难的技术问题,成功解决了繁琐且耗时的手工重建难题。

队伍2设计了一种新型图像碎片关系检测模型FragNet,构建了全自动化算法流程。FragNet基于视觉Transformer(ViT)和多头注意力机制,精准识别图像碎片的相似性和关联性。引入对比学习方法提升了正负样本的辨别能力。为全面评估模型性能,队伍设计了专门的数据处理流程,结合标签数据与负样本,并在后处理中删除输出文件中的空行。针对赛道2无干扰项且无标签的任务,采用ViT架构并取消数据处理流程以避免过拟合;针对赛道4有干扰项且无标签的任务,使用Swin Transformer架构并增加数据处理流程以提升性能。该方案实现了高效重建碎片的卓越性能,为历史遗产的数字化保护提供了新技术路径。

“ECCV2024 OOD-CV SSB”挑战分为广义类别发现轨迹赛道和开集识别赛道。该挑战旨在评估模型在无标签数据集中发现和识别新概念的能力,即对于已知类数据和未知类数据都预测标签。这种能力测试对于模型的泛化能力和对新场景的适应性提出了挑战。由2023级硕士研究生“高琼、车晨悦”和2024级硕士研究生“张超、林佳栋、卢连平”组成的两支参赛队伍获得ECCV 2024 OOD-CV SSB挑战赛广义类别发现轨迹赛道并列冠军;由2024级硕士研究生“方静、胡凯、高美林”组成的学生队伍获得同赛道亚军。由2023级硕士研究生曹佳敏、王泠淇组成的参赛队伍获得该赛题开集识别赛道季军。

队伍1采用熵正则化进行预训练,获得对旧类别良好分类性能的基准模型,随后通过自适应采样和主动学习微调模型,提高新类别的识别能力,并通过融合和投票机制解决了旧类别与新类别分类不平衡的问题。队伍2则使用dinov2-vitb14和dinov2-vitl14模型,结合集成策略和主动学习,适应不同数据集的特点,并通过数据增强与TTA提升模型鲁棒性,增强对已知和未知类别的识别能力。队伍1强调对旧类别和新类别分类不平衡问题的解决,而队伍2则通过集成策略与主动学习的结合,在不同数据集上的效果尤为突出。以上方案实现了广义类别发现任务中的技术突破,通过引入主动学习策略有效增强了模型对已知和未知类别的识别能力。

“ECCV 2024 Metaverse公寓检索”挑战的核心任务是通过用户文本查询推荐公寓,即基于用户文本描述来检索与之最匹配的公寓三维数字孪生模型。这一挑战旨在提升用户在寻找新住所的体验。由2023级硕士研究生贾森、于欣悦、张延昭组成的参赛队伍队获得该赛题冠军。

imagepng

贾森、于欣悦、张延昭

队伍采用了一种基于用户兴趣的多任务可感知家具推荐方法FArMARe,结合多模态对比学习与家具分类任务。通过引入视觉Transformer对3D场景进行多视角采样,生成高维图像描述符。随后,利用预训练的Transformer提取文本的句子级表示,并通过双向GRU进一步优化语义理解。在训练过程中,队伍采用了三元组损失用于跨模态匹配,提升了家具特征提取的泛化能力。此设计能够更精确地识别和匹配图像中的细节家具,在处理复杂场景和用户长文本描述时,保持了较高的检索性能。该方案提供了一种高效融合视觉与语言模态的解决方案,实现了高准确度的公寓推荐。

“ECCV 2024 ROAD++挑战赛-多标签原子活动识别赛道”挑战将交通场景中的多标签原子活动识别任务定义为一个包含64个类别的多标签视频动作识别任务,其中每个标签代表一个基本的活动类别。该赛题数据集为CVPR2024会议中提出的TACO数据集。该数据集由13个视频场景文件夹组成,这些文件夹包括不同的地图,在CARLA模拟器和不同的收集方法中(自动驾驶仪、场景运行器和手动收集三种)收集得到。由2023级硕士研究生曹佳敏、王泠淇组成的参赛队伍获得该赛题亚军;由2023级硕士研究生张延昭、贾森、于欣悦组成的参赛队伍获得该赛题季军。

imagepng

曹佳敏、王泠淇

在多标签原子活动识别任务中,视觉特征提取的鲁棒性是关键挑战,影响模型性能与泛化能力。为应对这一问题,队伍从数据处理、模型训练和后处理三个方面进行了优化。首先,在数据处理方面,将TACO数据集中图像帧分辨率从512×1536降至256×658,并在验证集和测试集中设置了固定的采样策略,降采样至16帧作为模型输入。其次,在模型训练中,结合先进的注意力机制与鲁棒的视觉特征提取方案,选用X3D和SlowFast作为骨干网络,并引入action-slot注意力模型,对x3d-m、x3d-l和SlowFast进行训练。最后,在后处理阶段,队伍对不同骨干模型的输出进行投票融合,以生成最终结果。该方案有效提升了多标签原子活动识别任务的平均精度,解决了现有模型识别准确率较低的问题,显著优化了原子行为识别的整体性能。

“ECCV 2024 ROAD++挑战赛-道路事件检测赛道”专注于分析自动驾驶车辆在视频中观测到的动态场景,并通过三元组(主体、动作、地点)进行活动捕捉。赛题数据集为ROAD++数据集,其精选自RobotCar包含了22段每段约8分钟的视频。该数据集由1000个带注释的视频组成,总计198K帧,单个视频平均长度约为20秒。训练集包含798个视频及其对应的json注释文件,测试集则由202个视频构成。评估标准采用基于0.1、0.2和0.5 IoU阈值的平均精度作为指标。由2024级硕士研究生王一晴、游欣宜、丁文茜组成的学生队伍获得该赛题亚军。

imagepng

王一晴、游欣宜、丁文茜

队伍采用3D-RetinaNet模型,结合3D-CNN和FPN处理视频中的时空信息,通过增量式处理实现在线目标检测和事件识别。模型融合one-stage目标检测技术和在线管状结构构建方法,先对视频每帧进行检测,再将随时间推移获得的结果关联,构建连贯的事件管道,实现对视频序列中目标和事件的持续跟踪与识别,增强了对动态场景变化的适应性。此外,将道路事件定义为由代理、动作和位置组成的三元组,使模型不仅能识别单个对象,还能理解对象间的互动和事件背景。该方案通过增量式处理,解决了动态场景中实时更新和适应性差的挑战,显著增强了模型对动态环境变化的适应性。

“ECCV 2024 AIM稀疏神经渲染”挑战旨在解决稀疏捕获环境下渲染给定场景新视图的难题。随着捕获图像数量的减少,底层几何体的重建变得愈发具有挑战性,易导致错误和伪影的产生。挑战赛的数据集由真实数据和合成数据的混合构成,包括DTU数据集以及一个全新构建的与其相似的合成数据集。数据集提供了一组带有相机姿态的输入图像,要求参赛者从新的相机位置和角度生成对应的新视图。由2023级硕士研究生郝佳瑶、高琼、祖岩岩组成的参赛队伍获得该赛题亚军。

队伍综合SparseNeRF与FreeNeRF少样本新视图合成和神经渲染优化方案,实现了稀疏图像下3D场景的高性能重建。FreeNeRF引入了频率正则化以规范NeRF输入的频率,同时通过遮挡正则化约束DTU数据集的密度场。SparseNeRF则通过深度排序提升了少样本条件下的合成效果。在训练阶段,SparseNeRF被集成至FreeNeRF中,对DTU数据集进行优化训练。最终,队伍提出利用像素加权融合的策略,并结合SSIM和PSNR评估指标对实验结果进行评价。该方案有效解决了稀疏图像捕获情况下的新视图合成问题,显著提升了3D场景的重建效果,改善了少样本条件下的神经渲染性能。

“ECCV 2024第六届LSVOS-VOS”挑战是在仅给定首帧对象掩模的前提下,对整个视频序列的视频帧进行特定对象实例分割。赛题数据集使用MOSE和LVOS取代了经典的YouTube-VOS基准测试数据集,以研究更具挑战性的复杂环境下的VOS任务,其中MOSE专注于复杂的场景,包括物体的消失-再现、不起眼的小物体、重度遮挡、拥挤的环境等,LVOS专注于长视频,具有复杂的物体运动和长期的再现。由2023级硕士研究生柴金铭、马芹和博士研究生张君沛组成的参赛队伍获得该赛题亚军。由2023级硕士研究生刘欣雨、张京和博士研究生张柯欣组成的参赛队伍获得该赛题季军。

imagepng

柴金铭、马芹、张君沛

imagepng

刘欣雨、张京、张柯欣

队伍提出了一种高级视频对象分割网络CSS-Segment,整合了现有SOTA模型Cutie、SAM2与SAM的优势。以Cutie为基础,CSS-Segment的图像编码器参考SAM2的设计,掩码编码器基于SAM,且集成了更密集的提示信号。过去视频帧的掩码输出存储在像素级和对象级存储器中,像素级存储器用于检索查询帧,并与对象Transformer中的对象查询进行双向交互。对象Transformer模块利用对象级语义信息丰富像素特征,最终解码生成分割掩码。该方案有效提升了视频对象分割的质量,突破了现有方法在视频对象分割任务中的瓶颈,显著提升了模型在复杂环境和长视频数据中的分割准确率。

“ECCV2024 CVPPA甜椒形状完成和重建”挑战要求通过给定的部分RGB-D图像、实例蒙版和姿势信息,重建完整的3D甜椒网格。重点关注的是如何通过不完整的视觉数据准确预测完整的3D网格。该挑战使用了一个用于农业机器人视觉系统的3D形状补全数据集,该数据集包含在实验室和商业温室环境中收集的甜椒RGB-D图像和相应的高精度点云数据。由2023级硕士研究生郝佳瑶、祖岩岩和博士研究生张君沛组成的参赛队伍获得该赛题亚军。

队伍方案的核心内容在于通过RGB-D相机获取果实的部分视图后,利用预训练的DeepSDF模型来学习果实的一般形状表示,在推理阶段,结合可微分渲染技术,系统能够根据多视角观测到的果实数据补全其完整3D形状,并估计其在全景地图中的自由度姿态,这一过程依赖于模型从训练数据中学到的形状先验。该方案通过联合形状补全和位姿估计,解决了果实的三维重建与定位问题,显著提升了3D形状补全的质量。

“ECCV2024 CVPPA甜椒检测和多目标跟踪”挑战旨在对农业环境中植株目标的跟踪检测,主要难点在于环境中存在的照明明暗变化与物体间的高水平遮挡等影响因素。赛题数据是通过安装在机器人上的 RGB-D 相机捕获,在训练集和验证集上提供了可用于训练跟踪系统的弱标签,同时还为训练集、验证集和测试集中的所有帧提供 mask2former 的输出,测试集数据由非可视的数据组成。赛题使用 HOTA 指标来度量评估跟踪性能。由2023级硕士研究生柴金铭、马芹和博士研究生张君沛组成的参赛队伍获得该赛题季军。

队伍基于ByteTrack模型提出了一种高性能跟踪算法。首先,处理赛题数据以符合MOT20格式,确保与模型输入兼容。考虑到ByteTrack预训练数据与赛题数据的域差异,队伍直接使用赛题数据训练模型。在测试阶段,模型对测试集进行了推理,生成初步跟踪结果。后处理过程中,通过深度信息筛选背景像素,并利用mask2former的高准确率分割结果,采用IOU阈值排除错误检测,优化目标识别准确性。该方案引入背景过滤和目标错检校正,成功突破了现有模型在光照变化和物体遮挡环境下的性能瓶颈,显著提升了跟踪性能。

西安电子科技大学人工智能学院焦李成院士团队在遥感领域积累了超过30年的经验,并在计算机视觉与遥感领域的顶级国际会议上取得卓越成就。团队带领学生在各类专业竞赛中屡获佳绩,针对计算机视觉与模式识别的多项挑战,提出了一系列创新解决方案并取得突破进展。通过参与学术竞赛,学生们快速提升了科研能力,加强了学术交流,这也是人工智能学院人才培养的重要措施之一。“赛中学”不仅帮助学生掌握相关知识,增强了科研动力,还培养了学生的组织协作与抗压能力。在过去几年中,团队在IGARSS、CVPR、ICCV、ECCV等国际赛事中累计斩获百余项国际冠亚季军奖项,取得显著的人才培养成果。(通讯员 杨育婷 张柯欣)

精彩推荐

更多推荐

下拉更多推荐

应用推荐