58安全图像质量评价技术实践
01
导读
图像作为信息存储和展示的一种重要载体,其质量高低对信息表达和用户体验具有重大影响,图像质量评价(IQA)主要通过图像特征进行分析,评估出图像的优劣,在视频图像质量检测、推荐排序等领域有重要应用。本文主要介绍 IQA 技术在 58 同城业务中的算法实践。
02
技术背景
图像质量评价(IQA, Image Quality Assessment)是图像领域基础技术之一,图 1 展示了影响图像质量的 9 大因素,最外层表示各个因素的细分类别。例如,清晰度越低的图像,其质量分数一般越低。
图1 图像质量的影响因素
2.1 IQA 方法的分类
IQA 方法按提供原始图像信息的多少,大致可以分为全参考(Full-Reference)、半参考(Reduced-Reference)和无参考(No- Reference 或 Blind- Reference)三种。全参考需要提供一个无失真的原始图像,通过对二者的对比,得到一个对失真图像的评估结果,传统方法有 MSE、PSNR、SSIM、VMAF等,深度学习方法有 FR-DBCNN、WaDIQaM-FR 等;半参考方法只需将失真图像的某些特征与原始图像的相同特征进行比较,比如小波变换系数的概率分布、综合多尺度几何分析和对比敏感函数等;无参考方法完全不需要参考原始图像,该类方法的难度最大,同时实用价值也最高,因为算法的真实应用场景往往很难得到失真图像的原始图像信息,无参考传统方法主要有BRISQUE、MSDD 等,深度学习方法有 NR-DBCNN、hyperIQA、WaDIQaM-NR、RankIQA等。
2.2 典型数据集
算法离不开数据,图 2 展示了近些年 IQA 算法的典型数据集,比如,LIVE 数据集发布于 2006 年,拥有 29 张参考图像,779张失真图像,共有 5 种失真类型,包括 JPEG 压缩、JPEG2K 压缩、白噪声、对比度衰减、高斯模糊。
图2 IQA算法的典型数据集
TID2013 发布于 2013 年,拥有 25张参考图像,3000 张失真图像,共有 24 种失真类型;KonIQ-10k 发布于 2018 年,包含 10073 张真实失真图像,每张图像通过众包的方式进行主观评分标注。
IQA 数据集分为真实失真数据集(Authentic Database)和人工失真数据集(Synthetic Database),真实失真的数据集是使用非人工合成的失真图像进行打分标注;人工失真数据集是由原始图像利用图像处理技术来合成不同失真类型和失真程度的图像来进行打分标注,典型的如CSIQ,图像尺寸为512x512,包括 6 种失真类型,由 25个观察者进行打分标注,如图 3 所示。
图3 CSIQ人工合成数据集
IQA 数据集的 label 主要为 MOS(平均主观得分,Mean of Score)和 DMOS(平均主观得分差异,Differential Mean Opinion Score),其计算公式如图 4 所示。
图4 MOS和DMOS的计算公式
其中,M 为观察者人数,ri,j为第 i 个观察者对第 j 张图片的主观评分,U 为第 j 张图片主观得分的均值,ε为标准差,我们可以通过[U-ε,U+ε]的 95%置信区间来剔除部分不合理的标注分数;DMOS需要观察者同时对失真图像和参考图像进行主观评分,两者得分差异为di,j,dij’为对第 i 个观察者的主观评分差异进行归一化的结果,最终第 j 张图片的 DMOS 为 M 个观察者的 dij’平均值。
2.3 评价指标
对于一种 IQA 算法性能好坏的评估标准就是关注其在数据集上观察者的主观评分和算法评分的相关度。如果它们的相关度较高,则说明该 IQA 算法的性能较好,否则反之。IQA 算法的评价指标通常为 PLCC/LCC(皮尔森线性相关系数,Pearson’s Linear Correlation Coefficient)和SRCC/SROCC(斯皮尔曼秩相关系数,Spearman’s Rank order Correlation Coefficient),用于衡量算法预测值和真实值的一致性与准确性,值越接近 1 代表性能越好。PLCC 的计算公式如图 5 所示,其由两个变量的协方差和标准差乘积来计算。
图5 PLCC计算公式
SRCC 主要评价的是两组数据的等级相关性,如图 6 所示,假设有 10 张图片,X 变量为图片注的 MOS 得分,Y 为模型预测的得分,分别对两个序列做排序得到变量内部的等级 Rank(X)和 Rank(Y),d 为每张图片等级差值的绝对值,由 d 的平方即可计算 SRCC 的,计算公式如图 7 所示。
图6 变量X和变量Y的等级相关性
图7 SRCC计算公式
2.4 传统方法
IQA 的传统方法 PSNR(峰值性噪比,Peak Signal to Noise Ratio),通常用来评价一幅图像压缩
后和原图像相比质量的好坏,PSNR 越高,压缩后失真越小,其可以借助均方误差 MSE 来计算,如图8,其中 I、K 表示两个 MxN 的单色图像,MAX 表示图像像素的最大值。SSIM(结构相似性指数,Structural SIMilarity Index),主要衡量两张图像的相似度,当两张图像一模一样时,SSIM 的值等于 1,其计算公式为图 9。
图8 PSNR计算公式
图9 SSIM计算公式
2.5 基于 CNN 的方法
随着深度学习的兴起,基于 CNN 的 IQA 方法也相继被提出来,在 IQA 算法性能上也获得了很大的提高。从 CVPR2020 的文章《Blindly Assess Image Quality in the Wild Guided by A Self-AdaptiveHyper Network》可以看出,hyperIQA 在人工失真数据集和真实失真数据集上均达到了较好的性能,同时 DBCNN、WaDIQaM 在LIVE 和 CSIQ 上也达到了不错的效果,接下来我们详细介绍这三种基于CNN 的 IQA 方法。
图10 IQA方法在公开数据集上的性能
2.5.1 WaDIQaM
WaDIQaM 的全参考网络结构如图 11 所示,其特征提取部分是基于 VGG-16 的孪生网络,两个分支分别输入参考图片和失真图片,输入图像是在原始图像上进行随机裁剪的32 个 32x32 的 patch图片,为了使网络适应 32x32 的输入尺寸,作者在 Backbone 上增加了两个卷积层和一个最大池化层;网络两个分支提取的特征向量分别为 fr、fd,特征融合采用 fr、fd和 fr-fd三者进行concat 操作来完成,融合之后的特征向量输入一个全连接层来回归每个 patch 图片的质量分数。网络训练过程中使用 L1loss 进行损失计算。
图11 WaDIQaM全网络参考
当网络得到每个 patch 的得分时,如何表示整张图片的质量分数呢?作者提供了两种空间池化方法:1)直接取所有patch 得分的平均值,这种方法简单直接,但忽略了失真在图像上的空间分布;2)将融合之后的特征向量输入另一个全连接层,回归出每个 patch 得分的权重,最后使用每个 patch的权重与得分进行加权平均得到整张图片的质量预测分数。
图12 WaDIQaM的无网络参考
WaDIQaM 的无参考网络是在全参考网络的基础上舍弃了全参考分支和特征融合操作,采用相同的空间池化方法和损失函数。
WaDIQaM 方法的特点是:1)与其他Data-driven 的方法不同,patch 数据没有进行归一化,考虑了整体图像亮度和对比度对质量的影响;2)各个 patch 引起观察者的注意力程度不同,局部失真的空间分布不同,给予不同的权值能够更好地评估图片质量(类似于注意力机制)。
图13 WaDIQaM 对不同失真类型图像的每个patch权重可视化,亮度越大表示权重越大
2.5.2 DBCNN
DBCNN 是发表在 IEEE 2018 上的方法,其网络结构也是由两个基于 VGG16 分支的孪生网络组成。
图14 DBCNN网络结构图
DBCNN 其中一个分支为 S-CNN,主要功能是用于人工失真分布的拟合,作者在大型图像数据集Waterloo Exploration Database 和 PASCAL VOC 进行不同失真类型和失真程度的数据合成,总共包含39 个失真类别。预训练的图像尺寸为 224x224,使用 Softmax loss 进行损失计算。
图15 PASCAL VOC 数据集上合成的人工失真图片
DBCNN 的另一个分支主要功能是识别真实失真的分支,分支权重在 ImageNet 数据集上进行预训练,损失函数也为 Softmax loss;DBCNN 特征融合部分采用了双线性池化的操作,S-CNN 提取的特征向量为 Y1,VGG16 提取的特征向量为 Y2,双线性池化之后的特征为 B=Y1TY2,最后 B 输入一个全连接层得到质量分数,并通过 L2 loss 进行回归优化。
DBCNN 方法的特点是:1)合成大型的人工失真数据集并设计 S-CNN 预训练,尽量减小真实失真和模拟失真之间的 gap,提高模型泛化性;2)使用双线性池化来进行特征融合。
2.5.3 hyperIQA
最后介绍 hyperIQA,来自于 CVPR2020,如图 16 所示,其整体网络结构包括三个部分:特征提取网络、感知规则学习网络和质量分数预测网络;由于真实场景下图像失真类型和失真程度的复杂性,作者认为对于不同内容的图片,模型对质量的评价尺度应该做自适应的调整,模型的感知规则学习网络就是为了实现这一功能。
图16 hyperIQA 网络结构图
通常 IQA 模型经过训练后,其质量预测的网络权重θ 也就固定了,针对输入图片 x,与模型权重θ 经过计算后输出质量分数 q;hyperIQA 针对不同图片 x,则会自适应地调整模型权重,由感知规则学习网络 H 和特征提取网络 S 生成自适应权重θ x,由输入图片 x 和自适应权重θ x计算质量分数 q,整体过程由图 17 的数学公式进行表示。
图17 hyperIQA 的数学公式表示
HyperIQA 的特征提取网络采用的是 ResNet50,共提取 4 个 stage 的多尺度特征,前三个特征向量输入局部失真感知模块(LDA),其由 1x1 卷积和全局平均池化层构成,输出向量采用 concat 操作进行连接,用于质量预测,如图 18 所示。
图18 hyperIQA 特征提取网络
hyperIQA 的感知规则学习网络由多个 1x1 卷积层构成,其输入为特征提取网络提取的高层语义特征,输出向量为质量预测网络全连接层的权重和偏置,即自适应权重?!。质量预测网络由 4 个全连接层构成,输入为特征提取网络提供的多尺度特征,其与自适应权重?!计算得到最终的质量分数 q。训练时 hyperIQA 对每张输入图片随机采样 25 个 224x224 的patch 进行训练,采用 L1 loss 进行损失计算。
hyperIQA 方法的特点是:1)设计更符合人类视觉系统的 Hyper Network,能够根据图像内容自适应调整质量预测网络的权重;2)局部感知模块 LDA 能够感知图像局部失真,结合全局语义信息,进行图像质量的综合评估。
总体来说,目前 IQA 方法的设计理念都是为了完成 IQA 任务的终极目标,即感知图像不同失真类型和失真程度的分布。
03
业务背景
58 同城作为国内领先的分类信息网站、专业的"本地、免费、真实、高效"的生活服务平台,包括本地服务、房产、招聘、二手市场、金融、汽车等业务板块,拥有庞大的活跃用户群,每天接受的图片流量高达数亿。
58 同城在企业招聘业务中,企业主需要上传企业相关图片到企业图库,但这些上传的图片质量良莠不齐,存在如下问题:
1、部分图片质量过低,无法满足业务标准,需要对其进行识别和剔除,降低图片不良率(目前线上不良率为 9%);
2、无法区分中高质量图片,因此无法通过排序或推荐的方式提升用户体验。
图19 招聘企业图库存在的图片类型
如图 19,展示了企业图库中存在的部分图片类型,通过需求提炼,我们归纳了业务中关于图片质量的大致需求:
1、 模糊、噪声、锐化、曝光和畸变严重等的图片属于低质量图片;
2、 长宽差距过大的图片为非高质量图片;
3、 纯色背景的产品展示图、品牌 Logo 等为非高质量图片;
4、 文字占比过大、大字报类图片为非高质量图片;
5、 证书、执照、协议、合同类图片为非高质量图片;
6、 分辨率过低的图片为低质量图片;
因此设计的图像质量评价技术方案需要解决上述问题并满足相应的业务需求,并达到良好的落地性能。
04
技术方案
为了满足当前的业务需求,我们设计了相应的技术方案,如图 20 所示,以 IQA 模型为基础得到业务图像的基础得分,通过 OCR、背景聚类等方法对质量分数进行校正,得到最终的业务评分。
图20 技术方案
为了衡量当前算法方案的性能,我们建立了业务测试集58zhaopin-5k,由表 1 所示,其含有低质量图片 814 张,中等质量图片 1605 张,高质量图片 2572 张。
表格1 58zhaopin-5k测试
由于 IQA 模型预测的质量分数为连续值,而我们的业务测试集为离散的类别,对模型输出的预测分数我们采用 K-means 方法进行分数粗聚类,由小到大排序,对于类别边界的样本采用阈值搜索来确定准确率最高的阈值。
图21 K-means 粗聚类与阈值搜索可视化
我们使用 WaDIQaM、DBCNN 和 hyperIQA 分别在人工失真数据集 LIVE、TID2013 和真实失真数据集 Koniq-10k 上进行训练,并在 58zhaopin-5k 测试集上进行测试,由表 2 可知,Koniq-10k 上训练的 hyperIQA 模型,在测试集 58zhaopin-5k 上达到了最高的准确率 86.93%,由此我们选定在真实场景中性能较强的 hyperIQA。
表格2 WaDIQaM、DBCNN 和 hyperIQA 在不同训练集上训练的模型在目标测试集上的准确率结果,其中Accuracy-low表示低质量类别的准确率,Accuracy-middle表示种类质量类别的准确率,Accuracy-high表示高质量类别的准确率
由于 hyperIQA 使用的原始 Backbone 网络为 ResNet50,我们尝试将其替换为更为轻量型的网络ResNet18、MobileNetv3,其测试结果如表 3 所示,hyperIQA-ResNet18 与 hyperIQA-ResNet50 的指标接近,但其模型复杂度较小,故采用更为轻量的hyperIQA-ResNet18。
表格3 hyperIQA不同 Backbone在58zhaopin-5k上的性能指标
hyperIQA 作为基础模型得到的质量分数为 0~100 的浮点值,经过粗聚类,0~40 为低质量分数段,40~60 为中等质量分数段,60~100 为高质量分数段,接下来我们针对各个不同的 case 进行得分校正:
1、 直接校正:低分辨率(长或宽小于 256)的图片进行惩罚,高分辨率(长或宽大于 1000)的图片
进行奖励;长宽比(长:宽<2.5或 宽:长<2.5)的图片进行惩罚;
2、 文字检测(DBNet),累计文字像素区域面积,统计文字面积占整张图片的比率,大于 30%为占
比过高,归为中低质量图片,将高质量得分映射到中质量分数段;
3、 文字识别(CRNN),含"执照"、"证书"、"合同"、"协议"、"许可"、"授权"、"统
一社会信用代码"、"注册资本"、"经营者姓名"、"经营场所"等关键字的图片,归为
中低质量图片,将高质量得分映射到中质量分数段;
图22 OCR识别
4、 通过前述校正方法后的高质量图片还会进行背景像素聚类,过滤产品展示图、Logo 图片,将高质量得分映射到中质量分数段。
图23 原始图片和背景颜色聚类后的结果图像示例
如表 4 所示,当加入上述分数校正方法后,算法方案在测试集上的准确率指标由 86.93%提高至94.72%。
表格4 加入分校正方法后,算法方案在测试集上的准确率指标,whRatio表示长宽比分数校正,textRatio表示文字占比率过大分数校正,purColor背景颜色聚类分数校正
05
落地效果
我们将算法方案工程化和服务上线后,服务每日增量图片调用量为 12 万次,存量图片调用 200万次,58 招聘企业图库的图像不良率由 9%降低至 0%,达到了业务需求的预期。
图24 算法方案的结果展示
06
总结与展望
我们基于实际业务场景,提出了一套定制化的图像质量评估算法方案,并很好地满足当前业务需求。在未来,我们将对算法方案通用化进行改进优化,使其既能提供识别high-level 特征的能力,又能提供识别特定需求 low-level 特征的能力,拓展业务场景,在视频与图像质量检测等多个业务中达到良好的落地性能。
参考文献:
[1]https://blog.csdn.net/Image_test/article/details/52036873?locationNum=2&fps=1
[2] Vlad Hosu, Hanhe Lin, Tamas Sziranyi, and Dietmar Saupe. Koniq-10k: An ecologically valid database fordeep learning of blind image quality assessment.
[3] Shaolin Su, Qingsen Yan, Yu Zhu, Blindly Assess Image Quality in the Wild Guided by A Self-AdaptiveHyper Network.
[4] Sebastian Bosse, Dominique Maniry, Klaus-Robert Mu ller, Thomas Wiegand, and Wojciech Samek. Deepneural networks for no-reference and full-reference image qual- ity assessment.
[5] Weixia Zhang, Kede Ma, Jia Yan, Dexiang Deng, and Zhou Wang. Blind image quality assessment using adeep bilinear convolutional neural network.
[6] https://blog.csdn.net/caoleiwe/article/details/49045633.
[7] https://www.cnblogs.com/zhangzizi/p/14734071.html
作者:谢章翔
来源:微信公众号:58技术
出处:https://mp.weixin.qq.com/s/JI6KL1JeQV99y1Eo4kkmuA
中国唯一以黄河命名的地方甘南最美的绿色,去过的人都惊呆了黄河之水天上来,奔流到海不复回你去过以黄河命名的地方吗?数不清的肃穆寺庙长长的转经廊和红房子络绎不绝的朝圣者青翠欲滴的草原本色,藏族的家家户户都散发着一股酥油茶香位于川甘交界处的甘
魏高帝中国唯一一位太监皇帝中国历史上有许多皇帝,他们没有当皇帝之前的身份也有许多类型,比如由乞丐逆袭成为皇帝的朱元璋从保安当到皇帝的赵匡胤从街头混混头子到大汉皇帝的刘邦,其实很多皇帝在没有当皇帝之前都有一份
又一批手机可以升级鸿蒙系统3。0了,教你这样内测升级,太实用了大家好,欢迎来到科技熊又一批华为手机的机型可以升级为鸿蒙系统3。0了,你知道吗?因为最近华为这边发布了第三批可以升级为鸿蒙系统的机型,包括P20系列,mate20系列,像nove9
祝贺丨7位CAAI会员荣获中国青年科技奖11月12日,2022世界青年科学家峰会开幕式上,第十七届中国青年科技奖揭晓并举行颁奖仪式。中国人工智能学会副秘书长刘奕群教授,中国人工智能学会会员方璐副教授耿华教授邓方教授田贵华
中国VR企业50强排名公布百度第一HTC京东方入榜近日,2022世界VR产业大会在江西省南昌市正式举办。在该次大会的开幕仪式上,虚拟现实产业联盟名誉理事长中国工程院院士赵沁平发布了一份2022中国VR50强企业名单。这份名单中有不
双展释放国台酒声音诠释打造中国新名酒的决心和能力每经编辑方奕奕受到多重外部因素的影响,今年酒业展会格外特殊,全国糖酒会与贵州酒博会在时间上实现了较大程度的重合,这让行业内外积压了许久的热情在这场行业盛会中得到释放。连续多年参展的
订单总额近40亿美元!沙特采购300架中国无人机,生产线打包拉走为期六天的珠海航展终于胜利落下帷幕,在此次航展中,共740多家企业参与了此次活动,分别来自43个国家和地区,成交机型达549架。其总交易额创纪录的达到了398亿美元的记录(2818
匡文留我爱我的祖国连载7右手一指是吕梁右手一指是吕梁朋友,当你随着我们的书页饱览了一番黄土高原最东端的秦岭山脉的奇谲风光之后,让我们的目光往北,从西岳华山抵达北岳恒山,好好游历这塞外第一山吧。这样便得由快嘴奇奇当主角了
决胜荒野3B站全球首播,德爷重返亚马逊,竟然翻车了?他来了,他来了!被誉为地表最强男人现代鲁滨逊的荒野求生专家德爷,带着最新一季的决胜荒野强势,于B站归来了!这一次,他将携手七位顶尖荒野求生高手,解锁六大地图在雨林沙漠丛林高地里展开
我第一次被家暴那是在一个初春,1988年。我33岁,女儿12个月的时候。她刚刚学会走路,我是全职上班。每天早晨,五点要起床,做饭。夜里不能休息好,女儿有病总是哭闹。单位一周休息一天,总是忙的焦头
学习写作要确保信息齐全写作的一个重要功能就是传递信息,而信息不全则会导致文章内容薄弱。如何确保写作时信息齐全,就需要进行相应的训练。面对一些理由不清情况不明的事物,我们是无法快速做出判断的。一信息不全一