让违规商品无处遁形,亿万商品识别全靠这双火眼金睛
商品是电商体系的基本组织单元,随着政采云平台商家数量的增加,上架商品也呈现几何级数增长。目前,政采云平台已有商品1.5亿,如何能够精准、高效地实现商品识别,保证用户在搜索时能够获得所需的、合规的商品呢?
很显然,单纯依靠人力是无法完成如此量级商品管理的,必须借助技术的力量。为此,政采云有限公司通过训练机器使其具备识别能力,实现了在事前和事后对数亿级商品进行排查和处理。
目前,借力AI智能算法这双 "火眼金睛" ,政采云平台在商品管理方面已经具备三项能力:
1
OCR智能巡检识别"禁限售"商品
在政采云平台上,药品、医疗器械、警用装备等需要特殊经营许可资质才可以上架的特殊类目商品属于商品管理时的严管对象。虽然平台在商品发布和搜索时能够对相关敏感词进行拦截和屏蔽,但部分商家仍会采取使用 同义词、加拼音或者谐音字 的方式发布商品,大大增加了人工巡检和敏感词的维护成本。
为解决该问题,政采云平台从图片文本角度进行巡检,针对平台的"禁限售"商品开发 OCR巡检能力 ,通过OCR技术实现多个角度文本检测和识别,并采用TensorRT加速策略,保障了大规模图片文本提取和平台敏感词校对,实现"禁限售"商品的高效巡检;同时,缓解了单纯目标检测方案带来的人工标注成本高的问题。
图1【敏感词校验等基本检测流程】
图2 OCR检测效果图
2
多模态融合技术解决类目错放难题
由于部分新商家没有电商经验或对政府采购业务缺乏了解,以往平台商品存在一些类目错放的情况,人工处理起来费时费力,而且效果不佳。政采云平台利用自监督、无监督学习建模方法,对大量的商品标题和主副图像等进行表征学习,结合AI注意力机制与多模态融合技术,实现对商品类目的精准预测。
图3:类目错放识别流程图
3
计算机视觉技术应对盗图检测
虽然明知盗用他人图片违反平台规则,也可能存在被起诉的风险,但部分商家仍存在侥幸心理。对于盗图侵权等违规类型,政采云平台采用计算机视觉技术,对商品图片的像素成分进行建模,从大量样本中提取特征并判断其水印信息,以确定该图片是否为盗图, 有效提高了对盗图检测的效率和准确性 。
然而,随着时间推移,部分业务场景越来越复杂,甚至存在管理与反管理的博弈对抗,单一的AI技术已经难以满足复杂场景的需要,因此需融合多种AI技术和运筹方法才能提高精确识别度。
图4:盗图识别效果
近年来,各级市场监管部门对药品、医疗器械等特殊商品的监管日益加强,并对违反广告法等行为采取"零容忍"态度。政采云平台以此为契机,开发上线商品智能巡检机器人,针对盗图侵权类、类目错放类、禁限售类等违规商品进行事前拦截,从源头识别、拦截违规行为,在提升平台商品管理质量的同时,助力商家合规经营,降低处罚风险,维护平台商品合规与采购单位权益。目前,政采云平台已积累敏感词1.2万个、禁限售识别模型14项、类目错放识别模型187个,识别准确率达95.56%,极大提高了商品管理效率。
不过,由于算法存在准确率问题,使用单一的判断规则容易导致"误杀",为避免此类问题发生,政采云平台另外建设了规则引擎,通过文本、类目、价格等维度加"是、否、非"逻辑组合成更细颗粒度的规则,以进一步提高识别准确率。
图5:拦截违规风险商品
商品管理任重道远,科技力量让许多"事后处罚"变成"事前拦截",减少了违规的发生,真正让监管更加精准、有力、温情。作为一家专注于政企采购数字化的科技公司,政采云有限公司始终将技术创新作为重中之重,努力构建智能化的数字采购生态系统,让采购各方获得简单、高效、快乐的体验。