链载Ai

标题: 多模态AI质检:身份核验场景实践 [打印本页]

作者: 链载Ai    时间: 昨天 22:19
标题: 多模态AI质检:身份核验场景实践

ingFang SC";font-weight: bold;color: rgb(255, 66, 0);line-height: 20px;visibility: visible;">


本文介绍了一项将多模态AI模型应用于身份证照片质量检测的实践。针对用户上传身份证时常见的图片问题,项目通过引入阿里云百炼平台的多模态模型,在OCR识别失败时进行智能检测与反馈,提供对客友好的提示文案,从而引导用户重新上传合格照片。该方案采用“无感知预发布+递进+灰度”上线策略,确保稳定性,并在不牺牲安全性的前提下,利用大模型提升图像理解能力。

图片ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;visibility: visible !important;width: 114px !important;"/>

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: center;visibility: visible;line-height: normal;">业务背景


随着现代互联网业务的不断发展与深入,用户身份信息核验已经成为各种应用场景中不可或缺的一部分。身份证上传成为验证用户身份的核心手段之一。然而,在我们淘天场景金融(以下简称“场金”)项目实际运行的业务数据表明,用户在上传身份证时,存在以下常见的图片质量问题而导致最终用户的业务流程中断:

  1. 非身份证图片
    上传与身份证无关的错误图片或者是社保卡等其他证件照片。
  2. 两面照片顺序错误
    上传时将国徽面与人像面类型选择错误。
  3. 模糊
    照片模糊不清,关键信息(如姓名、身份证号码、有效期等)区域可能无法被准确识别。
  4. 反光
    因光线过强、反光或拍摄角度不当,部分区域过亮导致信息无法识别。
  5. 遮挡
    身份证关键信息被手指或其他物品遮挡,导致部分关键内容无法被正确识别。
  6. 不完整
    身份证边缘被截断、内容超出范围或比例不符合要求。
  7. 多张卡证
    将身份证两面图片合成一张图片上传。

这些问题使照片上的信息无法正常提取,用户会因身份验证失败而退出当前业务流程。即使身份证信息能正常提取也可能在机构审核中因为照片质量不符合机构侧要求而导致审核失败,对用户体验和业务带来了负面影响,所以我们目标是让用户上传质量更高的身份证照片。

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;visibility: visible !important;width: 114px !important;"/>

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: center;visibility: visible;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">为何引入多模态模型进行图片检测


目前场金的OCR由阿里云OCR服务提供,此次采用的模型服务由阿里云百炼平台提供。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;">OCR和多模态模型文字提取的区别


因此两者的应用领域不同,再结合实际情况我们可以得出以下结论:
  1. OCR成功说明文字可以提取,但提取出的信息并不一定完整,可能会因为遮挡或反光缺失部分数据;而OCR失败则说明照片无法识别,质量较差。
  2. 多模态图片理解+上下文驱动,不仅识别图片文字/内容,还能实现个性定制、场景适配、智能决策与人性化输出,包括:
ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;visibility: visible !important;width: 114px !important;"/>

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: center;visibility: visible;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">模型调用问题与对策


在调用模型服务的实践中,归纳了以下几个主要问题:
  1. 幻觉问题:
    在部分信息被遮挡的情况下,模型会错误地填补缺失部分的信息,如身份证有效期 "08.23 - 2041.08.23"会填补为 "2008.08.23 - 2041.08.23";将“珠海”识别为“上海”。
  2. RT 较高:
    当前多模态接口的平均响应时间较高(约3秒),同步调用会影响用户体验,尤其在对时效性要求高的场景下。
  3. 准确率:
    不同模型(如genmini、GPT、Qwen)准确率存在较大差异。
  4. 稳定性:
    如果接口出现服务不稳定、异常、非预期的返回如何做兼容。

针对以上问题,采用以下方案决策:

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;visibility: visible !important;width: 114px !important;"/>

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-size: 17px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: 0.544px;orphans: 2;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;text-align: center;visibility: visible;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">上线策略和线上表现


平滑发布

此次为用户端首次上线AI功能,为确保上线过程平稳可控,我们采用多阶段的发布节奏:
  1. “无感知预发布”策略:
    上线初期仅埋点收集数据,确保用户界面与体验保持不变。根据数据验证,确认功能表现符合预期后,再进入到下个阶段。
  2. “递进”策略:
    为了平衡风险及效果验证,上线分阶段递进策略。首阶段,试点仅针对OCR识别失败的用户进行模型调用,收集数据并评估功能表现,确保链路稳定性。待试点稳定、指标验证达标后,后续将扩展至OCR识别成功与失败的全量场景。
  3. “灰度发布”策略:
    逐步放量,1% → 5% → 10% → 30% → 50% → 100%。

线上表现

截至目前,接口响应时间整体稳定在3秒左右,未出现百炼服务异常和出现非预期的返回的情况。上线后,接口仅在 OCR 失败时调用,统计显示各类图片质量问题分布如下,显示“非身份证”及“类型传反”的情况占比超过 90%

模型理解结果
占比
类型传反(国徽面和人像面传反)
53.67%
非身份证
38.26%
模糊和反光
5.41%
不完整和遮挡
2.66%
多张卡证
0%

针对以上不同结果的对客友好的提示文案:
  1. 非身份证

    您上传的图片不符合身份证照片的要求,请确认并重新上传真实有效的身份证照片。

  2. 非人像面或者国徽面
    您上传的身份证照片与所选类型不符,请核对后重新上传正确的人像面或国徽面照片。
  3. 遮挡
    检测到您的身份证关键信息区域有被遮挡,请确保信息清晰可见后重新上传。
  4. 模糊
    您的身份证关键信息区域较为模糊无法识别,请重新拍摄并上传清晰的身份证照片。
  5. 多张卡证
    系统检测到图片中包含多张身份证,请仅上传单张完整的身份证照片。
  6. 异常或非预期兜底文案
    身份证识别失败, 请重新上传。

其他相关指标

上线后,相关指标表现出积极变化,OCR失败用户的再次失败率(OCR失败用户中再次识别仍失败的比例)有所下降,申请转化率有所提升。整体来看,功能上线后对业务流程产生了正向影响,在手淘海量用户群体下,这些转化率的提升能够带来极其可观的业务增益!

百炼模型服务调用成本


计费方式

总费用=输入Token数x模型输入单价+输出Token数x模型输出单价。


图像Token的计算规则


图像转成Token的方法为每28x28像素对应一个Token,一张图最少4个Token;模型的单图Token的上限为1280,超过该值的图像会被缩放,直到图像的Token小于1280。


可将单图Token上限从1280提升至16384,但RT也会增加。



百炼Qwen-VL-Max模型计费

调用单价预估

再计入prompt token、系统token以及返回时的元信息等,通过官方工具大致估算调用单价在0.01元左右。


业务和技术上的价值


引入多模态模型照片检测,在业务和技术上带来以下核心价值:

  1. AI 应用场景突破
    场金首个面向终端用户的AI接入实践,在产品场景中的落地应用实现突破,探索了如何将大模型应用与实际业务结合。
  2. 提升转化率与入件率
    在用户上传身份证的关键阶段,通过合理提示建议使用户上传更优质的图片,有效提高了转化率与入件率。
  3. 场景适配
    通过大模型提示词的增强优化,无需对每个场景进行大规模定制,用于多种类型的证件上传场景即可快速扩展功能,为更多业务场景赋能,未来结合工作流或智能体编排,将进一步提升可维护性和功能扩展能力。
  4. 通用性
    借助统一的Mtop接口设计,最大程度减少不同产品间工程代码重复,提高技术复用性,同时降低了各产品之间的技术接入门槛。

综上,基于多模态模型的图片质量检测实践,为身份核验的业务流程提供了强有力的技术支撑。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5