Yolox+Siamese孪生神经网络:图标点选验证码识别

本文最后更新于 2025年4月27日晚上

问题描述

网页场景

图片下载下来是这样的，底部会有几行小图标，第三行小图标是正确的顺序

这个问题的目标就是按顺序给出三个坐标点。

因为图标种类众多，没法直接用yolox进行图标详细分类，所以我训练的时候只分了两类，一类白的，一类黑的，虽然在本文写的方法中这个类别并没有发挥作用，但考虑到标注一类和两类的工作量是一样的，所以还是标了两类，而且如果采用其他方法对图标进行预处理，这个分类还是有用的。

yolox部分不做介绍了，之前也写过几篇相关的文章，可以参考。

效果如下图

借用了大佬提供的代码，特征提取网络采用vgg16

需要关注的是数据集的格式，就是一个类别一个文件夹，里面放同一类别的图片，相似度记为1，不同文件夹里的图片是不同类的，相似度记为0。

快速打标签制作数据集的方法

yolox框出来的5张小图，从左到右记为1-5，给出图标正确顺序对应的记号，如，例图的标签为243，

打开图片文件夹放大，打开一个记事本即可快速打标签

打完标签，结合yolox给出的位置框，即可扣出图片，每张验证码图片可以形成3对图片（3个类别），每个类别有3张图：验证码图片下方给出的黑图、白图，以及嵌入背景的图标。

开头提到图标种类很多，但也会有重复的，因此如果仅按照上面的流程，会导致同一类图标放进了两个不同文件夹，神经网络就不懂了，到底是要算一类还是两类？

所以需要给数据集去重，确保同一类的放在同一个文件夹，方法是取出每个文件夹的第一个图标（1.jpg是验证码图片下方三排中的黑底白图），进行相似度计算，如果足够相似，则把两个文件夹合并。

怎么判断足够相似？如果同一个图标（黑底白图）出现在不同验证码图片中，那么他们几乎是像素级一致的，可以进行二值化后将两张图片相减，取差值绝对值之和，如果这个值足够小，说明是同一类的图标。

训练过程省略

预测就是输入两个图片，给出相似度

预测得到一个3*5的相似度矩阵，循环选取相似度最大值并删除所在行列即可得到最佳匹配结果，结果绘图如下

Done.

目标检测

#数据集 #目标检测 #图像处理 #孪生网络

Yolox+Siamese孪生神经网络:图标点选验证码识别

http://example.com/2022/09/15/yoloxsiamese孪生神经网络图标点选验证码识别/

作者

xinhaojin

发布于

2022年9月15日

许可协议