华付信息AILAB团队斩获2020 iFLYTEK A.I.开发者大赛亚军

2020年11月06日

202011061604629704577255.jpg

“iFLYTEK A.I. 开发者大赛”是由科大讯飞发起的顶尖人工智能竞赛平台,汇聚产学研各界力量,面向全球开发者发起算法及创新应用类挑战,推动人工智能前沿科学研究和创新成果转化,培育人工智能产业人才,助力人工智能生态建设。

一路披荆斩棘,夺得亚军

2020 iFLYTEK A.I.开发者大赛

从6月22日正式启动报名

共吸引了来自全球9000多支团队参赛

在全国线下10大城市路演

通过层层角逐

68个优秀开发者团队历经淬炼,脱颖而出

上演了一场智慧缤纷的A.I.巅峰之战


202011061604629832115733.jpg

华付信息AILAB团队成员高攀

在决赛现场答辩


最终经过各大赛道

国内外专家评委团队的严格评选

诞生了36支获胜队伍


202011061604629927325040.jpg


华付信息AILAB团队

凭借出色的解决方案和技术优势

在此次算法竞赛中斩获了

自然场景文字检测挑战赛亚军


讯飞开发者大赛亚军.jpg


攻克自然场景文字检测难题

自然场景文字检测主要存在3大难点


第一是文本自身的多样性,自然场景中文字具有多样的字体、颜色、长宽比、大小、形状和艺术风格;


111.png


第二是自然场景图片的背景十分复杂,且现实生活中存在一些结构与文本类似的对象,比如说窗户,砖瓦,栅栏,草地等等;


222.png


第三是图片容易受成像环境影响,测试图片自身可能存在不均匀光照、模糊、低分辨率等情况。


333.png


刚开始采用语义分割方案,效果并不理想


细心一点的人一定会发现在自然场景中文字的形状是任意的,使用分割的方法就不需要考虑文字的形状和尺度,因此团队首先采用了PSENet作为基线,并在此基础上进行改进。


实验发现,对于密集的竖直文本,则会出现大量误检(竖直方向的文本行被检测成多段,或者被检测成水平方向),如下图所示:


微信截图_20201106103904.jpg


由于缺乏实例级别的监督信息,虽然文本区域被准确地得到了,但是正确的实例很少。为了缓解这个问题,团队设计了文本实例嵌入模块来学习文本实例的特征。该模块通过增大不同文本实例间的特征距离以及缩小同一文本实例间像素的特征距离进行学习。在后处理中,使用基于度量的聚类算法将特征距离近的文本候选区域合并。


最终算法性能大概提升了2%,但总体效果并不理想。


通过调研和实验发现,实例分割方案的基线远高于语义分割


经过调研之后,团队选择了结构更复杂但性能更好的二阶段实例分割模型作为基线继续改进。其中性能最高的单模型为HTC + Mask-iou Head,原始HTC模型只有box的置信度,无法用来评估mask分割的好坏,Mask-iou的分数在后处理中可以用来过滤掉置信度不高的检测结果。


555.png

模型框架示意图


自然场景文字的形状是任意的,团队采用了可形变卷积网络(DCN)来克服几何形状的变化。在多GPU训练中,使用了SyncBN避免batchsize对BN层造成影响。同时针对困难样本容易造成误检的情况,使用了难负样本挖掘(OHEM)技术。

图片中文字的尺度变化极大,团队采用了多尺度训练/测试进一步提高算法性能。


模型的输出是一幅由0/1组成的二值图,为了使网络模型的输出更符合预期,团队设计了一系列的后处理方法。若分割mask进行联通区域分析后由多个区域组成,则取面积最大的区域;若分割mask为非法多边形,比如有孔洞的圆环,则舍弃内径,取外径轮廓作为结果。


在复赛的最后阶段,团队采用多模型Ensemble策略,使用Polygon-NMS算法融合多个模型的结果,最终取得91.77%的F-score

202011061604630425842205.jpg


华付信息AILAB参赛成员

左柯南海,右高攀

两人均为华付AI算法研究院研究员


总体而言,自然场景文本检测与识别都是比较难的任务,目前还没有达到商用水平。近些年,学术界主要关注于如何检测和识别任意形状的文本,提高模型的鲁棒性。在未来,anchor-free的检测器以及检测识别一步到位的端到端模型可能是一种趋势。


此次取得的竞赛成果充分体现了华付信息AI开发团队始终聚焦于人工智能技术的实践创新,每一个方案背后都凝结了开发团队对技术的日夜打磨,从技术实现到方案落地,所有细节都经过了层层推敲。


助力客户实现智能驱动持续创造最大价值永远是每一个华付人肩上的使命!