数理化公式识别软件(数理化公式识别方法)
1简介
OCR(OpticalCharacterRecognition,光学字符识别)是一种将图片信息(汉字、字母、数字等)转换为可编辑的电子文本的技术。随着人工智能的不断发展,基于深度学习的OCR技术在教育行业得到广泛应用;智能批改、助教输入等场景都依赖于OCR技术。现阶段,基于深度学习的OCR技术对于简单的一维文本识别可以达到较高的识别精度,但对于数学、物理公式等二维结构的识别精度较低。针对这个技术痛点,本文提出了一种可以识别数学和物理公式的技术。该技术可以识别矩阵、方程、分数、根式等二维结构信息,识别准确率可以达到95%+。
2技术路线
数学公式识别是将公式图像信息数字化的技术。该技术利用Seq2Seq网络架构来达到识别二维结构的目的。技术路线如图1所示,模型输入为:公式图片,模型输出为:公式图片对应的Latex公式序列。
图1数学公式识别模型概述
2.1、数据准备
为了获得鲁棒的深度学习公式识别模型,训练数据的准备至关重要。本文采用人才为本的策略来收集数据:(1)通过分析真实场景中公式数据的特征,采用合成数据方法,合成真实场景数据;(2)利用数据增强来扩大数据的多样性;(3)通过公式识别置信度收集badcase,迭代收集公式数据,增强模型的泛化能力。
2.2、Latex公式归一化
由于Latex的数学物理公式表达并不唯一,如图2所示,这种一对多的公式表达方式很容易导致训练损失函数不收敛,从而增加模型的学习难度。因此,必须采用归一化策略来达到一个符号只有一个表达方式,降低模型学习难度的目的。
图2Latex表达式不唯一
2.3、Seq2Seq网络架构
Seq2Seq模型是机器翻译中引入的第一个概念。该模型由编码器(Encoder)和解码器(Decoder)组成。可以更好地学习数学公式的结构特征,例如上下结构公式和周围结构。公式等
2.3.1.编码器
编码器就是提取公式图片的特征图。编码器结构借鉴了Inception-ResNet-V2的网络框架。详细的网络框架如图3所示。其中,(1)采用多个感受野的Inception结构,有利于学习不同字体大小的公式特征;(2)介绍PositionEmbedding方法可以有利于获得字符之间的位置关系特征。
图3编码器网络架构图
获得公式图片的特征图后,为了很好地进行序列化学习,将特征图重塑为一维结构特征向量(语义编码)。由于PositionEmbedding方法的引入,将特征图重塑为一维结构后,还可以很容易地保存各个特征向量之间的位置关系。
2.3.2.解码器
解码器的作用是将语义编码向量解码成相应的识别结果。通过编码器获得公式图片对应的一维结构特征向量后,使用LSTM(长短期记忆)来学习公式图片对应的Latex公式。序列,LSTM是一种时间循环神经网络,专门为解决一般RNN的长期依赖问题而设计。其中,在解码器阶段,还使用了Attention机制。注意力机制是一种加权机制,关注编码层获得的语义编码中的哪个分量对于当前的预测更重要。详细的解码器网络架构图如图4所示。
图4解码器网络架构图
2.4、Seq2Seq模型的训练阶段
在训练阶段,由于模型一开始的预测极不稳定,如果将前一个时间片的预测作为当前时间片的输入,模型将很难收敛。因此,为了达到模型快速收敛的目的,我们使用标签序列作为序列预测的输入,如图5所示。
图5模型训练阶段示意图
2.5、Seq2Seq模型的推理阶段
在推理阶段,由于测试样本没有标签序列,所以我们使用当前时间片的输出作为下一个时间片的输入,一般使用GreedySearch算法或BeamSearch算法进行解码。其中,GreedySearch算法是BeamSearch算法的特例(beamsize=1)。集束搜索是寻找全局最优值和搜索时间之间的折衷。它计算当前时间片内所有假设的概率,然后选择最高的组成一组,然后基于这组假设,计算下一个时间片中概率最大的一组,并依此类推,直到最后一个时间片结束。下图展示了beamsize=3的搜索过程,红线是选择的假设。
图6模型推理阶段示意图
2.6、后处理操作(Post-Processing)
通过解码器可以很好地学习Latex公式的序列特征。然而,在实际场景中,会出现很多种情况。例如,0、o等相似字符就不容易正确识别。因此,后处理操作可以发挥作用。锦上添花的是根据先验知识进行修正,比如将1o修正为10。在测试集上测试后,后处理操作可以在不影响识别性能的情况下提高准确率1%左右。
2.7、识别结果
数学公式识别模型可以直接将公式图片转换成其对应的Latex公式。识别样本如图7所示(为了方便直观比较,通过XeLatex和ImageMagick将Latex公式可视化):
图7识别结果
3结论
数学物理公式识别模型可以很好地解决二维结构的公式识别问题,平均准确率可以达到95%+。但对于结构非常复杂的公式(对应的Latex公式很长),识别精度仍然需要提高。问题出在时间序列解码阶段。虽然LSTM和Attention机制都可以很好地缓解长序列解码的长期依赖,但都无法从根本上解决。未来我们将探索使用图模型来求解长序列结构的公式。找出问题所在。
作者:刘腾龙