照片OCR的英文全称是:(Photo Optical Character Recognition)。
我们滑动窗(sliding windows)分类器来进行文本检测。
我们同样使用滑动窗分类器来进行字符切割。
利用学过的分类算法进行分类
在开发机器学习系统的流水线时,上限分析可以告诉我们改进各个模块对整个系统产生的影响,告诉你最值得把时间花费在流水线中的哪个部分。
以照片OCR流水线为例,首先我们要令文本检测部分的精度为100%,人为的告诉算法每一个样本的出现文字的区域,然后测试系统整体精度。然后我们令字符分割部分的精度为100%,即人为的将原本文本检测得到的输出进行字符分割,测试系统整体精度。最后令字符识别部分的精度为100%,判断系统整体精度。
我们可以发现当字符识别部分的精度为100%时,系统的整体精度提升到了100%,优化它会是我们的系统产生更大的进步,故我们应该对它进行优化。
参考资料: