Blog

懒癌晚期


Project maintained by VirusPC Hosted on GitHub Pages — Theme by mattgraham

Back Home

数据获取


获取方式

人工数据合成通常包含两种不同的变体,第一种是创造新的数据集,第二种是扩大数据集。

现代计算机通常都有一个很大的字库。一般文字处理软件中都会有很多的字体存储在字体库中。此外,也有很多可以免费下载字体库的网站。

想获得更多的训练样本,一种方法是采集同一个字符的不同种字体,然后为这些字符加上不同的随机背景。

add background

第二种方法是对图像进行人工扭曲或者人工变形。

artificial distortion

关于获取更多数据的讨论

  1. 在获取更多数据前确认你有一个低偏差的分类器(画出学习曲线)。例如增加特征/神经网络中的隐含层数目直到得到一个低偏差的分类器。
  2. 在开发机器学习系统时,你最宝贵的资源就是你的时间。仔细考虑通过各种方式要付出多少工作量才能获得10倍的数据,选择工作量最小的。
    • 人工数据合成
    • 自己收集/标记数据
    • “众包”(crowd source)。例如(Amazon Mechanical Turk)。众包是指通过集合兼职工作和志愿者的零散贡献的途径,以最终实现一个大型工程。

参考资料: