我想为扫描文本(通常是任何扫描,即A4)进行OCR基准测试.我能在这里找到一些NEOCR数据集,但NEOCR并不是我想要的.
我希望链接到具有适当图像的免费数据库源和引用的实际文本(包含在图像中).
我希望这个线程对其他人进行OCR冲浪数据集也很有用,因为我没有找到任何对这些数据源的良好引用.
谢谢!
1> Grokify..:
我很幸运在许多项目中使用大学研究数据集.这些通常很有用,因为需要发布输入和预期结果以独立地重现研究结果.一个例子是下面讨论的第四次OCR准确度年度测试的UNLV数据集.
另一种方法是从数据集开始并创建自己的训练集.与Gutenberg项目合作也是值得的,该项目已经转录了57,136本书.您可以使用HTML版本(带图像)并使用各种变换(如字体,旋转等)将其打印出来.然后您可以转换图像并扫描它们以与文本版本进行比较.请参阅下面的示例.
1)OCR准确度年度测试DOE和UNLV
UNLV的能源部(DOE)和信息科学研究所(ISRI)从1992年到1995年进行了5年的OCR测试.您可以在这里找到每年的研究描述:
概述:http://www.expervision.com/testimonial-world-leading-and-champion-ocr/annual-test-of-ocr-accuracy-by-us-department-of-energy-doe-university-of-内华达州拉斯维加斯,拉斯维加斯,内华达大学拉斯维加斯分校
1.1)UNLV Tesseract OCR测试数据发表在第四次OCR准确度年度测试中
使用Tesseract进行第四次年度测试的数据在线发布.由于这是一项OCR研究,它可能适合您的目的.
此数据现在作为Google代码上发布的UNLV OCR评估工具项目的ISRI的一部分进行托管:
项目:http://www.zzvips.com/uploads/allimg/c4a3ry3d3in
图像和地面真相文本和区域文件,用于1992年至1996年期间UNLV/ISRI年度OCR准确度测试中使用的数千个英语和一些西班牙语页面.
在UNLV/ISRI OCR准确度年度测试中使用的OCR评估工具的源代码.
UNLV信息科学研究所的出版物适用于OCR和文本检索.
您可以在此处找到有关此数据集的信息:
说明:http://www.zzvips.com/uploads/allimg/i5nsjb4pkw5
数据集:http://www.zzvips.com/uploads/allimg/rvfaaqimzcn
在数据集链接中,您可以找到许多可以下载的gziped tarball.在每个tarball中都有许多带有一组文件的目录.每个文档有3个文件:
.tif
二进制图像文件
.txt
文本文件
.uzn
区域文件,用于描述扫描图像
注意:发布时,我注意到这个数据集最初发布在@Stef上面的评论中.
2)古腾堡项目
古腾堡计划以下列格式转录了57,136本免费电子书:
HTML
EPUB(带图片)
EPUB(无图像)
Kindle(带图片)
Kindle(没有图像)
纯文本UTF-8
以下是一个例子:http://www.gutenberg.org/ebooks/766
您可以通过执行以下操作来创建测试数据集:
创建测试文件:
从HTML,ePub,Kindle或纯文本版本开始
使用不同的字体,旋转,背景颜色,有和没有图像等渲染和变换.
将渲染转换为所需的格式,例如TIFF,PDF等.
测试:
通过OCR系统运行生成的图像
与原始纯文本版本比较