包含OCR基准测试集的免费资源_免费空间

包含OCR基准测试集的免费资源

2023-05-09 20:01未知服务器之家免费空间

我想为扫描文本(通常是任何扫描,即A4)进行OCR基准测试.我能在这里找到一些NEOCR数据集,但NEOCR并不是我想要的. 我希望链接到具有适当图像的免费数据库源和引用的实际文本(包含在图像中). 我希望这个线程对其他人进行OCR冲浪数据

我想为扫描文本(通常是任何扫描,即A4)进行OCR基准测试.我能在这里找到一些NEOCR数据集,但NEOCR并不是我想要的.

我希望链接到具有适当图像的免费数据库源和引用的实际文本(包含在图像中).

我希望这个线程对其他人进行OCR冲浪数据集也很有用,因为我没有找到任何对这些数据源的良好引用.

谢谢!

1> Grokify..：

我很幸运在许多项目中使用大学研究数据集.这些通常很有用,因为需要发布输入和预期结果以独立地重现研究结果.一个例子是下面讨论的第四次OCR准确度年度测试的UNLV数据集.

另一种方法是从数据集开始并创建自己的训练集.与Gutenberg项目合作也是值得的,该项目已经转录了57,136本书.您可以使用HTML版本(带图像)并使用各种变换(如字体,旋转等)将其打印出来.然后您可以转换图像并扫描它们以与文本版本进行比较.请参阅下面的示例.

1)OCR准确度年度测试DOE和UNLV

UNLV的能源部(DOE)和信息科学研究所(ISRI)从1992年到1995年进行了5年的OCR测试.您可以在这里找到每年的研究描述:

概述:http://www.expervision.com/testimonial-world-leading-and-champion-ocr/annual-test-of-ocr-accuracy-by-us-department-of-energy-doe-university-of-内华达州拉斯维加斯,拉斯维加斯,内华达大学拉斯维加斯分校

1.1)UNLV Tesseract OCR测试数据发表在第四次OCR准确度年度测试中

使用Tesseract进行第四次年度测试的数据在线发布.由于这是一项OCR研究,它可能适合您的目的.

此数据现在作为Google代码上发布的UNLV OCR评估工具项目的ISRI的一部分进行托管:

项目:http://www.zzvips.com/uploads/allimg/c4a3ry3d3in

图像和地面真相文本和区域文件,用于1992年至1996年期间UNLV/ISRI年度OCR准确度测试中使用的数千个英语和一些西班牙语页面.

在UNLV/ISRI OCR准确度年度测试中使用的OCR评估工具的源代码.

UNLV信息科学研究所的出版物适用于OCR和文本检索.

您可以在此处找到有关此数据集的信息:

说明:http://www.zzvips.com/uploads/allimg/i5nsjb4pkw5

数据集:http://www.zzvips.com/uploads/allimg/rvfaaqimzcn

在数据集链接中,您可以找到许多可以下载的gziped tarball.在每个tarball中都有许多带有一组文件的目录.每个文档有3个文件:

.tif 二进制图像文件

.txt 文本文件

.uzn 区域文件,用于描述扫描图像

注意:发布时,我注意到这个数据集最初发布在@Stef上面的评论中.

2)古腾堡项目

古腾堡计划以下列格式转录了57,136本免费电子书:

HTML

EPUB(带图片)

EPUB(无图像)

Kindle(带图片)

Kindle(没有图像)

纯文本UTF-8

以下是一个例子:http://www.gutenberg.org/ebooks/766

您可以通过执行以下操作来创建测试数据集:

创建测试文件:

从HTML,ePub,Kindle或纯文本版本开始

使用不同的字体,旋转,背景颜色,有和没有图像等渲染和变换.

将渲染转换为所需的格式,例如TIFF,PDF等.

测试:

通过OCR系统运行生成的图像

与原始纯文本版本比较

包含OCR基准测试集的免费资源

延伸 · 阅读

NAZUKA提供无限空间和流量免费PHP空间

2模版_你还只会套PPT模版吗？|大学生PPT进阶指南（附免费资源

公众号回复两条信息_公众号自动回复及免费资源开通

阿贝云提供1G永久免费空间及免费云服务器申请

干货|适合NLP初学者的8个免费资源分享

景安网络提供1G国内免费空间，需要每天9点抢

免费资源：Bootstrap开发的创意模板

100多种免费资源来学习全栈Web开发

云服务器是什么，云主机干什么用的？

2020最新好用的web服务器软件推荐

服务器操作系统有哪些?

web服务器配置（图文详解）

企业如何选择阿里云服务器配置?

五大免费主机管理系统优缺点对比及推荐

2019最新三款Windows下连接Linux的ssh软件下载推荐

服务器常用管理软件盘点

Nginx服务器究竟是怎么执行PHP项目