Tess4J简介
Tesseract-OCR支持中文识别,并且开源和提供全套的训练工具,是快速低成本开发的首选。而Tess4J则是Tesseract在Java PC上的应用。在英文和数字识别中性能还是不错的,但是在中文识别中,无论速度还是识别率还是较弱,建议有条件的话,针对场景进行训练,会获得较好结果。
Tess4J的使用
1.Maven导入依赖
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>5.2.1</version>
</dependency>
</dependencies>
2.添加Tessdata语言库
网址:mirrors / tesseract-ocr / tessdata · GitCode
下载下面这个字库文件:
【注意】路径中不得有中文
3.准备图片资源
【注意】路径中不得有中文
4.编写代码
package cn.zcj;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import java.io.File;
public class tess4jDemo {
public static void main(String[] args) {
//图片路径
String path = "D:\IDEA\img\1.png";
//语言位置
String languagePath = "D:\IDEA\tess4j";
File file = new File(path);
Tesseract instance = new Tesseract();
//设置训练库位置
instance.setDatapath(languagePath);
//chi_sim:简体中文,eng根据需求选择语言库
instance.setLanguage("chi_sim");
String result = null;
try{
result = instance.doOCR(file);
}catch (TesseractException e){
e.printStackTrace();
}
System.out.println("图片中的文字为:"+result);
}
}
输出结果为:
你适合学Java吗?4大专业测评方法
代码逻辑 吸收能力 技术学习能力 综合素质
先测评确定适合在学习