更新时间:2022-12-02 10:48:28 来源:极悦 浏览1330次
Tess4J简介
Tesseract-OCR支持中文识别,并且开源和提供全套的训练工具,是快速低成本开发的首选。而Tess4J则是Tesseract在Java PC上的应用。在英文和数字识别中性能还是不错的,但是在中文识别中,无论速度还是识别率还是较弱,建议有条件的话,针对场景进行训练,会获得较好结果。
Tess4J的使用
1.Maven导入依赖
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>5.2.1</version>
</dependency>
</dependencies>
2.添加Tessdata语言库
网址:mirrors / tesseract-ocr / tessdata · GitCode
下载下面这个字库文件:
【注意】路径中不得有中文
3.准备图片资源
【注意】路径中不得有中文
4.编写代码
package cn.zcj;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import java.io.File;
public class tess4jDemo {
public static void main(String[] args) {
//图片路径
String path = "D:\\IDEA\\img\\1.png";
//语言位置
String languagePath = "D:\\IDEA\\tess4j";
File file = new File(path);
Tesseract instance = new Tesseract();
//设置训练库位置
instance.setDatapath(languagePath);
//chi_sim:简体中文,eng根据需求选择语言库
instance.setLanguage("chi_sim");
String result = null;
try{
result = instance.doOCR(file);
}catch (TesseractException e){
e.printStackTrace();
}
System.out.println("图片中的文字为:"+result);
}
}
输出结果为:
0基础 0学费 15天面授
Java就业班有基础 直达就业
业余时间 高薪转行
Java在职加薪班工作1~3年,加薪神器
工作3~5年,晋升架构
提交申请后,顾问老师会电话与您沟通安排学习