Tesseract OCR识别
Tesseract 是一个开源的光学字符识别(OCR)引擎,最初由惠普(HP)研发,2005年开源,后由 Google 主导维护。
解决的问题
核心问题:把图片里的文字提取出来。
具体场景:
- 扫描件 / PDF → 可编辑文本 — 纸质文档数字化
- 截图中的文字识别 — 从图片、网页截图中提取文字
- 多语言 OCR — 支持 100+ 语言的文字识别
- 文档自动化 — 发票、身份证、车牌等结构化信息的自动提取
关键技术特点
| 特性 | 说明 |
|---|---|
| LSTM 神经网络 | 现代 Tesseract(v4+)使用 LSTM 进行文字识别,精度大幅提升 |
| 语言支持 | 支持中文、英文、日文等 100+ 语言 |
| 版面分析 | 能识别段落、行、单词、字符的层级结构 |
| 开源免费 | Apache 2.0 协议,可商用 |
典型应用
- 📄 文档数字化:纸质文件扫描后转可编辑文本
- 🧾 票据识别:发票、收据、银行对账单自动录入
- 🆔 证件识别:身份证、护照信息自动提取
- 🚗 车牌识别:交通场景中的车牌文字识别
简单说:Tesseract = 让机器”看懂”图片中的文字。