# paddle-cor

**Repository Path**: pgh1038/paddle-cor

## Basic Information

- **Project Name**: paddle-cor
- **Description**: OCR识别工具 - 工程名称和日期识别
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-02-27
- **Last Updated**: 2026-02-27

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# OCR识别工具 - 工程名称和日期识别

## 项目简介
本工具基于 PaddleOCR 深度学习框架，实现图片中工程名称和日期的自动识别。支持中文路径，使用轻量级模型，识别速度快，准确率高。

## 功能特性

### 核心功能
- 📷 **图片识别**：支持多种图片格式（PNG、JPG、JPEG、BMP、GIF、TIFF）
- 🔍 **文本提取**：自动识别图片中的所有文本内容
- 🎯 **智能提取**：智能提取工程名称和日期信息
- 🖼️ **图片预览**：支持图片缩放、拖动等预览操作
- 📝 **结果展示**：实时显示识别结果和提取信息
- 🌏 **中文支持**：完美支持中文路径和中文文本识别

### 技术特点
- 使用 PP-OCRv5_mobile 轻量级模型，识别速度快
- 采用二进制读取方式，解决中文路径问题
- 基于 OpenCV 进行图像处理
- 支持 Windows/Linux/macOS 跨平台

## 系统要求

- Python 3.8+
- Windows / Linux / macOS
- 至少 2GB 可用内存

## 快速开始

### 1. 克隆项目
```bash
git clone <repository-url>
cd ocrV1
```

### 2. 安装依赖
```bash
pip install -r requirements.txt
```

### 3. 运行应用
```bash
python gui_app.py
```

## 安装依赖

### 方法一：使用 requirements.txt（推荐）
```bash
pip install -r requirements.txt
```

### 方法二：手动安装
```bash
pip install paddleocr>=2.7.0
pip install paddlepaddle>=2.5.0
pip install opencv-python>=4.8.0
pip install numpy>=1.24.0
pip install pillow>=9.0.0
pip install pyinstaller>=5.0.0
```

## 打包成 EXE

### 方法一：使用打包脚本（推荐）
```bash
python build_gui_exe.py
```

### 方法二：使用 PaddleX 官方打包脚本
```bash
python package.py --file gui_app.py
```

### 方法三：直接使用 PyInstaller
```bash
pyinstaller --name=OCR --windowed --onefile --clean --noconfirm gui_app.py
```

### 打包结果
打包完成后，可执行文件位于：
```
dist\OCR.exe
```

**注意**：打包后的 EXE 文件较大（约 200-300MB），因为包含了 PaddleOCR 框架和模型文件。

## 使用说明

### 操作流程
1. **选择图片**
   - 点击"选择图片"按钮
   - 选择需要识别的图片文件
   - 图片会自动显示在预览区域

2. **图片预览**
   - 使用鼠标滚轮进行缩放
   - 使用鼠标拖动移动图片
   - 点击"放大"、"缩小"、"重置"按钮调整视图

3. **开始识别**
   - 点击"开始识别"按钮
   - 系统自动识别图片内容
   - 识别结果实时显示

4. **查看结果**
   - 识别到的所有文本显示在结果区域
   - 工程名称和日期自动提取并显示在底部输入框

5. **清空结果**
   - 点击"清空结果"按钮
   - 重置所有内容和预览

### 支持的日期格式
- `2024年3月8日`
- `2024-03-08`
- `2024/03/08`
- `2024.03.08`
- `2024年3月`
- `3月8日`

### 支持的工程名称格式
- `工程名称: xxx`
- `项目名称: xxx`
- `工程: xxx`
- `项目: xxx`

## 项目结构

```
ocrV1/
├── gui_app.py              # 主程序文件
├── build_gui_exe.py        # 打包脚本
├── package.py             # PaddleX 官方打包脚本
├── requirements.txt       # 项目依赖
├── README.md             # 项目说明文档
├── build/               # 构建临时目录
└── dist/                # 打包输出目录
```

## 技术栈

- **深度学习框架**：PaddlePaddle
- **OCR 引擎**：PaddleOCR (PP-OCRv5_mobile)
- **图像处理**：OpenCV
- **GUI 框架**：Tkinter
- **图像显示**：Pillow (PIL)
- **数值计算**：NumPy

## 常见问题

### 1. 首次运行速度慢
**原因**：PaddleOCR 首次运行需要下载模型文件
**解决**：保持网络连接，模型下载后会自动缓存

### 2. 中文路径无法识别
**解决**：本项目已优化，使用二进制读取方式，完美支持中文路径

### 3. 识别准确率不高
**建议**：
- 使用清晰、高分辨率的图片
- 确保文字方向正确
- 避免图片模糊或倾斜

### 4. 打包后文件过大
**原因**：包含了 PaddleOCR 框架和模型文件
**说明**：这是正常现象，无法避免

## 更新日志

### v1.0.0 (2026-02-27)
- ✨ 初始版本发布
- 🎯 支持工程名称和日期自动识别
- 🌏 完美支持中文路径
- ⚡ 使用轻量级模型，提升识别速度
- 📦 提供打包脚本，方便生成 EXE

## 贡献指南

欢迎提交 Issue 和 Pull Request！

## 许可证

本项目采用 MIT 许可证。

## 联系方式

如有问题或建议，请通过以下方式联系：
- 提交 Issue
- 发送邮件

## 致谢

- [PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR) - 强大的 OCR 引擎
- [PaddlePaddle](https://github.com/PaddlePaddle/Paddle) - 深度学习框架