# paddle-cor **Repository Path**: pgh1038/paddle-cor ## Basic Information - **Project Name**: paddle-cor - **Description**: OCR识别工具 - 工程名称和日期识别 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-02-27 - **Last Updated**: 2026-02-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # OCR识别工具 - 工程名称和日期识别 ## 项目简介 本工具基于 PaddleOCR 深度学习框架,实现图片中工程名称和日期的自动识别。支持中文路径,使用轻量级模型,识别速度快,准确率高。 ## 功能特性 ### 核心功能 - 📷 **图片识别**:支持多种图片格式(PNG、JPG、JPEG、BMP、GIF、TIFF) - 🔍 **文本提取**:自动识别图片中的所有文本内容 - 🎯 **智能提取**:智能提取工程名称和日期信息 - 🖼️ **图片预览**:支持图片缩放、拖动等预览操作 - 📝 **结果展示**:实时显示识别结果和提取信息 - 🌏 **中文支持**:完美支持中文路径和中文文本识别 ### 技术特点 - 使用 PP-OCRv5_mobile 轻量级模型,识别速度快 - 采用二进制读取方式,解决中文路径问题 - 基于 OpenCV 进行图像处理 - 支持 Windows/Linux/macOS 跨平台 ## 系统要求 - Python 3.8+ - Windows / Linux / macOS - 至少 2GB 可用内存 ## 快速开始 ### 1. 克隆项目 ```bash git clone cd ocrV1 ``` ### 2. 安装依赖 ```bash pip install -r requirements.txt ``` ### 3. 运行应用 ```bash python gui_app.py ``` ## 安装依赖 ### 方法一:使用 requirements.txt(推荐) ```bash pip install -r requirements.txt ``` ### 方法二:手动安装 ```bash pip install paddleocr>=2.7.0 pip install paddlepaddle>=2.5.0 pip install opencv-python>=4.8.0 pip install numpy>=1.24.0 pip install pillow>=9.0.0 pip install pyinstaller>=5.0.0 ``` ## 打包成 EXE ### 方法一:使用打包脚本(推荐) ```bash python build_gui_exe.py ``` ### 方法二:使用 PaddleX 官方打包脚本 ```bash python package.py --file gui_app.py ``` ### 方法三:直接使用 PyInstaller ```bash pyinstaller --name=OCR --windowed --onefile --clean --noconfirm gui_app.py ``` ### 打包结果 打包完成后,可执行文件位于: ``` dist\OCR.exe ``` **注意**:打包后的 EXE 文件较大(约 200-300MB),因为包含了 PaddleOCR 框架和模型文件。 ## 使用说明 ### 操作流程 1. **选择图片** - 点击"选择图片"按钮 - 选择需要识别的图片文件 - 图片会自动显示在预览区域 2. **图片预览** - 使用鼠标滚轮进行缩放 - 使用鼠标拖动移动图片 - 点击"放大"、"缩小"、"重置"按钮调整视图 3. **开始识别** - 点击"开始识别"按钮 - 系统自动识别图片内容 - 识别结果实时显示 4. **查看结果** - 识别到的所有文本显示在结果区域 - 工程名称和日期自动提取并显示在底部输入框 5. **清空结果** - 点击"清空结果"按钮 - 重置所有内容和预览 ### 支持的日期格式 - `2024年3月8日` - `2024-03-08` - `2024/03/08` - `2024.03.08` - `2024年3月` - `3月8日` ### 支持的工程名称格式 - `工程名称: xxx` - `项目名称: xxx` - `工程: xxx` - `项目: xxx` ## 项目结构 ``` ocrV1/ ├── gui_app.py # 主程序文件 ├── build_gui_exe.py # 打包脚本 ├── package.py # PaddleX 官方打包脚本 ├── requirements.txt # 项目依赖 ├── README.md # 项目说明文档 ├── build/ # 构建临时目录 └── dist/ # 打包输出目录 ``` ## 技术栈 - **深度学习框架**:PaddlePaddle - **OCR 引擎**:PaddleOCR (PP-OCRv5_mobile) - **图像处理**:OpenCV - **GUI 框架**:Tkinter - **图像显示**:Pillow (PIL) - **数值计算**:NumPy ## 常见问题 ### 1. 首次运行速度慢 **原因**:PaddleOCR 首次运行需要下载模型文件 **解决**:保持网络连接,模型下载后会自动缓存 ### 2. 中文路径无法识别 **解决**:本项目已优化,使用二进制读取方式,完美支持中文路径 ### 3. 识别准确率不高 **建议**: - 使用清晰、高分辨率的图片 - 确保文字方向正确 - 避免图片模糊或倾斜 ### 4. 打包后文件过大 **原因**:包含了 PaddleOCR 框架和模型文件 **说明**:这是正常现象,无法避免 ## 更新日志 ### v1.0.0 (2026-02-27) - ✨ 初始版本发布 - 🎯 支持工程名称和日期自动识别 - 🌏 完美支持中文路径 - ⚡ 使用轻量级模型,提升识别速度 - 📦 提供打包脚本,方便生成 EXE ## 贡献指南 欢迎提交 Issue 和 Pull Request! ## 许可证 本项目采用 MIT 许可证。 ## 联系方式 如有问题或建议,请通过以下方式联系: - 提交 Issue - 发送邮件 ## 致谢 - [PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR) - 强大的 OCR 引擎 - [PaddlePaddle](https://github.com/PaddlePaddle/Paddle) - 深度学习框架