MinerU 是一款文档解析工具,可将 PDF、图片以及 DOCX、PPTX、XLSX 转化为机器可读格式(如 Markdown、JSON),便于后续检索、抽取与二次处理。
Docling 简化了文档处理,解析多种格式——包括高级PDF理解——并提供与生成式AI生态系统的无缝集成。
MarkItDown 是一个轻量级的 Python 工具,用于将各种文件转换为 Markdown 格式,以便在 LLM 和相关文本分析流程中使用。在这方面,它与 textract 最为相似,但更侧重于保留文档的重要结构和内容(包括标题、列表、表格、链接等)。虽然输出结果通常相当美观且易于阅读,但它主要面向文本分析工具,对于需要高保真度文档转换以供人阅读的用户而言,可能并非最佳选择。
请描述组织的定位/愿景 请附上组织宣传图
这些公司或软件正在使用我们的开源软件:
请发送申请邮件至
如果您觉得我们的开源软件对你有所帮助,请扫下方二维码打赏我们一杯咖啡。
网站: Follow @aaa on Weibo 邮箱: