MinerU项目的研究分析

MinerU产品体验

介绍

MinerU 可以把 PDF 转成 markdown/json 文件,支持提取 Table、Image、LaTex 公式,能保证 text、Image 等片段的顺序,适合为下游模型提供高质量的文档数据。

MinerU 是一个基于 PDF-Extract-Kit 项目的整合的产品,提供 Docker 部署、API 服务、命令行工具等产品能力。

官方的产品口号就是 “MinerU 一站式开源数据提取工具”。

地址

体验地址 https://huggingface.co/spaces/opendatalab/MinerU

arXiv 地址 https://arxiv.org/abs/2409.18839

产品特性

MinerU 产品的功能特性选项:

  • Layout Model:可以选择 doclayout_yolo、layoutlmv3
  • Language:做 OCR 时指定的语言
  • LaTex 识别:可选项
  • Table 识别:可选项
MinerU 的输入
MinerU 的输出

MinerU 项目依赖

从致谢列表看 MinerU 的项目依赖。由于项目依赖 ultralytics 和 PyMuPDF,它们的开源协议 AGPL-3.0 具有传染性,因此 MinerU 也是 AGPL-3.0 协议。

注意:如果 Layout 模型包括 LayoutLMv3,它是 CC BY-NC-SA 4.0 非商用模型。

项目说明开源协议
PDF-Extract-KitMinerU 实际底层使用的工具AGPL-3.0
DocLayout-YOLOLayout 分析模型,来自 opendatalabAGPL-3.0
StructEqTableTable 识别和解析模型Apache 2.0
RapidTableTable 识别和解析模型
PaddleOCRPaddle OCRApache 2.0
PyMuPDFpdf 解析库AGPL-3.0
layoutreader基于 LayoutLMv3 的 LayoutReader Model,排序 bboxes
fast-langdetect
pdfminer.six

PDF-Extract-Kit 项目依赖

PDF-Extrac-Kit 的项目依赖,同样由于依赖 ultralytics 项目,因此是 AGPL-3.0 协议

项目说明开源协议
LayoutLMv3Layout 分析模型,来自 MicrosoftCC BY-NC-SA 4.0
UniMERNet数学公式识别模型,来自 opendatalabApache 2.0
StructEqTableTable 识别和解析模型Apache 2.0
YOLO公式识别模型。来自 ultralyticsAGPL-3.0, Enterprise
PaddleOCRPaddle OCRApache 2.0
DocLayout-YOLOYOLO Layout 分析模型,来自 opendatalabAGPL-3.0

DocLayout-YOLO 项目

DocLayout-YOLO 是基于 YOLO-v10 的模型(存疑),code 项目里使用了 untralytics。

模型大小才 40MB,本地 CPU 推理也无压力。

模型权重地址

体验地址

体验举例如下,它可以分析、合并、排序 segment

使用 doclayout 的推理代码,很容易就能在本地跑起来

模型推理结果是 segment 的 bbox

有了 bbox,就可以标注到原图里,形成标注图 annotated_frame = det_res[0].plot(pil=True, line_width=5, font_size=20)

可以直接切图保存下来 det_res[0].save_crop('./')

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *