-
MinerU项目的研究分析
—
in HackerMinerU产品体验 介绍 MinerU 可以把 PDF 转成 markdown/json 文件,支持提取 Table、Image、LaTex 公式,能保证 text、Image 等片段的顺序,适合为下游模型提供高质量的文档数据。 MinerU 是一个基于 PDF-Extract-Kit 项目的整合的产品,提供 Docker 部署、API 服务、命令行工具等产品能力。 官方的产品口号就是…
-
Poppler: 超强的 PDF 转换和导出工具
—
in Hackerpoppler 是一个用于 PDF 提取、转换、修改等用途的 lib 库,功能强大,速度飞快。 本文里使用 https://arxiv.org/abs/2411.03628 这篇 PDF 来演示 poppler 的用途。 安装 poppler 在 Ubuntu 下可以安装 poppler-utils 包…
-
怎样做到 LLM Long-Context 越长 RAG 性能越好
总结 这篇来自 Google DeepMind 的论文 “Inference Scaling for Long-Context Retrieval Augmented Generation” ,研究了基于 Long-Context LLM 的 RAG 技术,如何随着 Long-Context 长度的…
-
Next.js 新手踩坑之旅 — Cache
—
Next-server 的请求没有发送出去 写了一个 Next.js 的 SSR(服务器端渲染) 页面,fetch 另一个 api server 的数据,为了调试加上 console.log 打印数据。 在页面上验证结果时发现 fetch 的 api server 数据不是最新的。但是 console.log…
-
React 新手踩坑之旅 — Hook篇
—
开始学习 React 开发 随着 Claude Sonnet 3.5、DeepSeek V2、GPT-4o 这些模型的推出,模型在 AI Coding 领域的质量大幅提升。同时 Cursor 这个 IDE 工具的火爆,极大的降低了 Coding 的门槛,也激发了我上手写代码做项目的热情。 于是,我开始做一个 AI…
-
长上下文 LLM 时代下捍卫 RAG
AI 摘要 介绍 这篇论文提出了 OP-RAG(Order Preserve RAG)的方案,保留了召回文档 chunk 在原文中的顺序,即可在很短的 RAG context-length 下,比原生 Long-Context LLM 的效果更好。 如下图所示,OP-RAG-16k 达到了 44.43 的 F1…
-
基于 ColBERT 检索和集成响应评分的语言模型问答
ColBERT Retrieval and Ensemble Response Scoring for Language Model Question Answering. 基于 ColBERT 检索和集成响应评分的语言模型问答 摘要 细节 数据指标 RAG 流程中 Chunk…
-
Databrick 对 Long Context RAG 的评测
—
in RAG整体结果 四项评测集的平均正确率 DocQA 的正确率 HotpotQA 的正确率 评测方案 评测方案中的主要设置 retrieval 阶段 generation 阶段 召回率 Recall@k # Retrieved chunks 1 5 13…
-
大模型超长上下文对 RAG 是降维打击(2)
更多模型的评测结果 问题序号 评测问题 评测问题的考验点 原生 GPT4 kimi chat Coze (800 t) Coze (2000 t) Dify (800t, gpt3.5) A 优才申请的条件 长分片总结…