Kreuzberg - 多语言文档智能框架
Kreuzberg - 多语言文档智能框架
简介
Kreuzberg 是一个用 Rust 编写的多语言文档智能框架,支持从 76+ 种格式中提取文本、元数据和结构化信息。
特性
- 多格式支持:PDF、Office 文档、图片等 76+ 格式
- 多语言 SDK:Rust、Python、Ruby、Java、Go、PHP、Elixir、C#、R、C、TypeScript
- 多种接口:CLI、REST API、MCP Server
- 高性能:Rust 核心,效率高
技术栈
- 核心语言:Rust
- 主要语言:HTML
使用方式
Rust
use kreuzberg::*;
let document = kreuzberg::extract("document.pdf").unwrap();
println!("{}", document.text);
Python
import kreuzberg
document = kreuzberg.extract("document.pdf")
print(document.text)
CLI
kreuzberg extract document.pdf
项目信息
- GitHub: kreuzberg-dev/kreuzberg
- ⭐ 6468 stars
- License: MIT
- 官网: https://kreuzberg.dev/
适用场景
- 文档处理流水线
- 知识库构建
- 内容提取与索引
- OCR 与文档数字化