Kreuzberg - 多语言文档智能框架

Kreuzberg - 多语言文档智能框架

简介

Kreuzberg 是一个用 Rust 编写的多语言文档智能框架,支持从 76+ 种格式中提取文本、元数据和结构化信息。

特性

  • 多格式支持:PDF、Office 文档、图片等 76+ 格式
  • 多语言 SDK:Rust、Python、Ruby、Java、Go、PHP、Elixir、C#、R、C、TypeScript
  • 多种接口:CLI、REST API、MCP Server
  • 高性能:Rust 核心,效率高

技术栈

  • 核心语言:Rust
  • 主要语言:HTML

使用方式

Rust

use kreuzberg::*;

let document = kreuzberg::extract("document.pdf").unwrap();
println!("{}", document.text);

Python

import kreuzberg

document = kreuzberg.extract("document.pdf")
print(document.text)

CLI

kreuzberg extract document.pdf

项目信息

  • GitHub: kreuzberg-dev/kreuzberg
  • ⭐ 6468 stars
  • License: MIT
  • 官网: https://kreuzberg.dev/

适用场景

  • 文档处理流水线
  • 知识库构建
  • 内容提取与索引
  • OCR 与文档数字化