뉴스 AI / IT

크로이츠베르크 v4.3.0 출시 및 성능 벤치마크 공개

크로이츠베르크는 새로운 버전(v4.3.0)을 출시하며, 다양한 문서 추출 도구와의 비교 벤치마크를 통해 뛰어난 처리 속도와 효율성을 입증했습니다.

크로이츠베르크는 MIT 라이선스를 가진 오픈소스 다국어 문서 지능 프레임워크로, Rust 언어로 작성되었으며 Python, TypeScript/JavaScript, Ruby, Java, Go, PHP, Elixir, C# 등 다양한 바인딩을 제공합니다. CLI 도구, Docker 이미지, REST API 서버, MCP 서버 형태로도 사용 가능하며, 75개 이상의 문서 및 이미지 형식에서 텍스트, 메타데이터, 테이블 등의 정보를 추출하고 OCR 기능을 수행하여 AI 애플리케이션, 문서 워크플로우, 데이터 파이프라인의 전처리 단계를 지원합니다.

최근 공개된 벤치마크는 Apache Tika, Docling, Unstructured, PDFPlumber 등 여러 인기 있는 문서 추출 도구와 크로이츠베르크의 성능을 비교 분석했습니다. GitHub Actions를 통해 표준화된 Linux 환경에서 테스트가 진행되었으며, 처리량, 추출 시간, 메모리 사용량, CPU 사용량, 성공률, 추출 품질 등을 측정했습니다. 그 결과 PDF, DOCX, PPTX, HTML 등 일반적인 문서 형식에서 크로이츠베르크가 현저히 높은 처리량을 보였고, 특히 처리 시간이 밀리초 단위로 측정될 정도로 빠르고, 콜드 스타트 시간도 경쟁 제품 대비 짧게 나타났습니다.

v4.3.0 버전에서는 PaddleOCR 지원을 통해 중국어, 한국어를 포함한 6개 언어에 대한 고품질 OCR 기능을 강화했습니다. Rust 생태계 내에서 자동 모델 다운로드 및 캐싱이 가능해져 아시아 언어 처리가 필요한 파이프라인 구축이 용이해졌습니다. 또한 구조화된 문서 데이터 추출 기능이 추가되었고, 지원하는 파일 형식이 확장되었습니다.

원문 제목

Kreuzberg v4.3.0 and benchmarks

원문 보기 뒤로가기