pdf-image-text-extractor

Community

Turn PDFs and images into editable text

Authorredfox-data
Version1.0.0
Installs0

System Documentation

What problem does it solve?

从图片或 PDF 文档中识别并提取文字内容,自动判断是否包含文字并尽量保留原始排版,帮助用户快速将非可编辑文本转化为可编辑文本。

Core Features & Use Cases

  • 图片文字识别:支持常见图片格式,自动检测并提取图片中的文字,尽量保留原排版。
  • PDF 文字提取:同时处理文字版和扫描版 PDF,保留段落结构和标题层级,输出 Markdown。
  • 文字存在性检测:自动判断是否包含可提取文字,若无则给出明确提示。
  • 多语言支持:支持中文、英文等多语言文本识别与提取。
  • 结构化输出:输出可直接阅读或保存为 Markdown 文件的文本内容,便于二次编辑。
  • 隐私与本地化:处理过程在当前会话中完成,尽量保证数据隐私与可控性。

Quick Start

Upload an image or PDF to start extracting text and output a Markdown document.

Dependency Matrix

Required Modules

pymupdf

Components

scripts

💻 Claude Code Installation

Recommended: Let Claude install automatically. Simply copy and paste the text below to Claude Code.

Please help me install this Skill:
Name: pdf-image-text-extractor
Download link: https://github.com/redfox-data/redfox-community/archive/main.zip#pdf-image-text-extractor

Please download this .zip file, extract it, and install it in the .claude/skills/ directory.
View Source Repository

Agent Skills Search Helper

Install a tiny helper to your Agent, search and equip skill from 510,000+ vetted skills library on demand.