pdf-image-text-extractor
CommunityTurn PDFs and images into editable text
Authorredfox-data
Version1.0.0
Installs0
System Documentation
What problem does it solve?
从图片或 PDF 文档中识别并提取文字内容,自动判断是否包含文字并尽量保留原始排版,帮助用户快速将非可编辑文本转化为可编辑文本。
Core Features & Use Cases
- 图片文字识别:支持常见图片格式,自动检测并提取图片中的文字,尽量保留原排版。
- PDF 文字提取:同时处理文字版和扫描版 PDF,保留段落结构和标题层级,输出 Markdown。
- 文字存在性检测:自动判断是否包含可提取文字,若无则给出明确提示。
- 多语言支持:支持中文、英文等多语言文本识别与提取。
- 结构化输出:输出可直接阅读或保存为 Markdown 文件的文本内容,便于二次编辑。
- 隐私与本地化:处理过程在当前会话中完成,尽量保证数据隐私与可控性。
Quick Start
Upload an image or PDF to start extracting text and output a Markdown document.
Dependency Matrix
Required Modules
pymupdf
Components
scripts
💻 Claude Code Installation
Recommended: Let Claude install automatically. Simply copy and paste the text below to Claude Code.
Please help me install this Skill: Name: pdf-image-text-extractor Download link: https://github.com/redfox-data/redfox-community/archive/main.zip#pdf-image-text-extractor Please download this .zip file, extract it, and install it in the .claude/skills/ directory.
Agent Skills Search Helper
Install a tiny helper to your Agent, search and equip skill from 510,000+ vetted skills library on demand.