在现代生活中,纸质文件虽然逐渐被电子化文件所取代,但各种发票、合同、快递单据等纸质资料仍是日常办公和生活的一部分。
于是,如何更高效地管理纸质文件,成为困扰许多人的难题。今天想和大家聊聊一款名叫 Paperless-ngx 的开源神器,它的出现可以说是拯救了那些面对“纸山”无从下手的人们。
Paperless-ngx简介
Paperless-ngx是一款开源文档管理工具,支持图片、Excel、PDF、PPT等格式的文档管理。它能将物理文档转换为可搜索的在线档案,并通过OCR技术添加可搜索文本。用户可以使用标签、通讯员、类型等组织和索引扫描文档,数据本地存储且不共享。Paperless-ngx支持多种文件格式,包括PDF/A格式长期存储,并提供现代化Web界面,支持批量编辑、自定义视图、全文搜索等功能。
核心功能
- 文档的组织与索引:通过标签、对应者、类型等多种方式组织扫描文档。
- OCR文本识别:对文档进行光学字符识别,使包含图像的扫描文档也能搜索和选择文本。
- 多语言支持:利用开源的Tesseract引擎,支持100多种语言。
- 长期存储格式:文档以PDF/A格式保存,设计用于长期存储。
- 智能标签与分类:使用机器学习自动添加标签、对应者和文档类型。
- 广泛的文件支持:支持PDF文档、图像、纯文本文件、Office文档等。
- 定制化的文件管理:Paperless-ngx管理文件名和文件夹,支持不同的配置。
- 现代化的网页应用:定制仪表板、过滤器、批量编辑、拖放上传、自定义视图、共享链接等。
- 全文搜索:自动完成、相关性排序、高亮显示匹配查询的部分。
- 电子邮件处理:从电子邮件账户导入文档,配置多个账户和规则。
- 多用户权限系统:内置健壮的多用户权限系统。
- 多核系统优化:并行处理多个文档。
核心优势
1、OCR识别功能:从“图片”到“文本”
OCR(光学字符识别)是指将图片中的文字内容识别并提取为可编辑、可搜索的文本。这样即便是扫描的图像文件,也可以直接通过关键字搜索到内容,大大提高了查找效率。值得一提的是,它还支持多达100多种语言,通过开源 Tesseract 引擎实现识别,中文、日语等语言都不在话下。
2、智能分类与索引:不再为找文件发愁
系统可以根据文档内容自动生成标签、通信者和文件类型,甚至还能通过机器学习技术智能为文档添加标记。这样一来,无论文件再多,都能通过标签或关键词快速找到。
比如,在需要查找税务相关的文件时,只需输入“税务”标签即可找到所有相关文件——这一功能显著提升了信息检索效率,节省了大量的时间成本。
3、支持多种文件类型:一网打尽
文件类型不仅局限于图片和PDF,还可以处理 Office 文档如 Word、Excel、PowerPoint 以及 LibreOffice 文件。
无论你的文件是什么格式,它都能轻松搞定,为你的文档管理提供全方位的支持。特别是在需要上传或查找不同文件类型时,这种灵活性让整个操作过程更加顺畅。
4、直观的Web应用:界面友好,操作便捷
在日常办公中,一个直观的界面可以极大地提升用户体验。Paperless-ngx 提供了 定制化的仪表板、批量编辑、拖放上传、自定义字段等功能,让你在管理文档时更加得心应手。
尤其是公共链接的分享功能,方便用户快速分享文件,大大提高了团队的协作效率。
5、全文搜索:随心所欲,精准匹配
无论文件再多,都能在关键字、标签或元数据的指引下,迅速帮你找到目标文档。搜索功能中包含了自动完成、相关性排序和高亮显示匹配查询的文档部分,带来了如同互联网搜索引擎般的体验——简单、快速、精准。
安装步骤
克隆项目到本地:
git clone https://github.com/icereed/paperless-gpt.git
cd paperless-gpt
创建 prompts 目录:
mkdir prompts
构建 Docker 镜像:
docker build -t paperless-gpt .
运行 Docker 容器:
docker run -d \
-e PAPERLESS_BASE_URL=http://your_paperless_ngx_url \
-e PAPERLESS_API_TOKEN=your_paperless_api_token \
-e LLM_PROVIDER=openai \-e LLM_MODEL=gpt-4o \
-e OPENAI_API_KEY=your_openai_api_key \
-e LLM_LANGUAGE=中文 \
-e VISION_LLM_PROVIDER=ollama \
-e VISION_LLM_MODEL=minicpm-v \
-e LOG_LEVEL=info \-v $(pwd)/prompts:/app/prompts \
-p 8080:8080 \
paperless-gpt
使用体验
总结
源码地址
https://github.com/paperless-ngx/paperless-ngx
暂无评论内容