Paperless GPT – Die perfekte Ergänzung zu Paperless-NGX


Mit Paperless-NGX habe ich mir bereits eine leistungsfähige Plattform aufgebaut, um meine privaten Dokumente sauber, sicher und strukturiert abzulegen. Im Alltag bleibt aber trotzdem viel Fleißarbeit: Titel vergeben, Daten übertragen, Inhalte strukturieren oder Dokumente kategorisieren.

Genau hier setzt Paperless GPT an.
Das System erweitert Paperless-NGX um eine KI-gestützte Intelligenzschicht, die Dokumente automatisch analysiert, interpretiert und mit Metadaten anreichert. Das spart Zeit und sorgt gleichzeitig für konsistente Daten.


Was ist Paperless GPT?

Paperless GPT ist ein Open-Source-Add-on, das Large Language Models (LLMs) wie zum Beispiel gpt-4o-mini nutzt, um Dokumente in Paperless-NGX vollautomatisch aufzubereiten. Technisch läuft Paperless GPT als eigener Docker-Service und kommuniziert über die API mit Paperless.

Typische Aufgaben, die Paperless GPT übernimmt:

  • Automatische Generierung eines verständlichen Dokumenttitels
  • Zuordnung des korrekten Korrespondenten
  • Erkennung und Befüllen von benutzerdefinierten Feldern (Custom Fields)
  • Optionale Verbesserung der OCR-Ergebnisse
  • Setzen von Tags, zum Beispiel zur Steuerrelevanz
  • Klassifikation und Strukturierung nach individuellen Regeln

Die Logik dahinter wird über frei definierbare Prompts gesteuert. Damit lässt sich das Verhalten sehr genau an den eigenen Anwendungsfall anpassen.


Warum Paperless GPT? – Mehrwert im Alltag

Für meine private Dokumentenablage ist Paperless GPT inzwischen ein fester Bestandteil. Besonders drei Punkte bringen im Alltag spürbare Entlastung:

1. Einheitliche Dokumenttitel

Die KI analysiert Inhalt und Kontext eines Dokuments und erstellt daraus einen klaren, sachlichen Titel, zum Beispiel:

„Rechnung Grohe Deutschland – Aktivkohlefilter – 11/2025“

Das sorgt dafür, dass Dokumente später schneller wiedergefunden werden und die Übersicht im Archiv deutlich besser wird.

2. Automatisch ausgefüllte Felder

Wichtige Informationen werden direkt aus dem Dokument extrahiert und in Paperless hinterlegt, zum Beispiel:

  • Rechnungsnummer
  • Rechnungsdatum
  • Gesamtbetrag
  • Fälligkeitsdatum
  • Versicherungsnummer
  • Vertragsbeginn und Vertragsende
  • Brutto- und Nettolohn
  • Abrechnungsmonat

Gerade bei Rechnungen, Entgeltabrechnungen, Versicherungsunterlagen oder Hausverwaltungsdokumenten spart das sehr viel Zeit.

3. Intelligente Zuordnung

Über angepasste Prompts und Regeln lassen sich Zuordnungen sehr fein steuern. Beispiele aus meinem Setup:

  • BFS health finance und PVS BW werden konsequent als medizinische Abrechnung ? Korrespondent „o_Arzt“
  • Vodafone, O2 und historische Unitymedia-Unterlagen ? Korrespondent „Internet/Telekom“
  • Dokumente der Hausverwaltung inklusive „Immobilienbetreuung“ ? Korrespondent „Hausverwaltung“
  • Banken werden nur dann als Korrespondent verwendet, wenn die Bank tatsächlich Absender ist, nicht wenn sie lediglich als Zahlungsweg in einer Rechnung erwähnt wird
  • Versicherungen werden den vorhandenen V_-Korrespondenten zugeordnet; falls kein passender vorhanden ist, greift ein Fallback auf „V_Versicherung“

Damit bleiben die Daten sauber, und die Zuordnung ist reproduzierbar.


Mein Setup – Architektur und Modellwahl

Paperless-NGX läuft bei mir auf einer UGREEN NASync DXP2800. Paperless GPT betreibe ich als separaten Docker-Container. Besonders wichtig war mir ein gutes Verhältnis aus Kosten, Leistung und Stabilität.

Als Modell setze ich aktuell auf:

  • LLM-Provider: OpenAI
  • Modell: gpt-4o-mini
  • Sprache: Deutsch (LLM_LANGUAGE = „German“)

gpt-4o-mini ist schnell, kostengünstig und gleichzeitig präzise genug, um Rechnungen, Verträge, Arztbriefe und andere private Dokumente zuverlässig auszuwerten.

Über Umgebungsvariablen im Docker-Compose werden außerdem folgende Tags definiert:

  • MANUAL_TAG: paperless-gpt
  • AUTO_TAG: zum Beispiel paperless-gpt-auto oder ein spezielles Tag nur für Titel und Felder
  • AUTO_OCR_TAG: optional für automatische OCR-Durchläufe

Diese Tags steuern, welche Dokumente von Paperless GPT verarbeitet werden.


Prompts – Das eigentliche „Gehirn“ hinter Paperless GPT

Die wahre Stärke von Paperless GPT liegt in den frei definierbaren Prompts. Für mein Setup habe ich unter anderem folgende Bereiche ausgearbeitet:

  • Correspondent Prompt
    – erkennt Banken, Versicherungen, Hausverwaltung, Arbeitgeber, Arzt, Online-Shops usw.
    – enthält Speziallogik für BFS/PVS, Vodafone/O2/Unitymedia, Immobilienbetreuung Joachim, WEG-Unterlagen und mehr
  • Title Prompt
    – generiert kurze, sachliche Titel
    – vermeidet sensible Daten wie IBAN oder vollständige Adressen
    – behandelt Bestellungen und Rechnungen mit einer eigenen Logik
  • Tag Prompt (Steuerrelevanz)
    – markiert nur dann ein Dokument als potentiell steuerrelevant, wenn klare Hinweise auf Werbungskosten, Versicherungen, Hausverwaltungs- oder Energiekosten usw. vorhanden sind
  • Custom-Field Prompt
    – extrahiert strukturierte Informationen (z. B. Beträge, Daten, Nummern)
    – formatiert Beträge einheitlich (EUR1234.56)
    – gibt nur Felder zurück, die sicher erkannt wurden

Die Prompts lassen sich jederzeit anpassen, erweitern oder verschärfen, wenn sich der eigene Bedarf ändert.


Workflows – Automatisierung auf Paperless-Seite

Paperless-NGX bietet ein eigenes Workflow-System. In Kombination mit Paperless GPT ergeben sich hier sehr flexible Automatisierungsmöglichkeiten. Typische Szenarien aus meinem Setup:

  • Workflow 1: Dokument erstellt ? GPT anstoßen
    • Ereignis: neues Dokument
    • Aktion: Tag paperless-gpt-auto hinzufügen
    • Ergebnis: Dokument wird automatisch von Paperless GPT analysiert
  • Workflow 2: Spezialfälle ausschließen
    • Bedingung: Dokument hat Tag „Technik“, „Manual“ oder „no-gpt“
    • Aktion: Tag paperless-gpt-auto wieder entfernen
    • Ergebnis: technische Unterlagen, Handbücher etc. bleiben unberührt

Damit lässt sich sehr fein einstellen, welche Dokumente vollautomatisch laufen und wo man bewusst manuell bleiben möchte.


Erfahrungen im Alltag

Nach mehreren Wochen produktivem Einsatz lässt sich eine klare Bilanz ziehen:

  • Weniger manueller Aufwand beim Anlegen und Pflegen von Dokumenten
  • Deutlich konsistentere Titel und Metadaten
  • Bessere Trefferquote bei der Suche
  • Hohe Flexibilität durch eigene Regeln und Prompts
  • Stabiler Betrieb bei gleichzeitig überschaubaren Kosten durch das Modell gpt-4o-mini

Paperless GPT ist für mich damit ein logischer nächster Schritt auf dem Weg zu einer wirklich „intelligenten“ Dokumentenablage.


Fazit

Paperless-NGX liefert eine sehr solide Basis für die digitale Dokumentenverwaltung.
Durch die Ergänzung mit Paperless GPT wird daraus ein System, das nicht nur speichert, sondern versteht, was in den Dokumenten steht – und diese Informationen in strukturierter Form nutzbar macht.

Wer bereits Paperless im Einsatz hat und bereit ist, ein wenig Zeit in die Anpassung von Prompts zu investieren, bekommt mit Paperless GPT ein mächtiges Werkzeug, das den täglichen Umgang mit Dokumenten deutlich effizienter macht.

Schreibe einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden.