Man kann die Plagiatserkennung des Ephorus recht einfach "austricksen", indem man bei einen plagiierten Text einfach jedes zweite Leerzeichen durch einen weißen Buchstaben (z.B. ein 'a') ersetzt. Ich bin vom Kollegen Jörn Loviscach (https://twitter.com/JoernLoviscach/status/790116733373800449) auf diese Idee gebracht worden.
Das gezeigte Dokument im Anhang demonstriert das recht eindrucksvoll. Ich habe einfach mal den Beginn des Artikels über Plagiate aus der deutschen Wikipedia wörtlich in ein LaTeX-Dokument kopiert (Microsoft Word oder OpenOffice würden aber wahrscheinlich genau gut funktionieren) und dann etwa jedes zweite Leerzeichen durch ein weißes kleines 'a' ersetzt. Damit die automatische Silbentrennung am Zeilenende noch funktioniert, muss man dort von Hand etwas "nachsteuern" und ein paar weiße 'a' und Leerzeichen vertauschen. Im Grunde ist die etwas unsaubere rechte Textsatzlinie auch die einzige Möglichkeit, optisch zu erkennen, das hier etwas faul ist. Man könnte das mit 5 Minuten mehr Zeit pro Seite aber noch perfektionieren.
Im Druck würde das Dokument nun tadellos aussehen. Das Ephorus wandelt die PDF-Datei in eine Textdatei um und kümmert sich dabei nicht um die Farbe der Buchstaben. Der erste Satz wird dann zu: "EinaPlagiat (überafranzösisch plagiaire,adeutsch „Diebageistigen Eigentums“aaus latei-nischaplagi¯ arius, deutscha„Seelenverkäufer, Menschenräuber“ [1])aistadie Anmaßunga[2] fremder geistigeraLeistungen." und wird dementsprechend nicht mehr als Plagiat erkannt.
Interessant ist, das Ephorus bei 0% Plagiatsanteil auch keinen ausführlichen Bericht erstellt, in dem der Betrug sichtbar sein würde.
Die einzige Möglichkeit, dem Betrüger auf die Schliche zu kommen, wäre also:
- die PDF-Datei manuell von Hand nach dieser Art von Betrug zu durchsuchen (was natürlich zu aufwendig ist, und den Sinn und Zweck des Ephorus ad absurdum führt),
- die PDF-Datei auszudrucken, einzuscannen, per Texterkennung wieder in einen Text zu wandeln, und diesen dann zu überprüfen.