
OpenAI hat mit dem Privacy Filter ein neues Modell samt lokal nutzbarer Werkzeuge vorgestellt, das personenbezogene und sensible Informationen in Texten erkennen und auf Wunsch maskieren kann. Spannend ist das vor allem für alle, die so etwas nicht über externe Dienste jagen wollen, sondern lieber im eigenen Umfeld arbeiten.
Das Modell ist als bidirektionaler Token-Klassifikator ausgelegt und soll unter anderem E-Mail-Adressen, Telefonnummern, Namen, Adressen, URLs, Daten, Kontonummern und Secrets erkennen. Laut OpenAI lässt sich das Ganze lokal betreiben, bei Bedarf feinjustieren und auch auf längere Texte anwenden. Der Kontext liegt bei bis zu 128.000 Tokens.
OpenAI stellt nicht nur die Gewichte bereit, sondern auch CLI, Beispielskripte und Dokumentation für Redaction, Evaluation und Finetuning. Das Ganze kommt mit einer Apache 2.0 Lizenz.
Wie immer gilt aber auch hier, solche Werkzeuge helfen, sind aber keine Garantie für perfekte Anonymisierung. Gerade in sensiblen Bereichen wird man weiterhin prüfen müssen, was am Ende tatsächlich geschwärzt wird.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.


