Wie Mathe Social Media und Fake-News erklärt

Im Information Retrieval gibt es eine Maßeinheit, TF/IDF, die verwendet wird, um zu berechnen, welche Attribute von Texten, Bildern, Videos am relevantesten sind. TF/IDF ist das Verhältnis der Termfrequenz (also der Gesamthäufigkeit bestimmter Merkmale) und der inversen Dokumentfrequenz (also der Frage, wie oft ein Merkmal in Dokumenten auftritt). Es gibt eine Ober- und Untergrenze (Upper & Lower cut-off), zwischendrin liegt die Menge signifikanter Merkmale, die Relevanz ist am größten.

Klar soweit? Na ja, machen wir kurz ein Beispiel….

Wörter, wie „der, die, das“ eignen sich nicht wirklich als Suchbegriff, weil sie in nahezu jedem Dokument vorkommen – sie liegen also ziemlich weit links oben in diesem Diagramm.
Wörter, wie „Steefan“ (ja, ein Tippfehler) sind zwar sehr selten, haben aber keine Relevanz für eine Suche, weil wir ja vermutlich nach „Stefan“ suchen wollen – diese liegen sehr weit rechts unten.

Je besser sich ein Merkmal von der Umgebung (d.h. von den anderen Merkmalen des Dokuments und von den anderen Dokumenten der Kollektion) abhebt, desto „wichtiger“ wird es – man nennt das „diskriminierende Eigenschaft“.

Stellen wir uns eine Kollektion mit 10.000 Bildern von mir vor (viel Spaß damit…). Dann macht es keinen Sinn, nach „Stefan“ zu suchen, denn die Treffermenge wäre bei 100%. Gibt es darin aber genau ein Bild, in dem ich eine Kaffee-Tasse halte (soll bei Informatikern durchaus vorkommen), dann wird die „Kaffee-Tasse“ zur „diskriminierenden Eigenschaft“, nach der ich hervorragend suchen kann.

Wenn nun aber jemand anders 100.000 Bilder mit mir und einer Kaffee-Tasse in die Kollektion lädt, ist diese „diskrimierende Eigenschaft“ verloren (oder auf gut Deutsch: für’n Ar…).

Und genau das passiert auf Social Media und bei Fake News.

Es gibt zwei gute Aussagen, die das gut beschreiben: „censorship by noise“ (Tim Wu, Columbia University) und „flood the zone with shit“ (Steve Bannon, Ex-Berater Pres. Trump).

Mit jedem neuen Bild verliert das einzelne somit an Gewicht!

Wenn man sich nunmehr ansieht, dass ca. 14 Mrd. Bilder pro Tag auf Social Media geteilt werden und wie einfach es ist, mit KI neue Bilder zu generieren, dann wird schnell klar, wie man diese „Macht“ einsetzen kann, um die erlernten und bekannten Prozesse des Information Retrieval (also des Suchens, Findens und Zugreifens auf Inhalte) zu verschieben. Man kann sie gezielt manipulieren. Nimmt man dann noch die gängigen Mechanismen von Social Media mit rein (Likes, Impressions, …), dann entsteht daraus eine sehr gefährliche Kombination.

Techniken zur Authentifizierung von Echtheit (z.B. die C2PA) sind zwar vorhanden, aber noch nicht in der breiten Masse angekommen. Daher gilt es umso mehr, hier für Bewusstsein und Aufklärung zu sorgen.

informatikersindcoolinformationretrievalmultimedia

P.S.: mehr dazu: „Multimedia Information Retrieval“ von Prof. Hemmje und mir (https://lnkd.in/e_eJF5Zb)