Welche KI-Verfahren kommen für die Betrugserkennung in Bilanzen in Frage? 

Beitrag vom 27. Juli 2023

Betrügerische Handlungen haben häufig Muster, die von der Norm abweichen und sich in bestimmten Unternehmenskennzahlen oder in Relationen von Kennzahlen untereinander widerspiegeln. Für die Entdeckung betrügerischer Muster in Unternehmensdaten können Methoden des maschinellen Lernens genutzt werden. Doch bevor diese Verfahren effektiv Betrug erkennen können, müssen sie entsprechend trainiert werden.

Die Qualität der Trainingsdaten hat dabei eine entscheidende Rolle. Ohne geeignete realitätsnahe Daten können die Algorithmen nicht lernen und somit auch keine verlässlichen Aussagen treffen. Insbesondere Daten von Unternehmen mit nachgewiesenem betrügerischem Verhalten sind hierbei wichtig. Gleichzeitig ist bei der Wahl der Datengrundlage auch der Fokus der Analyse zu beachten.

Werden Großunternehmen untersucht, so sollte die Datengrundlage auch von Großunternehmen stammen. Grundsätzlich werden dabei nicht die gesamten Buchhaltungsdaten eines Unternehmens benötigt. Eine Auswahl an Kennzahlen, welche die Bereiche Verschuldungsgrad, Effizienz, Profitabilität und Insolvenzgefahr abdecken sowie, als Zielvariable, eine Klassifizierung in betrügerisch oder nicht betrügerisch kann ausreichend sein. Der bekannteste Datensatz dieser Art wurde von Patricia M. Dechow erstellt und umfasst 146 Tsd. US-amerikanische Börsenunternehmen aus den Jahren 1993 bis 2014. 

Auf dieser Grundlage können Algorithmen trainiert und anschließend für die KI-gestützte Klassifizierung zu prüfender Unternehmen in nicht betrügerisch und betrügerisch genutzt werden. In Frage kommen dabei verschiedene Verfahren, die unterschiedliche Ansätze verfolgen und somit auch unterschiedliche Stärken und Schwächen aufweisen.

Während es sich bei Verfahren wie künstliche neuronale Netze um sogenannte Black-Box-Verfahren handelt und die Lösung ohne Kenntnisse über die innere Funktionsweise akzeptiert werden muss, gibt es auch Verfahren wie den CART-Algorithmus (Classification and Regression Tree) oder den RIPPER-Algorithmus (Repeated Incremental Pruning to Produce Error Reduction), die dem Nutzer ein nachvollziehbares Ergebnis mit Hilfe eines Entscheidungsbaums oder eines Regelsatzes liefern. Ensemble-Verfahren gleichen durch das Zusammenspiel verschiedener Algorithmen Schwächen der einzelnen Verfahren aus.

Auch Verfahren des unüberwachten Lernens können zur Betrugserkennung eingesetzt werden. Diese sind besonders effektiv, wenn schwer erkennbarer Betrug detektiert werden muss. Allen gemein ist, dass die Vorhersagen über Betrug nur durch Wahrscheinlichkeiten angegeben werden können. Die Klassifizierung in betrügerisch bedeutet also keinesfalls, dass das Unternehmen auch tatsächlich Betrug im Jahresabschlussbericht begangen hat, sondern lediglich, dass die Muster Anomalien aufweisen, die einer genaueren Einzelfallbetrachtung unterzogen werden sollten. 

Die Stärken und Schwächen der Verfahren spiegeln sich in deren Leistung bei prototypischen Berechnungen mit Hilfe des oben genannten Datensatzes wider. Das wichtigste Kriterium ist hier die Genauigkeit der Verfahren. Diese liegt bei den getesteten Verfahren im Bereich zwischen 71% und 95%. Die analysierten Algorithmen bieten somit alle einen Informationsgewinn und können für die Bewertung von Mandanten im Rahmen einer Wirtschaftsprüfung genutzt werden.

Für den Einsatz in der Praxis sollte dabei nur auf eine Option der verschiedenen Verfahren oder sogar nur auf eine First-Best-Lösung zurückgegriffen werden. Mit Blick auf die Qualitätsindikatoren insgesamt ist der aussichtsreichste Kandidat der Random Forest-Algorithmus. Auch weil die Ergebnisse nutzerfreundlich interpretierbar sind. 

Verfahren Genauigkeit 
Classification-And-Regression-Tree-Algorithmus 93,6% 
Random Forest 94,8% 
Künstliche neuronale Netzwerke 94,7% 
Support Vector Machine 95,2% 
Logistische Regression 90,7% 
Gaussian Naive Bayes 92,5% 
Repeated Incremental Pruning to Produce Error Reduction 90,9% 
k-Nearest-Neighbor 94,0% 
Balanced Bagging 90,7% 
Ensemble 94,6% 
Lokaler Ausreißerfaktor 71,2% 
Isolation Forest 84,7% 
k-Means 94,0% 

Die für die Implementierung von KI-Verfahren zur Betrugserkennung notwendige Infrastruktur (z. B. die Datenbasis) ist in oktant bereits vorhanden. Wie genau das aussieht, erläutere ich im nächsten Beitrag.

Autor

Lars Becker

E-Mail schreiben
Andreas Lau synalis oktant Bonn

Kontakt

Ihr Ansprechpartner

Andreas Lau
Geschäftsführer synalis GmbH & Co. KG
+49 228 9268-0
andreas.lau@oktant.eu
synalis GmbH & Co. KG
Gesellschaft für modernes Informationsmanagement