Data Science in der Prüfung: Was sind Entscheidungsbäume und wofür werden sie verwendet

Machine Learning (ML) und künstliche Intelligenz (KI) sind in aller Munde, allerdings tut sich die Revision zusehends schwer geeignete Anwendungsszenarien zu entwickeln. Die Ursachen dafür können vielfältig sein, sodass wir mit einer Data Science Serie die notwendigen Grundlagen zum Verständnis der Methoden und neue Anreize zur Entwicklung von Use-Cases setzen möchten. Denn sollte der Einsatz von ML und KI Algorithmen lediglich am Verständnis der Methoden scheitern, dann wird es höchste Zeit sich näher mit den Themen zu beschäftigen sowie Chancen und Risiken zu bewerten.

In einem vorangegangenen Blog Post „Was ist was – Künstliche Intelligenz für Revisoren“ hatten wir uns bereits mit den unterschiedlichen Methoden der ML und KI Disziplinen befasst und vorab geklärt, was eigentlich ein Data Scientist ist. Darauf aufbauend werfen wir in diesem Blog Post einen Blick auf Entscheidungsbäume, die im Bereich des Machine Learnings angesiedelt sind und sowohl Regressionsanalysen, als auch Klassifikationen zulassen.

Wieso, weshalb und warum Entscheidungsbäume?

Jeder von uns trifft laut dem Münchner Hirnforscher Ernst Pöppel am Tag ca. 20.000 Entscheidungen, das in der Regel blitzschnell und zum größten Teil unbewusst. Es fängt morgens bei der Snooze Taste des Weckers an, geht bei der Wahl des Brötchenbelags weiter und endet kurz vor dem Gang aus der Haustür bei der Frage, ob heute eine Jacke notwendig ist oder nicht:

Entscheidungsbaum Jacke

Natürlich setzt sich das im Laufe des Tages fort. Allerdings haben verschiedenste Studien in der Vergangenheit gezeigt, dass Entscheidungen im Unternehmen basierend auf Datenanalysen, im Gegensatz zum „Bauchgefühl“, durchschnittlich zu mehr Produktivität und damit mehr Gewinn führen.

Wie auf dem obigen Bild sehr deutlich wird, sind Entscheidungsbäume leicht zu verstehen und visualisieren die Pfade zur Entscheidungsfindung anhand von klar definierten Kriterien. Die Algorithmen gehen z.B. bei der Klassifikation so vor, dass die Kriterien, die vorliegenden Daten in möglichst heterogene Gruppen aufteilt. Damit kann ein Entscheidungsbaum sehr hilfreich sein, wenn es darum geht die richtige Entscheidung zu finden, oder ein Gesamtbild über Chancen und Risiken im Unternehmen zu erhalten. Doch dazu mehr im nächsten Abschnitt.

Warum sind Entscheidungsbäume für die Revision so hilfreich?

Wenn es um die Identifizierung von Chancen und Risiken geht, dann sind Entscheidungsbäume ein probates Mittel für die Revision. Der Grund dafür ist ganz einfach: Es ist nicht nur erkennbar welche Kriterien eine Rolle bei der Entscheidungsfindung gespielt haben, sondern die Ursachen können ebenfalls klar und deutlich identifiziert werden.

Das klingt sehr oberflächlich und generell, also gucken wir uns das mal an einem konkreten Beispiel an. Angenommen Sie wollten die kritischen Buchungen am Wochenende von den unkritischen trennen, dann müssten Sie zunächst alle Buchungen aussortieren, die in der Woche gebucht wurden und anschließend eine Auswahl möglichst heterogener Buchungen manuell prüfen und die Ergebnisse in die Datenbank zurückspielen. Das Ganze könnte dann beispielsweise folgendermaßen aussehen:

BelegnummerBelegartKontoartUsernameSamstagSonntagFinding
2000000131KRKahansen010
 2000000132KR Kkbridge010
 2000000133KR Kkhamad101
 2000000175DZ Dlappiah100
 2000000176DZ Dmlincoln011

In der ersten Zeile sehen wir die Kriterien für den späteren Entscheidungsbaum und die jeweiligen Ausprägungen der Buchungen in den nachfolgenden Zeilen. Hinweis: Die Kriterien sind nicht vollständig und dienen lediglich zur Veranschaulichung.

Wenden wir auf die obere Tabelle beispielhaft einen Algorithmus zur Generierung eines Entscheidungsbaums an, so kann das Ergebnis wie folgt aussehen:

Entscheidungsbaum Belegart in SAP

Alleine anhand des Entscheidungsbaums können wir jetzt sehr gut sehen, in welchen Fällen wir genauer hingucken müssen und zukünftige Daten dahingehend klassifizieren lassen. Selbstverständlich handelt es sich bei den gezeigten Kriterien nicht zwangsläufig um ein „Finding“, allerdings können die entsprechenden Algorithmen bei unklaren Möglichkeiten zusätzlich Wahrscheinlichkeiten eines bestimmten „Findings“ berücksichtigen. Als Prüfer legen Sie folglich Ihren Fokus auf die Kreditorenrechnungen (KR), die am Samstag gebucht werden und Debitorenzahlungen (DZ), die von einem User mit einem Anfangsbuchstaben größer oder gleich „k“ gebucht wurden.

Das Vorgehen ist selbstverständlich stark vereinfacht, aber zeigt ganz deutlich auf, wie z.B. Erkenntnisse einer Prüfung als Input für einen Entscheidungsbaum fungieren, um Folgeprüfungen effizienter zu machen. Um die Ergebnisse fortlaufend zu verbessern, spielen Sie die Daten jedes Mal zurück und berechnen nach jeder Prüfung den Entscheidungsbaum neu, sodass auch neue Muster in den Daten berücksichtigt werden.

Fazit

Daten sind das Gold des 21. Jahrhunderts und Entscheidungsbäume sind nur eine Möglichkeit diese Daten sinnvoll und effizient auch in der Prüfung zu nutzen. Ein solches Vorgehen hat natürlich nicht nur den Vorteil, dass die Prüfung immer besser und in kürzerer Zeit durchgeführt werden kann, sondern auch das Fachwissen bei Fluktuation im Unternehmen nicht direkt abwandert. Die Facetten von Data Science sind so vielseitig, dass sie nicht nur Auswirkungen auf die Informatik, sondern auch auf die Psychologie und Sozialwissenschaften nimmt. Damit sollten Sie sich überlegen, wie man sich dem Thema nähern kann, welche Möglichkeiten bestehen und welche Ressourcen in Zukunft notwendig sind. Wir haben uns bereits auf die Reise gemacht und verproben diverse Methoden zunächst in wissenschaftlichen Arbeiten und freuen uns jederzeit über Unternehmen, die mit uns und den Studenten diverse Projekte durchführen möchten. Falls Ihr Interesse jetzt geweckt wurde, dann melden Sie sich gerne hier bei uns.

Artikel teilen

Facebook
Twitter
XING
LinkedIn