Vorträge des Stützpunkts 2012

Durch semantische Datenabstraktion zur problemspezifischen Vollprüfung

Prof. Dr. Michael Mendler & Dipl.-Mathematiker Ernst-Rudolf Töller

Nicht nur in der Medizin, Biologie oder Geologie stehen enorme Mengen von digitalisierten Daten zur Verfügung. Auch Steuerbehörden, Wirtschaftsprüfer, Revisoren profitieren von der stetigen Zunahme des Datenvolumens, das mittlerweile in allen zentralen Wirtschaftsprozessen digital gespeichert werden kann oder muss. Die moderne digitale Datenanalyse weckt hier zu Recht hohe Erwartungen an den möglichen Umfang und die Präzision analytischer Prüfungshandlungen.

Neben die zufallsbasierte aber risikobehaftete Stichprobenauswertung einzelner Attribute tritt die Vollprüfung logischer Attributverknüpfungen. Letztere ermöglicht eine global präzise und damit rechtlich belastbare Sicht auf den Wirtschaftsprozess, der sich in den Daten abbildet. Damit die Vollprüfung, sei es interaktiv-deduktiv oder statistisch-aggregierend, in der Praxis routinemäßig einsetzbar wird, müssen unter anderem zwei technische Herausforderungen gemeistert werden: das Volumen von Massendaten und der Wildwuchs an Datenformaten.

Der Vortrag gibt eine Einführung in innovative Verfahren der semantischen Datenabstraktion, die unter der Bezeichnung "Semantiktechnologien" und "Beschreibungslogiken" bekannt sind und aktuell für Anwendungen in der Medizin, des Semantic Web oder in der Kommunikation von Softwareagenten vorgeschlagen werden. Diese Techniken sind auch in der digitalen Datenanalyse einsetzbar. Sie erlauben es, den Prüfprozess auf der Ebene der Datensemantik ("Was bedeuten die Daten im Rahmen der Prüfhandlung?") in der Terminologie des Prüfers zu steuern anstatt ihrer Struktur ("Wie sind die Daten in der Datenbank gespeichert?"). Durch logisch-deduktive Verfahren wird das Prüfermodell automatisch auf ein vorliegendes Datenbankmodell abgebildet bzw. die im vorgegebenen ERP System abgelegten Daten in die Sprache des Prüfers verdichtet. Durch diese semantische Abstraktion wird die Komplexität der Daten einerseits problemspezifisch reduzierbar und andererseits der Prüfprozess terminologisch standardisierbar. Er lässt sich so effizient an Änderungen in der Strukturierung von Wirtschaftsdaten, an länderabhängige Interpretationen und Normen, neue Geschäftsfelder, rechtliche Vorschriften, oder Technologieentwicklungen (Datenformate, ERP-Systeme, GdpdU) anpassen.

Mit einer anschaulichen Einführung in die semantische Datenabstraktion will der Vortrag die Bedeutung der Beschreibungslogiken für die Zukunft der digitalen Datenanalyse auf dem Weg zur problemspezifischen Vollprüfung von Massendaten herausstellen.