Archiv 2016

Die Durchleuchtung der Datenberge

Wo die digitale Datenanalyse zur „Transparenz aus Verantwortung“ beitragen kann

Gewaltige Datenmengen lagern in den Rechenzentren von Unternehmen, Krankenhäusern, Versicherungen, Behörden und anderen Institutionen. Die Angst vor Missbrauch ist verbreitet. Aber bieten die digital gesammelten Informationen nicht auch die Chance besserer Einblicke in fragwürdige Praktiken und der Analyse und Früherkennung von Fehlentwicklungen? Eine Tagung an der TU München-Garching, organisiert vom „Deggendorfer Forum für digitale Datenanalyse e.V.“, wies auf die Verantwortung der Experten für digitale Datenanalyse hin, sich dieser Herausforderung zu stellen.

„Die weiße Mafia“ hat Dr. Frank Wittig sein Buch genannt, das nach dem Erscheinen 2013 bald zum Spiegel-Bestseller aufstieg. Der Journalist beim Südwestrundfunk hat sich seit Jahren mit den Strukturen des deutschen Gesundheitssystems beschäftigt. Für ihn herrschen dort Strukturen, die „Intransparenz automatisch herbeiführen“. Besonders kritisiert er das System der Fallpauschalen, nach dem den Krankenhäusern Behandlungs-„Fälle“ mit festgelegten Pauschalen bezahlt werden. Das System sei einst unter anderem mit dem Ziel eingeführt worden, Kontrolle und Steuerung der Kosten in den Krankenhäusern zu verbessern. Doch in der Praxis habe es sich aus Sicht der Patienten zur „schlimmsten Reform, die es jemals gab“ entwickelt. Denn das System reize dazu, Patienten als kranker einzustufen, als sie sind, sie entsprechend aufwendiger zu behandeln, als sinnvoll, und sie frühzeitig zu entlassen. Wittig beklagt eine enge Verflechtung der verschiedenen beteiligten Interessengruppen von Ärzten und ihren Fachgesellschaften bis zur Pharmaindustrie und damit verbunden ein erhebliches Kontroll- und vor allem auch Sanktionsdefizit. 800.000 Krankenhausabrechnungen würden jährlich als fehlerhaft beanstandet. Doch außer dass die Kassen in solchen Fällen die Kosten nicht erstatteten, müsse die betroffene Klinik keine weiteren Sanktionen befürchten.

Die Daten liegen vor, doch sie werden nicht genutzt, mehr Transparenz in die Abrechnungspraxis zu bringen. Mit diesem Beispiel leitete Wittig eine Tagung ein, die genau dieses thematisierte: „Transparenz aus Verantwortung: neue Herausforderungen für die digitale Datenanalyse“ war der Titel des 12. Deggendorfer Forums zur digitalen Datenanalyse (DFDDA), das seit 2005 jährlich von dem gleichnamigen eingetragenen Verein mit Sitz an der Technischen Hochschule Deggendorf (THD) organisiert wird. Der Verein unter dem Vorsitz von Prof. Dr. Georg Herde (Fakultät für Angewandte Wirtschaftswissenschaften an der THD) sieht zwar seinen Schwerpunkt in der Förderung der digitalen Datenanalyse in den Bereichen Interne Revision, Wirtschaftsprüfung, Steuerrecht, Controlling und betriebswirtschaftliche Prozessoptimierung. Doch mit der steigenden Bedeutung von „Big Data“-Anwendungen wird der Blick über den Tellerrand zum festen Bestandteil der jährlichen Forumsveranstaltungen in Deggendorf und wechselnden anderen Tagungsorten. In diesem Jahr war das Forum zu Gast beim Institute for Advanced Study (IAS) in Garching und dessen Leiter Prof. Dr. Jürgen Ernstberger.

Die Beiträge der zweitägigen Veranstaltung umkreisten das Forumsthema von der IT-Sicherheit und der Sicherung einer hohen Qualität großer Datenbestände bis zur Aufbereitung von Informationen für Entscheider und den Veränderungen, vor denen der Beruf des Wirtschaftsprüfers in Zeiten digitaler Datenanalyse steht.

Jochen Thierer und Marie-Luise Wagener von der SAP-AG in Walldorf schilderten die Schwierigkeit, in einem Großunternehmen, das im globalen Umfeld tätig ist, Betrug und unternehmensschädliches Verhalten im Inneren aufzudecken und den Überblick zu behalten zum Beispiel über riskante Transaktionen in Steueroasen oder über Geschäftspartner, die in fragwürdige Aktivitäten verwickelt sind oder waren. Etwa fünf Prozent des Jahreseinkommens gehe einem Unternehmen durch Betrug verloren, nur ein Prozent werde von automatischen Kontrollsystemen gefunden. Die Referenten stellten den hauseigenen Einsatz eines Systems für „Governance, Risk and Compliance“ (GRC) vor, das sich auf die Leistungsfähigkeit des In-Memory-Datenbank SAP HANA stützt. SAP bietet damit den Einsatz digitaler Datenanalyse an, um Betrug aufzudecken und Informationen über Geschäftspartner und deren Verbindungen zusammenzustellen.

Das System arbeitet mit Regeln, die Muster in Geschäftsprozessen erkennen sollen. Es wird sowohl auf komplette Datenbestände angesetzt, die zuvor kopiert werden, damit der laufende Geschäftsbetrieb nicht gestört wird, als auch in den laufenden Betrieb eingeschaltet, so dass verdächtige Transaktionen gestoppt und vor der Ausführung geprüft werden können. Vor allem im zweiten Fall sind die Anforderungen an die Geschwindigkeit des Systems enorm und nur mit der eingesetzten In-Memory-Datenbank zu erfüllen. Das bei SAP eingesetzte System kann über die Zeit anhand realer Betrugsfälle und realer Fehlalarme kalibriert werden, um die Treffergenauigkeit zu verbessern.

Uwe Nadler von der IBM Software Group stellte in seinem Beitrag die Frage nach der Verlässlichkeit von Ergebnissen aus Datenanalysen. Ob man es mit einem „undurchschaubaren Datensumpf“ oder einem „kristallklaren Datensee“ zu tun habe, hänge von der Bedeutung ab, die im Unternehmen der Datenqualität und dem kontinuierlichen Management der Daten zugemessen werde. „Die Bedeutung von Information Governance für Transparenz und verantwortliches Handeln bei der Analyse von Daten“ war denn auch der Untertitel seines Vortrags. Als krasses Negativbeispiel nannte er ein Unternehmen, das sich rühmte, 4,5 Millionen Kunden in seinen Datenbanken gespeichert zu haben. Doch eine Analyse dieser Daten förderte nur 1,3 Millionen tatsächlich unterschiedlicher Kunden hervor, und von denen konnte das Unternehmen nur 700.000 auf elektronischem Wege ansprechen, weil bei den anderen zum Beispiel keine E-Mail-Adresse bekannt war. „Niemand macht sich gerne daran, seine Datentöpfe aufzuräumen“, so Nadler. Umso wichtiger sei eine Strategie der Information Governance, mit dem Ziel, nicht so viele Daten wie möglich zu speichern, sondern so viele, wie nötig, um die Bedürfnisse des Unternehmens und der einzelnen Fachabteilungen zu bedienen, und diese Daten dann nach klaren Vorgaben abzulegen und zu dokumentieren.

Das strukturierte Aufbereiten von Informationen hat sich Dr. Ralf Steinberger vom Joint Research Centre (JRC) der Europäischen Kommission auf die Fahnen geschrieben. Allerdings geht es bei ihm nicht um Unternehmensdaten, sondern um Medieninformationen in mehr als siebzig Sprachen. Seine Aufgabe ist, den Einrichtungen der Europäischen Union die Informationen aus 250.000 Artikeln pro Tag aus 7000 Quellen weltweit so zugänglich zu machen, dass Meldungen über kritische Entwicklungen schnell verfügbar sind und dabei zum Beispiel zeitliche Zusammenhänge zu anderen Ereignissen oder Informationen über namentlich genannte Personen schnell hinzugezogen werden können. Einige der im „European Media Monitoring“ erstellten Anwendungen sind öffentlich (newsexplorer.eu, emm.newsbrief.eu, medisys.newsbrief.eu), auch mit speziellen Apps über mobile Geräte, während spezielle Funktionen wie eine Personalisierung der Nachrichtenauswahl von der Allgemeinheit nicht genutzt werden können. Steinberger und sein inzwischen 25-köpfiges Team versehen die Meldungen zwar mit Metadaten, können aber aus urheberrechtlichen Gründen normalerweise nur auf die Texte verlinken.

Das Beispiel zeigt: die digitale Datenanalyse hat es nicht nur mit strukturierten Daten aus Datentabellen zu tun, sondern zunehmend auch mit Fließtexten, aus denen Informationen automatisch extrahiert werden müssen. Prof. Dr. Siegfried Handschuh leitet den Lehrstuhl für Digital Libraries und Web Information Systems an der Universität Passau. In der Semantik, der Bedeutungslehre, müsse man sich zunächst von der Vorstellung verabschieden, ein Begriff stehe stets für einen eindeutigen Gegenstand. Mehrdeutigkeiten und kontextabhängige Bedeutungen zeigen vielmehr, dass zwischen Gegenstand und Begriff oder Symbol stets ein (gedankliches) Konzept steht. Um solche Bedeutungskonzepte in der Informatik abzubilden, setzt die Semantik zwei Methoden ein. Das eine ist der Aufbau einer Ontologie, einer formalen Spezifikation eines Begriffsumfeldes. „Man kommt damit recht weit“, sagt Handschuh. Das andere ist die „Verteilungssemantik“: Aus großen Textmengen lässt sich statistisch extrahieren, welche Tätigkeiten zum Beispiel im Zusammenhang mit einem „Apfel“ und einer „Birne“ genannt werden. Daraus ergeben sich charakteristische Unterschiede. So wird ein Begriff durch seinen Zusammenhang in der sprachlichen Praxis charakterisiert, wie es Ludwig Wittgenstein einmal sagte: „Die Bedeutung eines Wortes ist sein Gebrauch in der Sprache.“ Eine Bedeutung (Ontologie) lasse sich so automatisch errechnen, sagte Handschuh.

Kombinationen aus beiden Semantiken wurden bereits eingesetzt in den Biowissenschaften oder in der Medizin am Beispiel des Brustkrebses. Auch Synonyme lassen sich mit diesem Verfahren finden, und Handschuh berichtete sogar von Fortschritten bei der automatischen Verarbeitung von vagen Begriffen, der dynamischen Veränderung von Bedeutungen und Entwicklungen auf dem Feld der Beantwortung natürlichsprachiger Fragen. Auf die Frage, wann der Computer den Menschen verstehen werde, antwortete Handschuh allerdings skeptisch: „Viele Leute in meiner Community sind sehr euphorisch. Ich nicht so. Aber Verstehen zu simulieren wird in zehn Jahren eventuell möglich sein.“

Christoph Haas bezeichnet sich selbst als Hacker. Er hat sich und seine Firma Securai GmbH, Garching, darauf spezialisiert, Unternehmensnetzwerke sicherer zu machen. Dazu analysiert er den Datenverkehr über das Netzwerk und sucht nach Auffälligkeiten – eine Aufgabe, die er selbstironisch im Titel seines Beitrags so formuliert: „IT-Sicherheit und Datenanalyse: Wie trinkt man aus einem Feuerwehrschlauch?“ Denn Haas hat den Ehrgeiz, den kompletten Datenverkehr zu analysieren und dabei Auffälligkeiten genauer zu erkennen, als das ein Virenscanner tut. Wird etwa gerade ein E-Mail übertragen, kann man die Anlagen genauer unter die Lupe nehmen, Office-Dokumente werden auf verdächtige Aktivitäten untersucht, Uhrzeit und Zielland einer Internetverbindung können Hinweise auf einen Einbruchsversuch geben, ein kontaktierter Server kann als verdächtig bekannt sein. Auf der anderen Seite kann man Kontakte und Daten von Servern, die etwa Updates für zugelassene Programme von bekannten Firmen liefern, aus der Analyse herausnehmen. Eine verschlüsselte Datenübertragung schränke die Analysemöglichkeiten ein, doch ließen sich, so Haas, auch aus Sitzungsdaten Informationen für die Sicherheitsanalyse gewinnen. Grenzen setzt einer allgemeinen Analyse des Netzwerkverkehrs auch der Datenschutz. Da unvermeidlich persönliche Daten von Mitarbeitern abgezogen werden, ist, sofern privates Surfen erlaubt ist, eine Zustimmung der Mitarbeiter oder eine Betriebsvereinbarung zur Netzwerkanalyse nötig.

Welche Folgen wird der verstärkte Einsatz digitaler Datenanalyse für den Beruf des Wirtschaftsprüfers haben? Remo Rechkemmer ist Wirtschaftsprüfer bei der PricewaterhouseCoopers AG in München (PWC). Er stellte den Forumsteilnehmern ein mahnendes Szenario vor, in dem sich über die nächsten anderthalb Jahrzehnte hinweg die digitale Technik vom immer weitere Tätigkeiten unterstützenden und automatisierenden Werkzeug zum technisch hoch komplexen Helfer entwickelt, der unterstützt durch künstliche Intelligenz auf lange Sicht selbst Ermessensentscheidungen für den Prüfer vorbereitet.

Heute sei das Ziel des Wirtschaftsprüfers nicht eine hundertprozentige Sicherheit bei der Prüfung eines Unternehmens, sondern das Aufdecken der wesentlichen Fehler. Ein zentrales Prüfungsteam vor Ort im geprüften Unternehmen beanspruche dabei 68 Prozent der für die Prüfung notwendigen Arbeitsstunden und verursache 72 Prozent der Kosten. Das könne so nicht weitergehen. Rechkemmer sieht die Zukunft in einer „Erhöhung der Transparenz durch digitale Vollanalysen“. PWC setzt dazu bereits das selbst entwickelte System Halo für SAP ein. Allerdings räumte Rechkemmer ein: „Mandanten scheuen sich ein Stück weit, den vollen Zugriff auf ihre Daten zu gewähren.“

Selbst die Digitalisierung analoger Datenquellen (Rechnungen, Verträgen) lasse sich grundsätzlich heute schon durch OCR und semantische Analyse automatisieren. Kostenstruktur und Personalbedarf der Wirtschaftsprüfung sieht Rechkemmer einem starken Wandel unterworfen. Er schlüsselte die Tätigkeiten des Wirtschaftsprüfers nach der Höhe des Ermessens auf, die dazu erforderlich sei. Die Digitalisierung werde nach seiner Einschätzung bis etwa 2030 selbst in die Bereiche hohen Ermessens voranschreiten. „Die Kerntätigkeiten werden bleiben“, so Rechkemmer. Doch die Kostenstruktur werde immer stärker „technologiegetrieben“ sein, und das Profil des Wirtschaftsprüfers werde sich verändern: Seine Ausbildung werde anspruchsvoller werden und müsse auch die Technik der digitalen Datenanalyse einbeziehen.

Das Deggendorfer Forum für digitale Datenanalyse e.V. (DFDDA) hat sich zur Aufgabe gemacht, Wissenschaft, Hochschulausbildung und Praxis auf allen Gebieten der digitalen Datenanalyse in den Bereichen interne Revision, Wirtschaftsprüfung, Steuerrecht, Controlling und betriebswirtschaftliche Prozessoptimierung zu fördern. Das geschieht vor allem durch die ideelle und finanzielle Unterstützung der Lehre und Forschung an der Fakultät Betriebswirtschaft und Wirtschaftsinformatik der Technischen Hochschule Deggendorf. Hochschulübergreifend findet seit 2005 jährlich an wechselnden Tagungsorten das Deggendorfer Forum zur digitalen Datenanalyse statt. Seit 2009 dient zusätzlich die jährliche Stützpunktveranstaltung auf dem Campus der Technischen Hochschule Deggendorf dazu, den Teilnehmern konkrete, praxisrelevante Ansätze für die digitale Datenanalyse zu vermitteln.

Rainer Klüting, Wissenschaftsjournalist