Zum Oldenbourg Wissenschaftsverlag

Titelbild zum Beitrag: Vertrauen ist gut, Kontrolle ist besser
.

Vertrauen ist gut, Kontrolle ist besser

Die Qualität von Daten auf dem Prüfstand

Die Qualität von Daten ist nicht trivial. Sie ist für Unternehmen lebensnotwendig. Ganz unabhängig davon, ob es sich um Daten über Kunden, die Finanzen oder die Wettbewerbssituation handelt. Sind die Daten falsch, dann kann dies Manager durchaus den Kopf kosten oder im Extrem sogar ein Unternehmen in den Ruin treiben. Erfahrt mehr zur Notwendigkeit guter Daten von einem Schweizer Experten.

Von Christian FG Schendera, CSC Switzerland, Bern

.

PDFDiesen Beitrag als PDF.

.

Dass eine mangelnde Datenqualität eine Menge Geld und den eigenen Job kosten kann, musste der Vorstand der WestLB im vergangenen Jahr schmerzhaft am eigenen Leib erfahren. Das Düsseldorfer Bankhaus finanzierte die Fusion zweier britischer TV-Geräte-Verleiher zum Unternehmen Boxclever. Nachdem Boxclever Insolvenz anmelden musste, sind Prüfer der WestLB auf einen millionenschweren Rechenfehler gestoßen. In die Modellrechnungen habe sich laut WestLB ein „mathematischer Fehler" eingeschlichen. Es habe sich um eine komplexe Transaktion gehandelt und nach einer mehrtägigen Prüfung sei dieser Fehler schlussendlich zutage getreten. Der Unterschied habe über 500 Millionen (!) Euro ausgemacht. Die Folge: Gegen den ehemaligen Chef der WestLB-Chef wurde ein Strafverfahren eröffnet (Quelle: DPA, 27.02.2008).

Ein Einzelfall? Keineswegs, denn auch die BayernLB verlor im Juli 2007 über 40 Millionen Euro an der Börse. Ursache war keine Fehlspekulation, sondern Rechenfehler. Fehlerhafte mathematische Formeln verursachten diesen millionenschweren Verlust. Der verantwortliche Vorstand wurde in diesem Fall fristlos entlassen (Quelle: DPA, 02.07.2007). Auch und gerade der Verlust von Daten löst solche Skandale und nicht selten den Vorwurf der Absichtlichkeit aus.

Wenn trotz Sicherungsmaßnahmen Daten verloren gehen, provoziert das auch Misstrauen gegenüber denjenigen, in deren Verantwortungsbereich ein solcher Datenverlust möglich war. Als Ende 2004 das Zentrum für das Nachrichtenwesen der Bundeswehr, anscheinend wegen eines defekten Datensicherungsroboters, militärisch äußerst sensible Daten verlor, zog dies nicht nur einen IT-Skandal nach sich, sondern auch einen politischen (REPORT MAINZ, 2007). 

Wem nützt der erhobene Zeigefinger ...

Doch was haben diese Beispiele gemeinsam? Fehlerhafte Daten oder Zahlen verursachen fehlerhafte Entscheidungen. Diese verursachen wiederum oft Schäden in Millionenhöhe und ziehen meist auch personelle Konsequenzen auf Seiten der Verantwortlichen nach sich. Doch wo liegen eigentlich die Ursachen für nicht korrekte Daten: Allzu oft in fehlerhaften Berechnungen und Programmierungen, aber durchaus auch in gezielter Manipulation.

Die Qualität von Daten ist in Geschäftsprozessen eine unabdingbare Voraussetzung für Entscheidungen. Eine hohe Datenqualität ist folglich unverzichtbar.

Genau unter diesem Blickwinkel steht die nahe liegende Frage im Raum, wie solche Fälle überhaupt vorkommen können. Die vordergründig einfache Antwort ist: Ein Mensch denkt und agiert im Allgemeinen ökonomisch. Daten werden (zunächst) als zuverlässig angenommen, also genau so lange es keinen Anlass gibt, vom Gegenteil auszugehen. Selbst Hinweise auf das Gegenteil werden oft durch Selbstberuhigungsstrategien relativiert. Man stelle sich nur einmal vor, man wolle jede Angabe in einem Geschäftsbericht, einem Management Summary oder einem produktiven Data Warehouse (DWH) überprüfen - sicher alles andere als eine einfache Aufgabe. In einigen Fällen sollte man sich dieser dennoch stellen. Denn Daten müssen kontrolliert werden. Dabei spielen konkrete Kriterien zur Prüfung der Datenqualität eine wichtige Rolle.

... wenn er nicht in die richtige Richtung weist?

Man könnte sich auch die Frage stellen: Warum hört man nicht häufiger von Problemen mit der Datenqualität beispielsweise im öffentlichem Sektor, in Banken, im Gesundheitswesen und im militärischen Bereich? Ja, was wäre, wenn? Man würde das Vertrauen in die entsprechende Institution verlieren. Will man das? Ein Schaden wird unter Umständen größer, wenn man faktisch vorhandene Datenqualitätsprobleme öffentlich kommuniziert. Um etwa der Konkurrenz nicht in die Hände zu spielen, versucht man oft (zu lange), diese Probleme intern zu lösen, sofern sie überhaupt in ihrer Vollständigkeit erkannt sind, bevor sie an die Öffentlichkeit gelangen oder die Konkurrenz Wind davon bekommt.

Schauen wir uns doch einmal um. Nicht nur Unternehmen, Banken oder Aktionäre sind von schlechter Datenqualität betroffen, letztendlich jeder einzelne von uns. Tagtäglich. In den Nachrichten findet man diese Hinweise oft in anekdotenhafter Form. Zum Beispiel in fehlerhaft ausgestellten Parkgebühren in Millionenhöhe, falsch berechneten Steuerbescheiden durch das Finanzamt oder sogar in Form von Körperverletzung durch fehlerhafte Medikamentendosierung, unzuverlässige wissenschaftliche Publikationen oder falsche Angaben in Volkszählungen (vgl. Schendera, 2007 passim).

Wir leben in einer Informationsgesellschaft, in der die Mengen, Strukturen und Formate von Daten in Haltungen und Prozessen tagtäglich ansteigen. Man darf realistischerweise von einer mittlerweile exponentiellen Beschleunigung dieser Trends ausgehen. Unsere Informationsgesellschaft befindet sich folglich in einem ständigen Wettbewerb der Leistung, Effizienz und Optimierung nach innen und außen. Gleichermaßen werden die Anforderungen an die Architekturen von Datenhaltungen und -prozessen, Datenanalysevorgängen, wie auch die allem als essentiell zugrunde liegende Qualität von Daten im Sinne eines vorausschauenden Konzeptes mit ansteigen. Wenn man sich genauer umblickt, muss man bezweifeln, dass dies derzeit bereits der Fall ist. Für zahlreiche Beispiele zu den Folgen mangelnder Datenqualität gilt die unnötige Erkenntnis: „Hinterher ist man immer schlauer". Möchte man sich jedoch nach einer solchen „Weisheit" richten, wenn es um viel oder sogar sehr viel Geld geht?

Was man vorher wissen kann, sollte man auch wissen

Doch wo kann man etwas über Datenqualität erfahren? Zuallererst über Erfahrungen anderer mit der mehr oder weniger optimalen Qualität von Daten. Eines der herangezogenen Medien kann zum Beispiel die Data-Warehouse-Literatur sein. Und was sagt die Literatur zur Datenqualität? Als klassische Definition für Datenqualität gilt zum Beispiel nach Juran & Godfrey (1999, 2) „data to be of high quality if they are fit for their intended uses in operations, decision making and planning".

Soweit, so gut. Was fällt an dieser Definition auf? Sie macht es sich einfach und behauptet, dass Daten genau dann einsatzfähig sind sobald sie dafür „fit" sind. Diese Definition gibt allerdings nicht an, wann Daten einsatzbereit sind, welche Prozesse sie also durchlaufen müssen, welche Kriterien (zum Beispiel Genauigkeit, Einheitlichkeit und so weiter) sie erfüllen müssen und welche Toleranzen sie jeweils einhalten sollten. Schendera (2007, 7) definiert die Qualität von Daten deswegen entsprechend etwas komplexer, aber vielleicht realitätsnaher als ein mehrstelliges Relationsprädikat, das sich aus der Art und Anzahl der erforderlichen Kriterien („Kriterienkanon"), den Methoden ihrer Prüfung, den dabei eingesetzten Toleranzen/Grenzwerten der jeweiligen Kriterien, sowie den auch jeweils ausgeschlossenen Kriterien und so weiter ergibt. Als konkrete Prüfkriterien schlägt der Autor (etwa für die Arbeit mit SPSS) vor: Vollständigkeit, Einheitlichkeit, Doppelte, Missings, Ausreißer, zeit-/datumsbezogene Probleme sowie Plausibilität.

Datenchaos im Unternehmen als Fallstrick

Was man sich klar machen muss: Die Qualität von Daten ist eine komplexe Angelegenheit. Wenn Daten die (wirtschaftliche) Realität (eines Unternehmens) repräsentieren, dann definieren die semantischen und syntaktischen Strukturen des Unternehmens wiederum die Relationen und Definitionen der Daten. Eine Datenhaltung ist nichts anderes als ein Spiegelbild der realen Komplexität eines Unternehmens, seiner Daten, Prozesse und Kriterien. Daten sind komplex, weil ihr Kontext komplex ist.

Man kann hierzu natürlich völlig konsequent ergänzen, dass Daten eines Unternehmens auch deshalb chaotisch und konzeptlos sein können, weil die Unternehmensführung selbst in dieser Hinsicht noch konzeptlos ist. Gerade so genannte verteilte Spreadsheet-Databases merken schon aufgrund ihrer „Architektur" nicht einmal, dass ihre Daten nicht in Ordnung sind. Die Qualität von Daten zu gewährleisten ist komplex, weil dieser Vorgang der Komplexität des Unternehmens angemessen sein muss. Oft wird die Imaginationskraft an dieser Stelle stark beansprucht: Man kann es sich einfach nicht vorstellen, was an der Realisierung einer hohen Datenqualität so schwierig ist, und zwar in jeder Hinsicht (unternehmerisch, fachlich und in Bezug auf die IT; vgl. z.B. Schendera, 2007, passim).

Genau aus diesem Grunde riskieren viele DWH zu scheitern. Gleiches gilt für die Versuche, die Qualität der darin gehaltenen Daten zu retten. Das Schwierige an der Qualität von Daten sind die Prozesse und Strukturen, in die sie eingebettet sind und die sie wirklichkeitsnahe repräsentieren sollen.

Ins Angesicht der Wirklichkeit: Ein Blick nach vorne

Was nun ein gut funktionierendes Unternehmen grundsätzlich auszeichnen sollte ist nicht nur, dass es wirtschaftlich, sondern auch wettbewerbsfähig ist. Dies gilt auch für die Qualität der Daten. In zweierlei Hinsicht: Datenqualität muss gegeben sein. Denn Daten und Zahlen, als Folge oder Resultate aus Datenhaltungen und -prozessen, fließen wieder in die Realität des Unternehmens zurück und bilden dort die Grundlage für zukünftiges unternehmerisches Handeln.

Stimmen die Daten für das abgesicherte unternehmerische Handeln nicht mehr, wird der Grundlage für unternehmerische Entscheidungen der Boden unter den Füssen weggezogen. Dass die Folgen nicht rein „akademischer Natur" sind, veranschaulichten die eingangs vorgestellten Fallbeispiele. Datenqualität ist keine Glaubenssache, sondern eine überprüfbare Tatsache.

Was bringt Datenqualität (sofern gegeben) ganz nüchtern betrachtet? Mal all die Heilsversprechen, potentiellen Wettbewerbsvorteile und etwaigen Einsparungen ausgeklammert? Datenqualität sagt objektiv und nachprüfbar: Sie wissen, woran Sie sind. Das können gute, aber auch schlechte Nachrichten sein.

Zuallererst immer die schlechten Nachrichten: Sie erfahren, was falsch lief, inwieweit die Daten nicht korrekt waren, wann welche Fehler wie begangen wurden und welche Konsequenzen diese Fehler nach sich zogen. In Bezug auf die vorgestellten Fallbeispiele heißt das: Nur korrekte Daten schützen auch vor Betrugsversuchen. Wie soll sonst zwischen korrekten Daten und betrügerisch manipulierten Daten unterschieden werden können? Als Stichworte seien hier im Banking-Bereich die Fraud-Detection und Anti-Money-Laundering-Maßnahmen angeführt, im Government-Bereich zum Beispiel die Überprüfung von Daten auf Korruption und Sozialmissbrauch.

Datenqualität lichtet den Nebel

Es könnten allerdings auch gute Nachrichten sein: Sie erfahren, dass Daten und Entscheidungen in Ordnung waren.

Im Ergebnis schützt Datenqualität somit nicht nur vor Fehlverhalten, Fehlinvestitionen und Betrügerei. Datenqualität eröffnet auch Perspektiven. Präzise Daten versetzen beispielsweise in die Lage, über Standard-Reportings des gegenwärtigen Zustands hinaus anspruchsvolle Prognosen und Simulationen zukünftiger Prozesse in einem Unternehmen durchzuführen. Erst Qualitätsdaten ermöglichen, allerdings nur in einer fruchtbaren Kombination aus unternehmerischem und analytischem Sachverstand, Vorhersageszenarien zu entwerfen, die sehr genau sagen können, wie, wann und warum Manager entscheiden können. Datenqualität unterstützt auch proaktiv unternehmerisches Handeln und gewinnbringende Investitionen. Im Gesundheitsbereich ermöglichen erst Qualitätsdaten eine entsprechend zuverlässige Steuerung von Kassen und Kliniken, einen optimalen Abgleich zwischen Leistungserbringern und Leistungsabrechnern, bis hin zur optimalen Versorgung eines Patienten bereits im Moment der Aufnahme.

Gute Aussichten

Der unternehmerischen Phantasie sind hier keine Grenzen gesetzt. Man sollte allerdings vielleicht auch wissen, was aus Daten alles herauszuholen sein könnte, um erst wirklich erkennen zu können, welcher Schatz sich in ihnen verbirgt. Es ist nicht die Zuverlässigkeit. Sondern, allen Kosten-Nutzen-Kalkulationen, Indizes und Faktoren zum Trotz: es ist ihre Wirklichkeitsnähe. Nur wenn sich die Wirklichkeit eines Unternehmens in seinen Daten reflektiert, sind diese Daten in der Lage, diesem Unternehmen Auskünfte über Vergangenheit, Gegenwart und Zukunft, seinen unternehmerischen Werdegang zu liefern. Man kann sich mit einem Stochern im Nebel zufrieden geben - unter Inkaufnahme, dass man auch vor einem Abgrund stehen könnte. Oder eine klare Aussicht genießen.

 

 

Autor

Christian FG Schendera arbeitet im Team Business Intelligence bei CSC Switzerland und ist Experte im Bereich Datenqualität und Datenanalyse. CSC zählt zu den weltweit führenden Dienstleistungsunternehmen im Bereich der Informationstechnologie (IT).

 

 

Literatur

DPA (27.02.2008 13:19:31). WestLB-Prüfer stießen bei Boxclever auf schweren Rechenfehler

DPA (02.07.2007 09:56:20). Börsenverluste von BayernLB resultieren aus Rechenfehler - Vorstand entlassen.

Juran, Joseph M. & Godfrey, A. Blanton (1999), 5. Edition Juran's Quality Handbook. New York: McGraw-Hill.

REPORT MAINZ (2007). Die verschwundenen Geheimdienstakten. Sendung vom 25.06.2007 (21.45 Uhr). Moderation: Fritz Frey.

Schendera, CFG (2007). Datenqualität mit SPSS. München Wien: R.Oldenbourg Verlag.

.
.