Geschrieben von Ingo Lenzen. Veröffentlicht in Blog - Datenqualität & Data Governance.

Business Intelligence und Datenqualität

Gastbeitrag von Ingo Lenzen, Leiter InfoZoom Academy

Insbesondere große Unternehmen setzen für ihre unternehmerischen Entscheidungen auf die Anfang bis Mitte der 1990er-Jahre populär gewordene Business Intelligence (BI). Ins Deutsche übersetzt, kann man von „Geschäftsanalytik“ reden.

Business Intelligence bezeichnet Verfahren und Prozesse zur systematischen Analyse (Sammlung, Auswertung und Darstellung) von Daten in elektronischer Form. Ziel ist es, Erkenntnisse zu gewinnen, die mit Blick auf die Unternehmensziele bessere operative oder strategische Entscheidungen ermöglichen. Dies geschieht mit Hilfe analytischer Konzepte und IT-Systeme, die Daten über das eigene Unternehmen, die Mitbewerber oder Marktentwicklung im Hinblick auf den gewünschten Erkenntnisgewinn auswerten. Mit den gewonnenen Erkenntnissen können Unternehmen ihre Geschäftsabläufe, Kunden- und Lieferantenbeziehungen profitabler machen, Kosten senken, Risiken minimieren und die Wertschöpfung vergrößern.⁽¹⁾

Projekte der BI basieren auf Unternehmensdaten, die es in der heutigen Zeit zu Genüge gibt. Wir können von einer regelrechten Datenflut reden, die täglich neue Dimensionen erreicht und damit stetig unübersichtlicher wird.

Doch wie erkennt man, dass diese Datenflut die richtige und korrekte Basis für Auswertungen und Analysen ist? Wie sieht es mit Dubletten, Füllungsgraden, Fehleingaben oder unvollständigen Daten aus? Allgemein spricht man hier von dem Grad der Datenqualität.

Datenqualität (DQ) bezeichnet ein Qualitätsmaß, welches Aufschluss über die Relevanz und Korrektheit von Datensätzen gibt. Eine Kennzahl wird geschaffen, die Klarheit über die Verlässlichkeit von Daten widerspiegelt.

Heute wird unternehmensweite Datenqualität als Produktionsfaktor und Teil des Unternehmenswerts betrachtet, welcher somit aktiv bewirtschaftet werden kann und muss.

Unternehmen sprechen bei der Integration von DQ-Prozessen von Datenqualitätsmanagement (DQM) oder auch Total Quality Management (TQM).

Dabei gibt es drei Level:

Fehler erkennen,
Fehler beheben und
Fehler vermeiden.

Im ersten Level bleibt die Fehlerquote hoch. Lediglich die Schwachstellen werden aufgespürt. Ein messbarer Nutzen wird nicht erzielt.

Im zweiten Level sinkt die Fehlerquote anfangs. Nach einiger Zeit ist die Quote gewissen Schwankungen ausgesetzt. Durch eine permanente Bindung von Ressourcen wird das Tagesgeschäft eingeschränkt und Aufwand und Nutzen bleiben in der Waage.

Im dritten Level sinkt die Fehlerquote nachhaltig auf ein niedriges Niveau. Der Nutzen steigt bei gleichzeitiger Aufwandreduzierung.

Wie sehen solche Fehlerszenarien aus?

Hier muss sicherlich zu Anfang die Frage gestellt werden: Woher stammen diese Daten und wie alt sind sie? Je nach Beantwortung der Frage müssen die richtigen Ansätze gefunden und Prozesse und Schwachstellen analysieren werden. Dem ursprünglichen Problem – so es denn eines gibt – können wir so auf die Spur kommen.

Nehmen wir beispielsweise an, Sie haben eine Hotline, welche die Daten eines Kunden bei einem Anruf aufnimmt. Die Agenten der Hotline geben die Angaben des Kunden frei in eine Eingabemaske ein und speichern die Eingaben ab. Am Ende eines Monats möchten Sie wissen, welcher Kunde wie oft und warum angerufen hat. Nach welchem Kundenmerkmal selektieren Sie nun? Nach Kundennummer oder nach Kundenname?

Sie glauben nicht, auf welche Ideen Menschen kommen, wenn sie Daten in eine Datenmaske eingeben. Insbesondere dann, wenn es sich um Namen oder Bezeichnungen handelt: Wie schreibe ich „Meyer“? Vielleicht „Meyer“, „Meier“, „Maier“ oder gar „Mayer“? Eine Sensibilität für eine genauere Nachfrage ist größtenteils nicht vorhanden. Haben Sie zusätzlich keinen Vornamen erfragt, sondern nur eine Anrede („Herr“, „Hr.“ oder „HERR“), so wird es schwierig, die angenommene Person im Nachhinein zu identifizieren.

In der zweiten Stufe suchen wir die Person über die Adresse: Aber wohnt sie in der „Hauptstrasse“, der „Hauptstraße“ oder vielleicht auch in der „Haupt-Strasse“? Oder doch in der „Hauptstraße“?

Selbst bei den Städtenamen werden wir kreativ. So findet sich in Datenbasen die Stadt „Stuttgart“ (Deutschland, Baden-Württemberg) in 90 (!) verschiedenen Schreibweisen. Darunter schöne Beispiele wie „Stuttgard“, „Stuthgart“ oder „Stuggart“. Ergänzend gibt es Stadtteilzusätze wie „Stuttgart-Feuerbach“ oder Abkürzungen wie „Stuttg.-Möhringen“.

Ganz wichtig bei der Analyse der vorhandenen Datenbasis ist, dass wirklich alle Daten in Betracht gezogen werden. Nicht nur die Anschrift ist ein wichtiges Kriterium, sondern auch die Anrede muss gepflegt sein. Werden solche „Kleinigkeiten“ vergessen, kann es schnell passieren, dass Eheleute mit „Sehr gegehrte Damen und Herren“ oder ausländische Kunden mit „Dir Sör“ (Dear Sir) angeschrieben werden. Eine äußerst peinliche Angelegenheit bei Geschäftsbeziehungen.

Die Hauptschuld für schlechte Datenqualität ist oft nicht bei den eingebenden Agenten zu finden. Mangelnde Einweisung, unzureichende Qualifizierung und eine ungenügende Bildung sind die Hauptgründe für schlechte Datenqualität.

Diese Beispiele zeigen, dass die Aussagen von BI-System mit Vorsicht zu betrachten sind, falls keine Datenqualitätsprüfungen und -Bereinigungen im Vorfeld der Einführung stattgefunden haben.

Insbesondere dann, wenn fertige (Excel-)Reporte erstellt werden, durch die kein Rückschluss auf die Original-Daten möglich ist. Kumulierte Ergebnisse lassen keinen Blick hinter die Kulissen zu. Zudem zeigt eine Studie von Raymond R. Panko von der University of Hawai’i (2008), dass 88% aller Excel-Reporte einen Fehler enthalten.⁽²⁾

Ganz einfach können wir das nachvollziehen, wenn wir eine Kundenstatistik über den Umsatz aller Artikel erstellen und nur ein einziger Datensatz beim Kunden eine Lücke aufweist. Welchem Kunden soll der Umsatz zugerechnet werden?

So lange es interne Statistiken sind, bleibt der Schaden im Hause. „Nicht so schlimm“, meinen die Ersteller des Reports. Doch die Verantwortlichen vertrauen diesen Reporten und müssen unternehmerische Entscheidungen auf dieser Datenbasis treffen. Damit hängen die Zukunft des Unternehmens und die damit verbundenen Arbeitsplätze von schlechten und fehlerhaften Daten ab.

Ganz anders ist die Außenwirkung von Datenfehlern zu betrachten. Welchen Imageverlust hat es für ein Unternehmen, wenn Kunden aufgrund fehlerhafter Adressen Post nicht erhalten oder schlimmer noch, doppelt und dreifach gleiche Anschreiben in ihrem Briefkasten finden.

Fazit: Um Datenqualität nachhaltig zu sichern, müssen kritische Datenfluss-Prozesse innerhalb des Unternehmens abgesichert werden. Dazu stehen heute spezielle Technologien verschiedenen Unternehmen zur Verfügung. Die Maßnahmen und Notwendigkeit für Datenqualität beschränken sich nicht auf bestimmte Datenbereiche, sondern erstrecken sich von vollständigen Kundendaten über Bewegungsdaten bis hin zu den Produkt- und Materialstammdaten.

Nur so können revisionssichere Reports und Kennzahlen mit Business Intelligence-System erzeugt werden, die auf vorhandenen Daten zugreifen und Informationen hieraus gewinnen.

⁽¹⁾ Wikipedia.org

⁽²⁾ „What We Know About Spreadsheet Errors”, Raymond R. Panko, University of Hawai’i, 2008

Datenqualität, Business Intelligence, Geschäftsanalytik

Geändert am 30. Januar 2015.
Aufrufe: 10513

The Data Economist Blog (DE) | Etablierung einer Data Inspired & Digital Culture

Business Intelligence und Datenqualität

Gastbeitrag von Ingo Lenzen, Leiter InfoZoom Academy

Marco Geuer