Geschrieben von Marco Geuer. Veröffentlicht in Blog - Datenqualität & Data Governance.

Datenqualität messen: Mit 11 Kriterien Datenqualität quantifizieren

Einleitung

Für eine optimale Bewertung und Messung der Datenqualität sowie der Ableitung gezielter Verbesserungsmaßnahmen, müssen im Vorfeld entsprechende Datenqualitätskriterien definiert werden.

Datenqualitätskriterien (Data Quality Dimensions)

Erfahrunggemäß kommen die nachfolgend aufgeführten 11 Datenqualitätskriterien zur Anwendung. In den seltensten Fällen werden hierbei alle gleichzeitig angewendet. Vielmehr wird eine Auswahl aus den 11 Kriterien entsprechend der Sinnhaftigkeit und dem Zweck getroffen. Besonders bei der erstmaligen Definition von Datenqualitätskriterien empfehle ich die 2 - 3 offensichtlichsten anzuwenden. Erfahrungsgemäß bestehen diese meist aus den ersten 6 der Auflistung. Im Laufe der Zeit können in einem iterativen Prozess und entsprechend gesteigerter Lernkurve weitere Kriterien hinzugenommen werden.

Vollständigkeit
Eindeutigkeit
Korrektheit
Aktualität
Genauigkeit
Konsistenz
Redundanzfreiheit
Relevanz
Einheitlichkeit
Zuverlässigkeit
Verständlichkeit

Elf Datenqualitätskriterien

Praxisbeispiel Anwendung der Datenqualitätskriterien

Das nachfolgende Schaubild zeigt beispielhaft, wie die Kriterien in der Praxis zur Anwendung kommen können.

Detailberschreibungen Datenqualitätskriterien

Eine detaillierte Beschreibung jedes einzelnen Datenqualitätskriterums können Sie hier nachlesen.

1. Vollständigkeit

Titel	Vollständigkeit (Completeness)
Definition	Ein Datensatz muss alle notwendigen Attribute enthalten. Attribute müssen alle notwendigen Daten enthalten.
Referenz	Geschäftsregeln definieren die Kriterien für 100% Vollständigkeit.
Kennzahl	Erreichungsgrad Vollständigkeit = 0 - 100%
Messeinheit	Prozent
Beispiel	Vollständigkeit Attribut Das Attribut "Kundennummer" identifiziert einen Kunden und muss immer gefüllt sein. Vollständigkeit Datensatz Ein vollständiger "Kundenadressdatensatz" besteht aus folgenden Attributen. Kundennummer Vorname Nachname Straße Hausnummer PLZ Ort Fehlt eines oder mehrere Attribute, ist der Datensatz nicht vollständig.
Beispiel Berechnung	100.000 Kundendatensätze liegen vor. Davon sind im Attribut "Kundennummer" 2.000 Feldeinträge leer. 100.000 - 2.000 = 98.000 98.000 / 100.000 x 100 = 98% Vollständigkeit

2. Eindeutigkeit

Titel	Eindeutigkeit (Uniqueness)
Definition	Jeder Datensatz muss eindeutig interpretierbar sein.
Referenz	Datenelement, das gegen sich selbst oder sein Gegenstück in einem anderen Datensatz oder einer Datenbank gemessen wurde.
Kennzahl	Erreichungsgrad Eindeutigkeit = 0 - 100%
Messeinheit	Prozent
Beispiel	Zwei Datensätze (z.B. Kundenadressdatensatz) mit unterschiedlicher ID (Kundennummer) unterscheiden sich in allen weiteren Attributen z.B. nur in einem weiteren Merkmal (Geburtsdatum) ID1 -> Gebdat = 21.05.1991 ID2 -> Gebdat = 23.06.1991 Alle weiteren Attribute wie z.B. Name, Vorname, Straße, Hausnummer, PLZ, Ort, sind identisch. Es besteht berechtigter Zweifel, ob es sich hier tatsächlich um zwei unterschiedliche Kunden handelt. Zusätzlich entsteht der Zweifel, ob eines oder sogar keines der Geburtsdaten richtig ist. Somit sind beide Datensätze nicht mehr eindeutig interpretierbar.
Beispiel Berechnung	Statt 1.000 Kunden ergibt die Dublettenanalyse 960 Kunden. 960 / 1000 x 100 = 96% Eindeutigkeit

3. Korrektheit

Titel	Korrektheit (Correctness)
Definition	Die Daten müssen mit der Realität übereinstimmen
Referenz	Mapping gegen Daten, deren Korrektheit bestätigt ist oder eine definierte, abgestimmte Plausibilitätsregel.
Kennzahl	Erreichungsgrad Korrektheit: 0 - 100%
Messeinheit	Prozent
Beispiel	Das Geburtsdatum natürlicher Personen (Endkunden) ist häufig mit dem Wert 01.01.1900 belegt. Im Jahr 2017 kann man davon ausgehen, das die wenigsten Personen > 105 Jahre sind. Es ist zu prüfen, bei wie vielen Kunden das Geburtsdatum 01.01.1900 vorkommt.
Beispiel Berechnung	100.000 Kundendatensätze liegen vor. Davon sind im Attribut "GebDat" 5.000 Kunden mit dem Datum 01.01.1900 belegt. 100.000 - 5.000 = 95.000 95.000 / 100.000 x 100 = 95 % Korrektheit

4. Aktualität

Titel	Aktualität (Timeliness)
Definition	Alle Datensätze müssen jeweils dem aktuellen Zustand der abgebildeten Realität entsprechen.
Referenz	Geschäftsregeln definieren den Zeitpunkt oder Zeitraum in dessen die reale Aktualität zu 100% repräsentiert wird.
Kennzahl	Erreichnungsgrad Aktualität = 0 - 100%
Messeinheit	Prozent
Beispiel	Es wird eine Interessentendatenbank mit 100.000 Interessenten permanent vorgehalten. Da Interessenten im Laufe der Zeit umziehen oder versterben verlieren auch die gespeicherten Daten zunehmend an Aktualität. Durch verschiedene Maßnahmen (z.B. telefonisches Nachfragen, Abgleich Daten Einwohnermeldeamt, usw.) soll überprüft werden, welche Interessentendaten noch aktuell sind.
Beispiel Berechnung	Von 100.000 Interessentendaten sind 15.000 Daten nicht mehr aktuell. 100.000 - 15.000 = 85.000 85.000 / 100.000 x 100 = 85% Aktualität

5. Genauigkeit

Titel	Genauigkeit (Accuracy)
Definition	Die Daten müssen in der jeweils geforderten Exaktheit vorliegen.
Referenz	Geschäftsregeln definieren die Kriterien für 100% Genauigkeit.
Kennzahl	Erfüllungsgrad Genauigkeit: 0 - 100%
Messeinheit	Prozent
Beispiel	Es ist vereinbart, dass Zahlenwerte immer mit zwei Stellen hinter dem Komma (####,00)angegeben werden müssen. Ein Datum ist immer in dem Format (tt.mm.jjjj) anzugeben. In Rahmen einer Auswertung wird festgestellt, das Zahlen (z.B. 1.000; 500,1) wie auch Datumswerte (z.B. 12.30.2017; 22/06/2017) von der definierten Regel abweichen. Es soll geprüft werden, wie häufig eine Regelverletzung vorliegt.
Beispiel Berechnung	Prüfung: Von 100.000 Datensätze des Attributs "Preis" = 3.000 Regelverletzungen und des Attributs "Bestelldatum" 1.000 Regelverletzungen. 100.000 - 3.000 = 97.000 97.000 / 100.000 x 100 = 97% Genauigkeit "Preis" 100.000 - 1.000 = 99.000 99.000 / 100.000 x 100 = 99% Genauigkeit "Bestelldatum"

6. Konsistenz

Titel	Konsistenz (Consistency)
Definition	Ein Datensatz darf in sich und zu anderen Datensätzen keine Widersprüche aufweisen.
Referenz	Geschäftsregeln definieren die Kriterien für 100% Konsistenz.
Kennzahl	Erfüllungsgrad Konsistenz = 0 - 100%
Messeinheit	Prozent
Beispiel	Mehrere Attribute (Kundennummer, Vorname, Nachname, Straße, Hausnummer, PLZ, Ort) definieren einen Kundendatensatz. Für die korrekte Abwicklung von Geschäftsvorfällen müssen die Kundendatensätze 100% konsistent sein. Für die einzelnen Attribute eines Kundendatensatzes wurden Datenqualitätskriterien (z.B. Vollständigkeit und Eindeutigkeit) definiert und gemessen.
Beispiel Berechnung	Bei 100.000 Datensätzen wurden 21.000 Datensätzen identifiziert, bei denen mind. 1 Attribut von den Attributen, die einen Datensatz definieren, die Datenqualitätskriterien verletzt. 100.000 - 21.000 = 79.000 79.000 / 100.000 x 100 = 79% Konsistenz "Kundendatensätze"

7. Redundanzfreiheit

Titel	Redundanzfreiheit (Nonredundant)
Definition	Innerhalb der Datensätze dürfen keine Dubletten vorkommen.
Referenz	Datenelement, das gegen sich selbst oder sein Gegenstück in einem anderen Datensatz oder einer Datenbank verglichen wurde.
Kennzahl	Erfüllungsgrad Redundanzfreiheit = 0 - 100%
Messeinheit	Prozent
Beispiel	Aus verschiedenen Datenquellen wurden redundant vorgehaltene Kundendaten zusammengeführt. Bei Auswertungen wurde festgestellt, dass die Vereinheitlichung nicht vollständig funktioniert hat. Jede Kundennummer darf nur einmal vorkommen.
Beispiel Berechnung	Die Dublettenprüfung ergibt, dass von 100.000 Kundennummern 8.000 doppelt vorliegen. 100.000 - 8.000 = 92.000 92.000 / 100.000 x 100 = 92% Redundanzfreiheit

8. Relevanz

Titel	Relevanz (Relevancy)
Definition	Der Informationsgehalt von Datensätzen muss den jeweiligen Informationsbedarf erfüllen.
Referenz	Geschäftsregeln definieren die Kriterien für 100% Relevanz.
Kennzahl	Erfüllungsgrad Relevanz = 0 - 100%
Messeinheit	Prozent
Beispiel	Für die Erstellung von Quartalsberichten sind nur die Rechnungen relevant, deren Rechnungsdatum innerhalb des Quartals liegen. Beim Vergleich von unterschiedlichen Reports des selben Quartals fällt auf, das Kennzahlen immer wieder differieren. Zurückzuführen ist dies auf den Umstand, dass immer wieder Rechnung einfließen, welche für das jeweils definierte Quartal nicht relevant sind.
Beispiel Berechnung	Für Q1 sind 100.000 Rechnungen einbezogen worden. Eine Prüfung ergibt, das 3.500 Rechnungen nicht berücksichtigt werden dürfen. 100.000 - 3.500 = 96.500 96.500 / 100.000 x 100 = 96,5% Relevanz

9. Einheitlichkeit

Titel	Einheitlichkeit (Uniformity)
Definition	Die Informationen eines Datensatzes müssen einheitlich strukturiert sein. Das heißt, eine Menge von Daten wird fortlaufend einheitlich präsentiert.
Referenz	Geschäftsregeln definieren die Kriterien für 100% Einheitlichkeit.
Kennzahl	Erfüllungsgrad Einheitlichkeit = 0 - 100%
Messeinheit	Prozent
Beispiel	Kundenadressen sind entsprechend der Rechtschreibregeln zu erfassen. Es wird z.B. festgestellt, dass Ortsnamen in verschiedenen Schreibweisen erfasst wurden. (z.B. Köln, Koeln, KÖLN, KOELN)
Beispiel Berechnung	Von 100.000 Ortsnamen weichen 25.000 Ortsnamen von der vereinbarten Schreibregel ab. 100.000 - 25.000 = 75.000 75.000 / 100.000 x 100 = 75% Einheitlichkeit "Ortsnamen"

10. Zuverlässigkeit

Titel	Zuverlässigkeit (Reliability)
Definition	Die Entstehung der Daten muss nachvollziehbar sein.
Referenz	Geschäftsregeln definieren die Kriterien für 100% Zuverlässigkeit.
Kennzahl	Erfüllungsgrad der Zuverlässigkeit = 0 - 100%
Messeinheit	Prozent
Beispiel	Es ist vereinbart täglich bis 07:00 Uhr eine bestimmte Menge an Daten vom CRM-System an das Abrechnungssystem zu liefern. Im Laufe der Zeit wird festgestellt, das entweder die Datenlieferung zu spät erfolgt oder nur einen Teil der vereinbarten Daten geliefert wurde. Im Zuge von Bigdata werden immer mehr Daten gesammelt und ausgewertet. Dabei gibt es Daten aus verlässlichen Quellen, d.h. die Entstehung der Daten und deren Qualität ist bekannt. Andererseits gibt es Daten z.B. aus öffentlichen Quellen, bei denen nicht bekannt ist, wie diese entstehen. Genau bei diesen werden auch immer wieder Schwankungen in der Datenqualität festgestellt.
Beispiel Berechnung	zu 1.) Von 100 Lieferterminen wurden 5 Liefertermine nicht eingehalten. 100 - 5 = 95 95 / 100 x 100 = 95% Zuverlässigkeit (Liefertermin) zu 2.) Von 100 Attributen kommen 20 Attribute aus unzuverlässigen Quellen. 100 - 20 = 80 80 / 100 x 100 = 80% Zuverlässigkeit.

11. Verständlichkeit

Titel	Verständlichkeit (Understandability)
Definition	Die Datensätze müssen in ihrer Begrifflichkeit und Struktur mit den Vorstellungen der Informationsempfänger (z.B. Fachbereiche) übereinstimmen.
Referenz	Geschäftsregeln definieren die Kriterien für 100% Verständlichkeit.
Kennzahl	Erfüllungsgrad Verständlichkeit = 0 - 100%
Messeinheit	Prozent
Beispiel	Für die Datenlieferung eines Reports wurde vereinbart, dass die Attributnamen mit verständlichen Begriffen geliefert werden (z.B. cnvn45 = Name). Darüber hinaus sollen Attribute mit codierten Klassifizierungs-Feldeinträgen in Begriffe transferiert werden (z.B. 1 = Herr, 2 = Frau, 3 = Firma).
Beispiel Berechnung	Bei 100 Attributen wurden 5 Attribute mit kryptischen Namen geliefert und bei 2 Attributen wurde die codierte Klassifizierung nicht transformiert. 100 - 7 = 93 93 / 100 x 100 = 93% Verständlichkeit

Lesen Sie auch:

Data Strategy Lifecycle wirkungsvoll im Unternehmen einführen

Data Catalogue – Beschleuniger der Datenkompetenz (Data Literacy)

Data Governance, der Schlüssel zu einer erfolgreichen datenintelligenten Organisationskultur

Data Strategy: Welche Erfolgsfaktoren sind relevant für nachhaltige Wettbewerbsvorteile durch KI-basierte Datenanalysen und Digitalisierung?

Data Governance: Vom Model Driven Design (MDD) zum Data Catalog

Data Governance: Vom Data Profiling zur ganzheitlichen Leistungsbewertung von Daten

Prozessorientierter Data Quality Index erfolgreich einführen

Wie Sie schnell bewerten können, ob Sie ein Problem mit der Datenqualität haben

Logikbäume: Mehr Transparenz zur Wirkung schlechter Datenqualität auf Unternehmensziele

Datenqualitätssicherung, Datenqualität messen, Datenqualität verbessern, Datenqualitätskriterien, Data Quality Dimensions

Geändert am 04. Juni 2021.
Aufrufe: 114996

The Data Economist Blog (DE) | Etablierung einer Data Inspired & Digital Culture