Datenqualitätskriterien

Folgende 11 Datenqualitätskritieren können angewendet werden. Selten werden alle gleichzeit angewendet. Vielmehr wird eine Auswahl anhand Sinnhaftigkeit und Zweck genommen. Bei erstmaliger Definition der Datenqualitätkriteren empfehlen wir die 2-3 offensichtlichsten anzuwenden. Meistens bestehen diese aus den ersten 6 Kriterien der Auflistung.

Diese Kriterien können bei allen Daten angewendet werden.

Datenqualitätskriterien (Data Quality Dimensions)

  1. Vollständigkeit

  2. Eindeutigkeit

  3. Korrektheit

  4. Aktualität

  5. Genauigkeit

  6. Konsistenz

  7. Redundanzfreiheit

  8. Relevanz

  9. Einheitlichkeit

  10. Zuverlässigkeit

  11. Verständlichkeit

1. Vollständigkeit

Titel

Vollständigkeit (Completeness)

Titel

Vollständigkeit (Completeness)

Definition

Ein Objekt muss alle erfoderlichen Attribute im jeweiligen Ausgabekanal enthalten. (Pflicht-Attribute)

Referenz

Im Contentdesk.io wird die Vollständigkeit (100%) automatisch anhand der definierten Pflicht-Attribute einer Produktfamilie berechnet. (siehe Dashboard)

Kennzahl

Erreichungsgrad Vollständigkeit = 0 - 100%

Messeinheit

Prozent

Beispiel

Vollständigkeit eines Objektes der Produktfamilie “Ort & Sehenwürdigkeit”

  1. SKU

  2. Name

  3. Hauptbild

  4. Breitengrad

  5. Längengrad

Beispiel Berechnung

1000 Objekte sind im System. Davon sind 227 nicht Vollständig.

1000 - 227 = 773
773/1000 x 100 = 77% Vollsändigkeit

2. Eindeutigkeit

Titel

Eindeutigkeit (Uniqueness)

Definition

Jedes Objekt muss eindeutig interpretierbar sein.

Referenz

Objekte, das gegen sich selbst oder sein Gegenstück in einem anderen Objekt gemessen wurde.

Kennzahl

Erreichungsgrad Eindeutigkeit = 0 - 100%

Messeinheit

Prozent

Beispiel

Zwei Objekte (z.B. “Ort & Sehenwürdigkeit”) mit unterschiedlicher SKU unterscheiden sich in allen weiteren Attributen z.B. nur in einem weiteren Merkmal/Attribut (Telefon).

SKU 1 -> Telefon = +41 71 274 99 17
SKU 2 -> Telefon = +41 71 274 99 19

Alle weiteren Attribute wie z.B. Name, Vorname, Strasse, PLZ, Ort, sind identisch.

Es besteht berechtigter Zweifel, ob es sich hier tatsächlich um zwei unterschiedliche Objekte handelt. Zusätzlich entsteht der Zweifel, ob eines oder sogar keine der Telefonnummer richtig ist. Somit sind beide Objekte nicht mehr eindeutig interpretierbar.

Beispiel Berechnung

Statt 1000 Objekte ergibt die Doublettenanalyse 960 Objekte.

960 / 1000 x 100 = 96% Eindeutigkeit

3. Korrektheit

Titel

Korrektheit (Correctness)

Definition

Die Objekte müssen mit der Realität übereinstimmen

Referenz

Mapping gegen Objekte, deren Korrektheit bestätigt ist oder eine definierte, abgestimmte Plausibilitätsregel.

Kennzahl

Erreichungsgrad Korrektheit: 0 - 100%

Messeinheit

Prozent

Beispiel

Das Enddatum einer Veranstaltung ist bereits Vergangenheit. Es ist zu prüfen, wie vielen Veranstaltungen bereits nicht mehr aktuell sind. (Wird im Contentdesk.io täglich automatisch geprüft.)

Anderes Beispiel ist wenn die Koordinaten (Längen- / Breitengrad) ausserhalb von der Schweiz oder Europa liegen.

Beispiel Berechnung

1000 Objekte liegen vor. Davon sind im Attribut "End-Datum" 50 Objekte mit dem Datum 01.01.2020 hinterlegt.

1000 - 50 = 950
9500 / 1000 x 100 = 95 % Korrektheit

4. Aktualität

Titel

Aktualität (Timeliness)

Definition

Alle Datensätze müssen jeweils dem aktuellen Zustand der abgebildeten Realität entsprechen.

Referenz

Geschäftsregeln definieren den Zeitpunkt oder Zeitraum in dessen die reale Aktualität zu 100% repräsentiert wird.

Kennzahl

Erreichnungsgrad Aktualität = 0 - 100%

Messeinheit

Prozent

Beispiel

Es sind 1000 Objekte von “Ort & Sehenwürdigkeiten” hinterlegt. Im Laufe der Zeit ziehen Unternehmen um oder werden geschlossen. Dadurch verlieren auch die gespeicherten Objekte zunehmen an Aktualität. Durch verschiedene Massnahmen (z.B. OnBoarding-Formular, telefonsiches Nachfragen, Abgleich der Daten mit Behörden, usw.) soll überprüft werden, welche Objekte noch aktuell sind.

Beispiel Berechnung

Von 1000 Objekte sind 150 Objekte nicht mehr aktuell.

1000 - 150 = 8500
850 / 1000 x 100 = 85% Aktualität

5. Genauigkeit

Titel

Genauigkeit (Accuracy)

Definition

Die Objekte müssen in der jeweils geforderten Exaktheit vorliegen.

Referenz

Geschäftsregeln definieren die Kriterien für 100% Genauigkeit.

Kennzahl

Erfüllungsgrad Genauigkeit: 0 - 100%

Messeinheit

Prozent

Beispiel

Es ist vereinbart, dass Zahlenwerte immer mit zwei Stellen hinter dem Komma (####,00)angegeben werden müssen. Ein Datum ist immer in dem Format (tt.mm.jjjj) anzugeben.

In Rahmen einer Auswertung wird festgestellt, das Zahlen (z.B. 1000; 500,1) wie auch Datumswerte (z.B. 12.30.2017; 22/06/2017) von der definierten Regel abweichen.

Es soll geprüft werden, wie häufig eine Regelverletzung vorliegt. 

Hinweis

Im Contentdesk.io werden folgende Attribute automtisch auf Genauigkeit geprüft:

  • Telefon

  • E-Mail

  • Webseite = URL

Beispiel Berechnung

Prüfung: Von 1000 Objekten mit dem Attributs "Preis" = 30 Regelverletzungen und des Attributs "Bestelldatum" 10 Regelverletzungen.

1000 - 30 = 970
970 / 1000 x 100 = 97% Genauigkeit "Preis"

1000 - 10= 990
990 / 1000 x 100 = 99% Genauigkeit "Bestelldatum"

6. Konsistenz

Titel

Konsistenz (Consistency)

Definition

Ein Objekte darf in sich und zu anderen Datensätzen keine Widersprüche aufweisen.

Referenz

Geschäftsregeln definieren die Kriterien für 100% Konsistenz.

Kennzahl

Erfüllungsgrad Konsistenz = 0 - 100%

Messeinheit

Prozent

Beispiel

Mehrere Attribute (Name, Hauptbild, Längen- und Breitengrad, Strasse, PLZ und Ort) definieren ein Objekt von “Ort & Sehenwürdigkeiten”. Für die korrekte Nutzung müssen alle Objekte 100% konsistent sein. Für die einzelne Attribut eines Objekts wurden die Datenqualitätskritieren (z.B. Vollständigkeit und Eindeutigkeit) definiert und gemssen.

Beispiel Berechnung

Bei 1000 Objekte wurden 210 Objekte identifiziert, bei denen mind. 1 Attribut von den Attributen, die ein Objekt definieren, die Datenqualitätskriterien verletzt.

1000 - 210 = 790
790 / 1000 x 100 = 79% Konsistenz "Objekte"

7. Redundanzfreiheit

Titel

Redundanzfreiheit (Nonredundant)

Definition

Innerhalb der Datensätze dürfen keine Dubletten vorkommen.

Referenz

Objekte, das gegen sich selbst oder sein Gegenstück in einem anderen Objekten verglichen wurde.

Kennzahl

Erfüllungsgrad Redundanzfreiheit = 0 - 100%

Messeinheit

Prozent

Beispiel

Aus verschiedenen Datenquellen wurden redundante Objekte zusammengeführt. Bei Auswertungen wurde festgestellt, dass die Vereinheitlichung nicht vollständig funktioniert hat. Jedes Objekte darf nur einmal vorkommen.

Beispiel Berechnung

Die Dublettenprüfung ergibt, dass von 1000 Objekte 80 doppelt vorliegen.

1000 - 80 = 920
920 / 1000 x 100 = 92% Redundanzfreiheit

8. Relevanz

Titel

Relevanz (Relevancy)

Definition

Der Informationsgehalt von Objekten muss den jeweiligen Informationsbedarf erfüllen.

Referenz

Geschäftsregeln definieren die Kriterien für 100% Relevanz.

Kennzahl

Erfüllungsgrad Relevanz = 0 - 100% 

Messeinheit

Prozent

Beispiel

Für die Erstellung von Quartalsberichten sind nur die Rechnungen relevant, deren Rechnungsdatum innerhalb des Quartals liegen. Beim Vergleich von unterschiedlichen Reports des selben Quartals fällt auf, das Kennzahlen immer wieder differieren. Zurückzuführen ist dies auf den Umstand, dass immer wieder Rechnung einfließen, welche für das jeweils definierte Quartal nicht relevant sind.

Beispiel Berechnung

Für Q1 sind 1000 Rechnungen einbezogen worden. Eine Prüfung ergibt, das 35 Rechnungen nicht berücksichtigt werden dürfen.

1000 - 35 = 965
965 / 1000 x 100 = 96,5% Relevanz

9. Einheitlichkeit

Titel

Einheitlichkeit (Uniformity)

Definition

Die Informationen eines Objekts müssen einheitlich strukturiert sein. Das heißt, eine Menge von Daten wird fortlaufend einheitlich präsentiert.

Referenz

Geschäftsregeln definieren die Kriterien für 100% Einheitlichkeit.

Kennzahl

Erfüllungsgrad Einheitlichkeit = 0 - 100%

Messeinheit

Prozent

Beispiel

Adressen sind entsprechend der Rechtschreibregeln zu erfassen.

Es wird z.B. festgestellt, dass Ortsnamen in verschiedenen Schreibweisen erfasst wurden. (z.B. St.Gallen, St. Gallen, Sankt Gallen, etc.)

Beispiel Berechnung

Von 1000 Ortsnamen weichen 25 Ortsnamen von der vereinbarten Schreibregel ab.

1000 - 25 = 750
750 / 1000 x 100 = 75% Einheitlichkeit "Ortsnamen"

10. Zuverlässigkeit

Titel

Zuverlässigkeit (Reliability)

Definition

Die Entstehung der Objekte muss nachvollziehbar sein.

Referenz

Geschäftsregeln definieren die Kriterien für 100% Zuverlässigkeit.

Kennzahl

Erfüllungsgrad der Zuverlässigkeit = 0 - 100%

Messeinheit

Prozent

Beispiel

  1. Es ist vereinbart täglich bis 07:00 Uhr eine bestimmte Menge an Daten vom CRM-System an das Abrechnungssystem zu liefern. Im Laufe der Zeit wird festgestellt, das entweder die Datenlieferung zu spät erfolgt oder nur einen Teil der vereinbarten Daten geliefert wurde.

  2. Im Zuge von Bigdata werden immer mehr Daten gesammelt und ausgewertet. Dabei gibt es Daten aus verlässlichen Quellen, d.h. die Entstehung der Daten und deren Qualität ist bekannt. Andererseits gibt es Daten z.B. aus öffentlichen Quellen, bei denen nicht bekannt ist, wie diese entstehen. Genau bei diesen werden auch immer wieder Schwankungen in der Datenqualität festgestellt. 

Beispiel Berechnung

zu 1.)
Von 100 Lieferterminen wurden 5 Liefertermine nicht eingehalten.

100 - 5 = 95
95 / 100 x 100 = 95% Zuverlässigkeit (Liefertermin)

zu 2.)
Von 100 Attributen kommen 20 Attribute aus unzuverlässigen Quellen.

100 - 20 = 80
80 / 100 x 100 = 80% Zuverlässigkeit.

11. Verständlichkeit

Titel

 Verständlichkeit (Understandability)

Definition

Die Objekte müssen in ihrer Begrifflichkeit und Struktur mit den Vorstellungen der Informationsempfänger (z.B. Fachbereiche) übereinstimmen.

Referenz

Geschäftsregeln definieren die Kriterien für 100% Verständlichkeit.

Kennzahl

Erfüllungsgrad Verständlichkeit = 0 - 100%

Messeinheit

Prozent

Beispiel

Für die Datenlieferung eines Reports wurde vereinbart, dass die Attributnamen mit verständlichen Begriffen geliefert werden (z.B. cnvn45 = Name). Darüber hinaus sollen Attribute mit codierten Klassifizierungs-Feldeinträgen in Begriffe transferiert werden (z.B. 1 = Herr, 2 = Frau, 3 = Firma). 

Beispiel Berechnung

Bei 100 Attributen wurden 5 Attribute mit kryptischen Namen geliefert und bei 2 Attributen wurde die codierte Klassifizierung nicht transformiert.

100 - 7 = 93
93 / 100 x 100 = 93% Verständlichkeit