Datenqualitätskriterien
Folgende 11 Datenqualitätskritieren können angewendet werden. Selten werden alle gleichzeit angewendet. Vielmehr wird eine Auswahl anhand Sinnhaftigkeit und Zweck genommen. Bei erstmaliger Definition der Datenqualitätkriteren empfehlen wir die 2-3 offensichtlichsten anzuwenden. Meistens bestehen diese aus den ersten 6 Kriterien der Auflistung.
Diese Kriterien können bei allen Daten angewendet werden.
Datenqualitätskriterien (Data Quality Dimensions)
Vollständigkeit
Eindeutigkeit
Korrektheit
Aktualität
Genauigkeit
Konsistenz
Redundanzfreiheit
Relevanz
Einheitlichkeit
Zuverlässigkeit
Verständlichkeit
1. Vollständigkeit
Titel | Vollständigkeit (Completeness) |
---|---|
Definition | Ein Objekt muss alle erfoderlichen Attribute im jeweiligen Ausgabekanal enthalten. (Pflicht-Attribute) |
Referenz | Im Contentdesk.io wird die Vollständigkeit (100%) automatisch anhand der definierten Pflicht-Attribute einer Produktfamilie berechnet. (siehe Dashboard) |
Kennzahl | Erreichungsgrad Vollständigkeit = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Vollständigkeit eines Objektes der Produktfamilie “Ort & Sehenwürdigkeit”
|
Beispiel Berechnung | 1000 Objekte sind im System. Davon sind 227 nicht Vollständig. 1000 - 227 = 773 |
2. Eindeutigkeit
Titel | Eindeutigkeit (Uniqueness) |
Definition | Jedes Objekt muss eindeutig interpretierbar sein. |
Referenz | Objekte, das gegen sich selbst oder sein Gegenstück in einem anderen Objekt gemessen wurde. |
Kennzahl | Erreichungsgrad Eindeutigkeit = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Zwei Objekte (z.B. “Ort & Sehenwürdigkeit”) mit unterschiedlicher SKU unterscheiden sich in allen weiteren Attributen z.B. nur in einem weiteren Merkmal/Attribut (Telefon). SKU 1 -> Telefon = +41 71 274 99 17 Alle weiteren Attribute wie z.B. Name, Vorname, Strasse, PLZ, Ort, sind identisch. Es besteht berechtigter Zweifel, ob es sich hier tatsächlich um zwei unterschiedliche Objekte handelt. Zusätzlich entsteht der Zweifel, ob eines oder sogar keine der Telefonnummer richtig ist. Somit sind beide Objekte nicht mehr eindeutig interpretierbar. |
Beispiel Berechnung | Statt 1000 Objekte ergibt die Doublettenanalyse 960 Objekte. 960 / 1000 x 100 = 96% Eindeutigkeit |
3. Korrektheit
Titel | Korrektheit (Correctness) |
Definition | Die Objekte müssen mit der Realität übereinstimmen |
Referenz | Mapping gegen Objekte, deren Korrektheit bestätigt ist oder eine definierte, abgestimmte Plausibilitätsregel. |
Kennzahl | Erreichungsgrad Korrektheit: 0 - 100% |
Messeinheit | Prozent |
Beispiel | Das Enddatum einer Veranstaltung ist bereits Vergangenheit. Es ist zu prüfen, wie vielen Veranstaltungen bereits nicht mehr aktuell sind. (Wird im Contentdesk.io täglich automatisch geprüft.) |
Beispiel Berechnung | 1000 Objekte liegen vor. Davon sind im Attribut "End-Datum" 50 Objekte mit dem Datum 01.01.2020 hinterlegt. 1000 - 50 = 950 |
4. Aktualität
Titel | Aktualität (Timeliness) |
Definition | Alle Datensätze müssen jeweils dem aktuellen Zustand der abgebildeten Realität entsprechen. |
Referenz | Geschäftsregeln definieren den Zeitpunkt oder Zeitraum in dessen die reale Aktualität zu 100% repräsentiert wird. |
Kennzahl | Erreichnungsgrad Aktualität = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Es sind 1000 Objekte von “Ort & Sehenwürdigkeiten” hinterlegt. Im Laufe der Zeit ziehen Unternehmen um oder werden geschlossen. Dadurch verlieren auch die gespeicherten Objekte zunehmen an Aktualität. Durch verschiedene Massnahmen (z.B. OnBoarding-Formular, telefonsiches Nachfragen, Abgleich der Daten mit Behörden, usw.) soll überprüft werden, welche Objekte noch aktuell sind. |
Beispiel Berechnung | Von 1000 Objekte sind 150 Objekte nicht mehr aktuell. 1000 - 150 = 8500 |
5. Genauigkeit
Titel | Genauigkeit (Accuracy) |
Definition | Die Objekte müssen in der jeweils geforderten Exaktheit vorliegen. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Genauigkeit. |
Kennzahl | Erfüllungsgrad Genauigkeit: 0 - 100% |
Messeinheit | Prozent |
Beispiel | Es ist vereinbart, dass Zahlenwerte immer mit zwei Stellen hinter dem Komma (####,00)angegeben werden müssen. Ein Datum ist immer in dem Format (tt.mm.jjjj) anzugeben. In Rahmen einer Auswertung wird festgestellt, das Zahlen (z.B. 1000; 500,1) wie auch Datumswerte (z.B. 12.30.2017; 22/06/2017) von der definierten Regel abweichen. Es soll geprüft werden, wie häufig eine Regelverletzung vorliegt. |
Hinweis | Im Contentdesk.io werden folgende Attribute automtisch auf Genauigkeit geprüft:
|
Beispiel Berechnung | Prüfung: Von 1000 Objekten mit dem Attributs "Preis" = 30 Regelverletzungen und des Attributs "Bestelldatum" 10 Regelverletzungen. 1000 - 30 = 970 1000 - 10= 990 |
6. Konsistenz
Titel | Konsistenz (Consistency) |
Definition | Ein Objekte darf in sich und zu anderen Datensätzen keine Widersprüche aufweisen. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Konsistenz. |
Kennzahl | Erfüllungsgrad Konsistenz = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Mehrere Attribute (Name, Hauptbild, Längen- und Breitengrad, Strasse, PLZ und Ort) definieren ein Objekt von “Ort & Sehenwürdigkeiten”. Für die korrekte Nutzung müssen alle Objekte 100% konsistent sein. Für die einzelne Attribut eines Objekts wurden die Datenqualitätskritieren (z.B. Vollständigkeit und Eindeutigkeit) definiert und gemssen. |
Beispiel Berechnung | Bei 1000 Objekte wurden 210 Objekte identifiziert, bei denen mind. 1 Attribut von den Attributen, die ein Objekt definieren, die Datenqualitätskriterien verletzt. 1000 - 210 = 790 |
7. Redundanzfreiheit
Titel | Redundanzfreiheit (Nonredundant) |
Definition | Innerhalb der Datensätze dürfen keine Dubletten vorkommen. |
Referenz | Objekte, das gegen sich selbst oder sein Gegenstück in einem anderen Objekten verglichen wurde. |
Kennzahl | Erfüllungsgrad Redundanzfreiheit = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Aus verschiedenen Datenquellen wurden redundante Objekte zusammengeführt. Bei Auswertungen wurde festgestellt, dass die Vereinheitlichung nicht vollständig funktioniert hat. Jedes Objekte darf nur einmal vorkommen. |
Beispiel Berechnung | Die Dublettenprüfung ergibt, dass von 1000 Objekte 80 doppelt vorliegen. 1000 - 80 = 920 |
8. Relevanz
Titel | Relevanz (Relevancy) |
Definition | Der Informationsgehalt von Objekten muss den jeweiligen Informationsbedarf erfüllen. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Relevanz. |
Kennzahl | Erfüllungsgrad Relevanz = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Für die Erstellung von Quartalsberichten sind nur die Rechnungen relevant, deren Rechnungsdatum innerhalb des Quartals liegen. Beim Vergleich von unterschiedlichen Reports des selben Quartals fällt auf, das Kennzahlen immer wieder differieren. Zurückzuführen ist dies auf den Umstand, dass immer wieder Rechnung einfließen, welche für das jeweils definierte Quartal nicht relevant sind. |
Beispiel Berechnung | Für Q1 sind 1000 Rechnungen einbezogen worden. Eine Prüfung ergibt, das 35 Rechnungen nicht berücksichtigt werden dürfen. 1000 - 35 = 965 |
9. Einheitlichkeit
Titel | Einheitlichkeit (Uniformity) |
Definition | Die Informationen eines Objekts müssen einheitlich strukturiert sein. Das heißt, eine Menge von Daten wird fortlaufend einheitlich präsentiert. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Einheitlichkeit. |
Kennzahl | Erfüllungsgrad Einheitlichkeit = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Adressen sind entsprechend der Rechtschreibregeln zu erfassen. Es wird z.B. festgestellt, dass Ortsnamen in verschiedenen Schreibweisen erfasst wurden. (z.B. St.Gallen, St. Gallen, Sankt Gallen, etc.) |
Beispiel Berechnung | Von 1000 Ortsnamen weichen 25 Ortsnamen von der vereinbarten Schreibregel ab. 1000 - 25 = 750 |
10. Zuverlässigkeit
Titel | Zuverlässigkeit (Reliability) |
Definition | Die Entstehung der Objekte muss nachvollziehbar sein. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Zuverlässigkeit. |
Kennzahl | Erfüllungsgrad der Zuverlässigkeit = 0 - 100% |
Messeinheit | Prozent |
Beispiel |
|
Beispiel Berechnung | zu 1.) 100 - 5 = 95 zu 2.) 100 - 20 = 80 |
11. Verständlichkeit
Titel | Verständlichkeit (Understandability) |
Definition | Die Objekte müssen in ihrer Begrifflichkeit und Struktur mit den Vorstellungen der Informationsempfänger (z.B. Fachbereiche) übereinstimmen. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Verständlichkeit. |
Kennzahl | Erfüllungsgrad Verständlichkeit = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Für die Datenlieferung eines Reports wurde vereinbart, dass die Attributnamen mit verständlichen Begriffen geliefert werden (z.B. cnvn45 = Name). Darüber hinaus sollen Attribute mit codierten Klassifizierungs-Feldeinträgen in Begriffe transferiert werden (z.B. 1 = Herr, 2 = Frau, 3 = Firma). |
Beispiel Berechnung | Bei 100 Attributen wurden 5 Attribute mit kryptischen Namen geliefert und bei 2 Attributen wurde die codierte Klassifizierung nicht transformiert. 100 - 7 = 93 |