Folgende 11 Datenqualitätskritieren können angewendet werden. Selten werden alle gleichzeit angewendet. Vielmehr wird eine Auswahl anhand Sinnhaftigkeit und Zweck genommen. Bei erstmaliger Definition der Datenqualitätkriteren empfehlen wir die 2-3 offensichtlichsten anzuwenden. Meistens bestehen diese aus den ersten 6 Kriterien der Auflistung.
Datenqualitätskriterien (Data Quality Dimensions)
Vollständigkeit
Eindeutigkeit
Korrektheit
Aktualität
Genauigkeit
Konsistenz
Redundanzfreiheit
Relevanz
Einheitlichkeit
Zuverlässigkeit
Verständlichkeit
1. Vollständigkeit
...
Titel
...
Vollständigkeit (Completeness)
...
Definition
...
Ein Objekt muss alle notwendigen Attribute im jeweiligen Ausgabekanal enthalten. (Pflichtfelder)
...
Referenz
...
Im Contentdesk.io wird die Vollständigkeit (100%) automatisch anhand der definierten Pflichtfelder einer Produktfamilie berechnet. (siehe Dashboard)
...
Kennzahl
...
Erreichungsgrad Vollständigkeit = 0 - 100%
...
Messeinheit
...
Prozent
...
Beispiel
...
Vollständigkeit eines Objektes der Produktfamilie “Ort & Sehenwürdigkeit”
SKU
Name
Hauptbild
Breitengrad
Längengrad
...
Beispiel Berechnung
...
1000 Objekte sind im System. Davon sind 227 nicht Vollständig.
1000 - 227 = 773
773/1000 x 100 = 77% Vollsändigkeit
2. Eindeutigkeit
...
Titel
...
Eindeutigkeit (Uniqueness) / Doubletten
...
Definition
...
Jedes Objekt muss eindeutig interpretierbar sein.
...
Referenz
...
Objekte, das gegen sich selbst oder sein Gegenstück in einem anderen Objekt gemessen wurde.
...
Kennzahl
...
Erreichungsgrad Eindeutigkeit = 0 - 100%
...
Messeinheit
...
Prozent
...
Beispiel
...
Zwei Objekte (z.B. “Ort & Sehenwürdigkeit”) mit unterschiedlicher SKU unterscheiden sich in allen weiteren Attributen z.B. nur in einem weiteren Merkmal (Telefon)
SKU 1-> Telefon = +41 71 274 99 17
SKU 2-> Telefon = +41 71 274 99 19
Alle weiteren Attribute wie z.B. Name, Vorname, Straße, PLZ, Ort, sind identisch.
Es besteht berechtigter Zweifel, ob es sich hier tatsächlich um zwei unterschiedliche Objekte handelt. Zusätzlich entsteht der Zweifel, ob eines oder sogar keine der Telefonnummer richtig ist. Somit sind beide Objekte nicht mehr eindeutig interpretierbar.
...
Beispiel Berechnung
...
Statt 1000 Objekte ergibt die Doublettenanalyse 960 Objekte.
960 / 1000 x 100 = 96% Eindeutigkeit
3. Korrektheit
...
Titel
...
Korrektheit (Correctness)
...
Definition
...
Die Objekte müssen mit der Realität übereinstimmen
...
Referenz
...
Mapping gegen Objekte, deren Korrektheit bestätigt ist oder eine definierte, abgestimmte Plausibilitätsregel.
...
Kennzahl
...
Erreichungsgrad Korrektheit: 0 - 100%
...
Messeinheit
...
Prozent
...
Beispiel
...
Beispiel Berechnung
1000 Objekte liegen vor. Davon sind im Attribut "End-Datum" 50 Objekte mit dem Datum 01.01.2020 hinterlegt.
...
Vollsändigkeit → Wird im Contentdesk.io direkt geprüft.
Spezifische Attribute mit Prüfungen:
Längen- und Breitengrad (xx.xxxx - Bspw. 47.5432)
Telefon
E-Mail
Webseite = URL (enthält http:// oder https://)
Bilder werden nach Dateityp .jpg, .png, .gif geprüft.
Datei werden nach Dateityp .pdf geprüft.
Vollständige Liste der Attribute findet ihr in eurem System unter Einstellungen > Attribute.
Weiter Informationen zu Datenqualitätskriterien.