...
Titel | Eindeutigkeit (Uniqueness) / Doubletten |
Definition | Jedes Objekt muss eindeutig interpretierbar sein. |
Referenz | Objekte, das gegen sich selbst oder sein Gegenstück in einem anderen Objekt gemessen wurde. |
Kennzahl | Erreichungsgrad Eindeutigkeit = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Zwei Objekte (z.B. “Ort & Sehenwürdigkeit”) mit unterschiedlicher SKU unterscheiden sich in allen weiteren Attributen z.B. nur in einem weiteren Merkmal (Telefon) SKU 1-> Telefon = +41 71 274 99 17 Alle weiteren Attribute wie z.B. Name, Vorname, StraßeStrasse, PLZ, Ort, sind identisch. Es besteht berechtigter Zweifel, ob es sich hier tatsächlich um zwei unterschiedliche Objekte handelt. Zusätzlich entsteht der Zweifel, ob eines oder sogar keine der Telefonnummer richtig ist. Somit sind beide Objekte nicht mehr eindeutig interpretierbar. |
Beispiel Berechnung | Statt 1000 Objekte ergibt die Doublettenanalyse 960 Objekte. 960 / 1000 x 100 = 96% Eindeutigkeit |
...
Titel | Korrektheit (Correctness) |
Definition | Die Objekte müssen mit der Realität übereinstimmen |
Referenz | Mapping gegen Objekte, deren Korrektheit bestätigt ist oder eine definierte, abgestimmte Plausibilitätsregel. |
Kennzahl | Erreichungsgrad Korrektheit: 0 - 100% |
Messeinheit | Prozent |
Beispiel | Das Enddatum einer Veranstaltung ist bereits Vergangenheit. Es ist zu prüfen, wie vielen Veranstaltungen bereits nicht mehr aktuell sind. (Wird im Contentdesk.io täglich automatisch geprüft.) |
Beispiel Berechnung | 1000 Objekte liegen vor. Davon sind im Attribut "End-Datum" 50 Objekte mit dem Datum 01.01.2020 hinterlegt. 1000 - 50 = 950 |
4. Aktualität
Titel | Aktualität (Timeliness) |
Definition | Alle Datensätze müssen jeweils dem aktuellen Zustand der abgebildeten Realität entsprechen. |
Referenz | Geschäftsregeln definieren den Zeitpunkt oder Zeitraum in dessen die reale Aktualität zu 100% repräsentiert wird. |
Kennzahl | Erreichnungsgrad Aktualität = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Es sind 1000 Objekte von “Ort & Sehenwürdigkeiten” hinterlegt. Im Laufe der Zeit ziehen Unternehmen um oder werden geschlossen. Dadurch verlieren auch die gespeicherten Objekte zunehmen an Aktualität. Durch verschiedene Massnahmen (z.B. OnBoarding-Formular, telefonsiches Nachfragen, Abgleich der Daten mit Behörden, usw.) soll überprüft werden, welche Objekte noch aktuell sind. |
Beispiel Berechnung | Von 1000 Objekte sind 150 Objekte nicht mehr aktuell. 1000 - 150 = 8500 |
5. Genauigkeit
Titel | Genauigkeit (Accuracy) |
Definition | Die Objekte müssen in der jeweils geforderten Exaktheit vorliegen. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Genauigkeit. |
Kennzahl | Erfüllungsgrad Genauigkeit: 0 - 100% |
Messeinheit | Prozent |
Beispiel | Es ist vereinbart, dass Zahlenwerte immer mit zwei Stellen hinter dem Komma (####,00)angegeben werden müssen. Ein Datum ist immer in dem Format (tt.mm.jjjj) anzugeben. In Rahmen einer Auswertung wird festgestellt, das Zahlen (z.B. 1000; 500,1) wie auch Datumswerte (z.B. 12.30.2017; 22/06/2017) von der definierten Regel abweichen. Es soll geprüft werden, wie häufig eine Regelverletzung vorliegt.
|
Beispiel Berechnung | Prüfung: Von 1000 Objekten mit dem Attributs "Preis" = 30 Regelverletzungen und des Attributs "Bestelldatum" 10 Regelverletzungen. 1000 - 30 = 970 1000 - 10= 990 |
6. Konsistenz
Titel | Konsistenz (Consistency) |
Definition | Ein Objekte darf in sich und zu anderen Datensätzen keine Widersprüche aufweisen. |
Referenz | Geschäftsregeln definieren die Kriterien für 100% Konsistenz. |
Kennzahl | Erfüllungsgrad Konsistenz = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Mehrere Attribute (Name, Hauptbild, Längen- und Breitengrad, Strasse, PLZ und Ort) definieren ein Objekt. Für die korrekte Nutzung müssen die Objekte 100% konsistent sein. Für die einzelne Attribut eines Objekts wurden die Datenqualitätskritieren (z.B. Vollständigkeit und Eindeutigkeit) definiert und gemssen. |
Beispiel Berechnung | Bei 1000 Objekte wurden 210 Objekte identifiziert, bei denen mind. 1 Attribut von den Attributen, die einen Objekt definieren, die Datenqualitätskriterien verletzt. 1000 - 210 = 790 |
7. Redundanzfreiheit
Titel | Redundanzfreiheit (Nonredundant) |
Definition | Innerhalb der Objekte dürfen keine Dubletten vorkommen. |
Referenz | Objekte, das gegen sich selbst oder sein Gegenstück in einem anderen Objekten verglichen wurde. |
Kennzahl | Erfüllungsgrad Redundanzfreiheit = 0 - 100% |
Messeinheit | Prozent |
Beispiel | Aus verschiedenen Datenquellen wurden redundant vorgehaltene Kundendaten zusammengeführt. Bei Auswertungen wurde festgestellt, dass die Vereinheitlichung nicht vollständig funktioniert hat. Jede Kundennummer darf nur einmal vorkommen. Aus verschiedenen Datenquellen wurden redundante Objekte zusammengeführt. Bei Auswertungen wruden festgestellt, dass die Vereinheitlichung nicht vollständig funktioniert hat. Jedes Objekte darf nur einmal vorkommen. |
Beispiel Berechnung | Die Dublettenprüfung ergibt, dass von 1000 Objekte 80 doppelt vorliegen. 1000 - 80 = 920 |