Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Folgende 11 Datenqualitätskritieren können angewendet werden. Selten werden alle gleichzeit angewendet. Vielmehr wird eine Auswahl anhand Sinnhaftigkeit und Zweck genommen. Bei erstmaliger Definition der Datenqualitätkriteren empfehlen wir die 2-3 offensichtlichsten anzuwenden. Meistens bestehen diese aus den ersten 6 Kriterien der Auflistung.

Datenqualitätskriterien (Data Quality Dimensions)

  1. Vollständigkeit

  2. Eindeutigkeit

  3. Korrektheit

  4. Aktualität

  5. Genauigkeit

  6. Konsistenz

  7. Redundanzfreiheit

  8. Relevanz

  9. Einheitlichkeit

  10. Zuverlässigkeit

  11. Verständlichkeit

1. Vollständigkeit

...

Titel

...

Vollständigkeit (Completeness)

...

Definition

...

Ein Objekt muss alle notwendigen Attribute im jeweiligen Ausgabekanal enthalten. (Pflichtfelder)

...

Referenz

...

Im Contentdesk.io wird die Vollständigkeit (100%) automatisch anhand der definierten Pflichtfelder einer Produktfamilie berechnet. (siehe Dashboard)

...

Kennzahl

...

Erreichungsgrad Vollständigkeit = 0 - 100%

...

Messeinheit

...

Prozent

...

Beispiel

...

Vollständigkeit eines Objektes der Produktfamilie “Ort & Sehenwürdigkeit”

  1. SKU

  2. Name

  3. Hauptbild

  4. Breitengrad

  5. Längengrad

...

Beispiel Berechnung

...

1000 Objekte sind im System. Davon sind 227 nicht Vollständig.

1000 - 227 = 773
773/1000 x 100 = 77% Vollsändigkeit

2. Eindeutigkeit

...

Titel

...

Eindeutigkeit (Uniqueness) / Doubletten

...

Definition

...

Jedes Objekt muss eindeutig interpretierbar sein.

...

Referenz

...

Objekte, das gegen sich selbst oder sein Gegenstück in einem anderen Objekt gemessen wurde.

...

Kennzahl

...

Erreichungsgrad Eindeutigkeit = 0 - 100%

...

Messeinheit

...

Prozent

...

Beispiel

...

Zwei Objekte (z.B. “Ort & Sehenwürdigkeit”) mit unterschiedlicher SKU unterscheiden sich in allen weiteren Attributen z.B. nur in einem weiteren Merkmal (Telefon)

SKU 1-> Telefon = +41 71 274 99 17
SKU 2-> Telefon = +41 71 274 99 19

Alle weiteren Attribute wie z.B. Name, Vorname, Straße, PLZ, Ort, sind identisch.

Es besteht berechtigter Zweifel, ob es sich hier tatsächlich um zwei unterschiedliche Objekte handelt. Zusätzlich entsteht der Zweifel, ob eines oder sogar keine der Telefonnummer richtig ist. Somit sind beide Objekte nicht mehr eindeutig interpretierbar.

...

Beispiel Berechnung

...

Statt 1000 Objekte ergibt die Doublettenanalyse 960 Objekte.

960 / 1000 x 100 = 96% Eindeutigkeit

3. Korrektheit

...

Titel

...

Korrektheit (Correctness)

...

Definition

...

Die Objekte müssen mit der Realität übereinstimmen

...

Referenz

...

Mapping gegen Objekte, deren Korrektheit bestätigt ist oder eine definierte, abgestimmte Plausibilitätsregel.

...

Kennzahl

...

Erreichungsgrad Korrektheit: 0 - 100%

...

Messeinheit

...

Prozent

...

Beispiel

...

Beispiel Berechnung

1000 Objekte liegen vor. Davon sind im Attribut "End-Datum" 50 Objekte mit dem Datum 01.01.2020 hinterlegt.

...

Die Datenqualität wird anhand von Datenqualitätskriterien festgelegt.

Automatische geprüfte Kriterien

Der Contentdesk.io prüft folgend Kriterien automatisch:

  • Vollständigkeit eines Objekts anhand der Pflicht-Attribute.
    - Anzeige Vollsändigkeit bei einem Objekt.

  • Genauigkeit bei spezifischen Attributen eines Objekts.
    - Fehlermeldung bei der Eingabe eines Werts.

  • Konsistenz über alle Objekte anhand der Pflicht-Attribute pro Ausgabekanal und Sprache.
    - Anzeige unter Dashboard Vollständigkeit.

  • Einheitlichkeit bei Attributen mit einer Auswahl.
    - Alle Attribute mit einer Auswahl. Bspw. beim Attribut Auszeichnungen, Ausstattungen, Lizenz, Land, etc.

  • Relevanz eines Objekt anhand der Pflicht-Attribute pro Ausgabekanal.
    - Anzeige Vollständigkeit nach Ausgabekanal bei einem Objekt.

Akeneo spezifische gerüft wird:

  • Datenqualitäts-Score eines Objekts
    - Wird mit “ABCDE” angezeigt und unter “Datenqualitätseinsichten” ersichtlich.

Nicht geprüfte Kriterien

Nicht geprüft werden:

  • Eindeutigkeit eines Objekts
    - Doubletten

  • Korrektheit eines Objektes

  • Aktualität eines Objektes

  • Redundanzfreiheit über alle Objekte
    - Doubletten

  • Einheitlichkeit bei Attributen mit Text-Eingabe
    - Bspw. Ortsname sind überalle gleich

  • Zuverlässigkeit einer Datenquelle (Relevant für Imports)

  • Verständlichkeit einer Datenquelle (Relevant für Imports)

Vollständigkeit

Die Vollständigkeit wird anhand er Pflicht-Attribute pro Produktfamilie berechnet.
Unter Einstellungen > Produktfamilie im Bereich “Attribute” seht ihr welche Attribute pflicht sind.

Genauigkeit

Folgende Attribute werden auf die Genauigkeit überprüft und tragen zur Datenqualtität bei:

  • Längen- und Breitengrad
    xx.xxxx - Bspw. 47.5432

  • Telefon
    Prüft ob es eine internationale Telefonnummer ist. Bspw. “+41 71 274 99 19”

  • E-Mail
    Prüft ob es eine E-Mailadresse ist.

  • Webseite
    Prüft ob es eine URL ist. http:// oder https:// muss enthalten sein.

  • Bilder
    Werden nach Dateityp .jpg, .png, .gif, .svg (Logo) und Dateigrösse 50MB geprüft.

  • Datei
    Werden nach Dateityp .pdf und Dateigrösse 50MB geprüft.

Vollständige Liste der Attribute findet ihr in eurem System unter Einstellungen > Attribute.