Data Intelligence. Manfred Kulmitzer
Читать онлайн книгу.noch genauer erläutern.
Elektronische Daten können in strukturierter, semi-strukturierter und unstrukturierter Form als Datensätze vorliegen. Bei Dokumenten handelt es sich hingegen immer um unstrukturierte Daten und diese können entweder physisch in gedruckter Form (beispielsweise als Blatt oder Buch) oder als digitale Dokumente in Form von elektronischen Dateien vorliegen. Nun möchte ich diesen - auf Datenarten bezogenen - Ordnungsrahmen grafisch auf der obersten Ebene grob skizzieren:
Das HDD definiert einen Ordnungsrahmen für alle Datenarten
Somit können alle möglichen Datenarten im HDD zugeordnet werden.
Die Datenarten im «Haus der Daten & Dokumente»
Elektronische Daten, welche in strukturierte, semi-strukturierte und unstrukturierte Daten unterteilt werden.
Digitale Dokumente, die immer zu den unstrukturierten Daten gehören.
Physische Dokumente, die klassisch in einem Archiv abgelegt werden.
Metadaten, welche durch die zusätzliche Beschreibung von Daten und Dokumenten ein effektives Auffinden, Verwenden und Verwalten dieser Datenbestände ermöglichen sowie umfassende Datenanalysen ermöglichen oder diese optimieren.
Informationen in strukturierter und teilweise in semi-strukturierter Form, welche der Entscheidungsfindung dienen und sich aus der Kombination oder Interpretation von elektronischen Daten und Metadaten ergeben.
Wissen über noch nicht bekannte oder komplett neue Informationen, Erkenntnisse und Vorhersagen in strukturierter und teilweise in semi-strukturierter Form, welches mit der Nutzung von «Data Intelligence» erzeugt wird, um zusätzliche Werte für ein Unternehmen zu schaffen. Dabei kommen oft Verfahren der Data Science und die Künstliche Intelligenz zum Einsatz.
«Wissen kann nur dann vorliegen, wenn man eine wahre Meinung hat. Doch nicht jede wahre Meinung stellt auch Wissen dar.»
Meine Definition der möglichen Datenarten
Als elektronische, strukturierte Daten werden solche Datensätze verstanden, die innerhalb eines relationalen oder objektorientierten Datenbankschemas eine Zeilen- und Spaltenposition oder einen Verweis haben. Diese Daten weisen zumindest technische Metadaten auf und sind für die automatisierte Datenverarbeitung optimiert.
Beispiele für strukturierte Datensätze sind Einträge von Stammdaten (beispielsweise Kunden- oder Produktdaten) und Referenzdaten (beispielsweise Währungen oder NOGA-Codes) in Datenbank-Tabellen.
Als elektronische, semi-strukturierte Daten werden solche Datensätze verstanden, die ein bestimmtes elektronisches Format haben und zusätzlich fachliche oder technische Metadaten besitzen, die entsprechend interpretiert werden können.
Ein Beispiel für semi-strukturierte Daten sind Dateien im XML-Format, dessen Struktur durch Labels (sogenannte Tags) festgelegt wird, allerdings sind zu den einzelnen Tags beliebige Inhalte in diversen Formaten möglich. Diese Form von semi-strukturierten Daten wird oft bei Daten-Schnittstellen zwischen IT-Applikationen benutzt.
Als elektronische, unstrukturierte Daten werden solche Datensätze und ebenso alle digitalen Dokumente in einem beliebigen elektronischen Format verstanden, die keine zusätzlich oder interpretierbaren Metadaten aufweisen und deren Inhalt nicht einfach bestimmbar ist.
Beispiele für unstrukturierte Daten sind digitale Texte, Bilder und Grafiken auf Webseiten, gescannte Dokumente (beispielsweise ein Personalausweis oder ein Foto), Audioaufzeichnungen, Videos oder Web-Chats in beliebiger Textform.
Obwohl digitale Dokumente (beispielsweise im Format MS Word) natürlich eine Formatierung haben, ist dennoch der Inhalt beliebig und es ist eine spezielle Software für die Anzeige und Bearbeitung dazu notwendig. Selbst E-Mails sieht man als unstrukturierte Daten an - die Nachrichten selbst sind zwar in einer Datenbank organisiert, aber der „Body“ einer E-Mail ist ein formfreier Text ohne jegliche Struktur.
Bei digitalen Dokumenten handelt es sich entweder um das Originaldokument oder um eine elektronische Kopie (beispielsweise durch Scanning) eines physischen Dokuments, welches das Originaldokument ist.
Dabei gelten die folgenden Regeln für digitale Dokumente:
• Ein Dokument kann Daten und Informationen in beliebiger Darstellungsform enthalten;
• ist eine Urkunde, ein Schriftstück oder ein Beleg, welches zur Belehrung über etwas, zur Erhellung von etwas oder als Beweismittel dient;
• ist eine elektronisch existente Informationssammlung, beispielsweise eine Datei auf einem Computer oder der erzeugte Output einer IT-Applikation;
• muss als eine Einheit gespeichert werden und als solche aufgefunden, wahrgenommen, versandt und verwendet werden können.
Schlussendlich werden physische Dokumente als Dokumente in Papierform und somit als fest definierte Informationssammlung verstanden, deren Inhalte grundsätzlich nicht direkt durch eine IT-Applikation - vor allem ohne die vorhergehende Umwandlung in ein elektronisches Format durch beispielsweise Scanning - interpretiert werden können. Beispiele für physische Dokumente sind ein gedruckter Lebenslauf, eine gedruckte Biographie oder ein gedruckter Kundenauftrag.
Meine Definition von Metadaten
Metadaten sind zusätzliche, strukturierte Daten über die eigentlichen elektronischen Daten in den Geschäftsprozessen - welche die Objekte der realen Welt abbilden - und deren Eigenschaften beschreiben sollen.
Dazu ein leicht verständliches Beispiel: Man kann Metadaten mit der äusseren Beschriftung einer geschlossenen Dose vergleichen, womit der Inhalt der Dose beschrieben wird. Beispielsweise kann man auf dem Label einer Dose mit Tomatensuppe ablesen, welche Zutaten und Inhaltsstoffe darin enthalten sind und welche Nährwerte dieses Gericht hat, ohne die Dose öffnen zu müssen, wie in der nachstehenden Grafik gezeigt wird:
Mit Metadaten werden elektronische Daten zusätzlich beschrieben
Deshalb spricht man bei Metadaten gerne von „Daten-1 über Daten-2“, da die erstgenannten Daten-1 zusätzliche Eigenschaften der zweitgenannten Daten-2 beschreiben - analog zu meinem Beispiel mit dem Label der Suppendose.
Es wird auch zwischen fachlichen und technischen Metadaten unterschieden und Metadaten werden normalerweise eigenständig in Datenbanken abgelegt, welche maschinell lesbar oder auswertbar sind.
Fachliche Metadaten werden als zusätzliche, strukturierte Daten definiert, die zur Verarbeitung von fachlichen Fragestellungen herangezogen und ausgewertet werden und müssen meist manuell hinzugefügt bzw. eingegeben werden.
Im Gegensatz dazu werden technische Metadaten meist automatisch erzeugt und zur elektronischen Verarbeitung von technischen Aufgaben herangezogen sowie ausgewertet. Beispiele für Metadaten sind fachliche Definitionen oder definierte Geschäftsregeln und Formeln.
«Eine einheitliche Übersicht von elektronischen Daten und Dokumenten ist entscheidend für ein effektives Daten- und Informationsmanagement.»
Die Datensegmente im HDD
Das HDD kann in weiteren Schritten immer weiter verfeinert und dabei jeweils um zusätzliche Details - bezogen auf die jeweilig adressierten Fachbereiche - auf den nächst tieferen Ebenen erweitert werden.
Dazu werden die elektronischen Daten und Dokumente inhaltlich oder thematisch gebündelt und zuvor definierten Datensegmenten zugeteilt, die beliebig fein weiter unterteilt werden können, was in der nachstehenden Grafik dargestellt wird: