Data Lakes und Altsysteme: Teil 1

19-02-2024 | 4 Minute gelesen | Außerbetriebnahme von Legacy-Systemen, IT-Trends

In der Regel haben Unternehmen mit Hunderten von Anwendungen zu tun, die im Laufe der Zeit ersetzt werden, und diese Altsysteme werden außer Betrieb genommen. In diesem Artikel befassen wir uns mit dem grundlegenden Konzept von Data Lakes und wie dieses mit Altsystemen verknüpft ist. In Teil 2 werden wir untersuchen, welche Auswirkungen Legacy-Anwendungen auf Ihren Data Lake haben.

Was verstehen wir unter einem “Data Lake”? Data Lakes sind “eine solide Architektur, logisch zentralisiert, eine hoch skalierbare Umgebung, die mit verschiedenen Arten von Analysedaten gefüllt ist, die sowohl von innerhalb als auch von außerhalb Ihres Unternehmens mit unterschiedlichen Latenzzeiten stammen, und die das primäre Ziel für die datengesteuerten Erkenntnisse Ihres Unternehmens sein wird”, wie im Buch Data Lakes für Dummies von Alan R. Simon definiert.

Daten in einem Data Lake können als Daten betrachtet werden, die sich bereits in Ihrem Besitz befinden und von einem neuen Eigentümer wiederverwendet werden könnten.

Die typische Dateneingabe für einen Data Lake ist der ELT-Prozess (Extract Load and Transform). Der Trick dabei ist, dass die Transformation zu einem späteren Zeitpunkt erfolgen kann. Es ist keine Datenanalyse im Vorfeld erforderlich(Schema beim Lesen statt Schema beim Schreiben). Die typischen historischen ETL-Tools stammen von Informatica oder IBM Datastage, aber es gibt inzwischen auch neue Tools wie AWS Lake Formation.

Data Lakes werden aus potenziell Dutzenden von Quellen aufgebaut, bei denen es sich um Anwendungen, Produkte, Dienste, IoT oder beliebige Datenquellen handeln kann. Der Datenfluss kann aus Stapelverarbeitung, Streaming oder wahrscheinlich aus beiden Quellenarten stammen. Es handelt sich um eine lose gekoppelte Architektur.

In einem Katalog oder Verzeichnis werden die im Data Lake enthaltenen Daten und die für die verschiedenen Datengruppen geltenden Regeln festgehalten. Dies wird als ‘Metadaten’ bezeichnet. Um aus Ihrem Data Lake Berichte (OLAP/BI) erstellen zu können, müssen Sie eine semantische Schicht hinzufügen. Eine semantische Schicht kann eine zeitliche Aufteilung von Fakten (wie z.B. Einnahmen) nach Dimensionen (wie z.B. Kunden) sein.

Das Problem mit Data Warehouses ist, dass sie zu Datenhalden werden können, während das Problem mit Data Lakes ist, dass sie zu einem Datensumpf werden können.

Ein wichtiges Merkmal von Data Lakes ist die Möglichkeit, verschiedene Speicheroptionen (z.B. Blob-Speicher und SQL-Datenbankspeicher) für unterschiedliche Zwecke zu verwenden. Ihr Data Lake muss keine monolithische Architektur sein, sondern wird zu einer komponentenbasierten Architektur.

Semi-strukturierte Daten liegen zwischen strukturierten und unstrukturierten Daten. Dazu gehören u. a. Blogbeiträge, Beiträge in sozialen Medien, Team- oder Slack-Nachrichten, Text und E-Mails.

Die meisten Unternehmen werden mit Legacy-Daten und Legacy-Analysedaten zu kämpfen haben, die höchstwahrscheinlich aus Data Warehouses und Data Marts stammen. In den SAP-Umgebungen zum Beispiel werden die SAP BI-Systeme bis 2027/2030 aus der Wartung genommen und durch SAP Datasphere ersetzt .

Betrachten wir drei Teile eines Data Lake: Bronze-Zone, Silber-Zone und Gold-Zone:

Die Bronze-Zone (auch Raw-Zone oder Landing-Zone genannt) umfasst die folgenden Punkte: Datenaufnahme, Datenspeicherung und -verwaltung sowie Datenkatalogisierung. Vor einigen Jahren hätten wir hier HDFS (Hadoop Distributed Dile System) in Betracht gezogen, aber diese Technologie scheint nun veraltet zu sein.

Die Bronze-Zone kann Datenbankspeicher enthalten, so dass Sie eine vollständige Datenbanktabellenstruktur, Primär- und Fremdschlüsselbeziehungen sowie alle Wertbereichs- und Wertlistenbeschränkungen einlesen können.

Rohdaten können weiterhin verwendet werden, so dass die Bronze-Zone auch Analysen in verschiedenen Formen unterstützt.

Die silberne Zone, auch bekannt als verarbeitete Zone, ermöglicht die Datenbereinigung und -umwandlung, die Datenveredelung und die Datenanreicherung.

In der Goldzone (auch bekannt als die veröffentlichte Zone) finden wir die wichtigsten Daten. Sie wird manchmal auch als “die goldene Quelle” oder “die Quelle der Wahrheit” bezeichnet.

  • Wir dürfen die Datenabfolge nicht vergessen, die sich auf den Prozess der Verfolgung des Datenflusses im Laufe der Zeit bezieht und ein klares Verständnis darüber vermittelt, woher die Daten stammen, wie sie sich verändert haben und wohin sie letztendlich in der Datenpipeline gelangen.
  • Und wie lange sollten die Daten in Ihrem Data Lake aufbewahrt werden? Nun, das kann für immer sein oder auch nur für ein paar Stunden (die Standardverweildauer von Amazon Kinesis-Datenströmen beträgt 24 Stunden, nur um ein Beispiel für einen gewöhnlichen, groß angelegten Echtzeit-Streaming-Dienst zu nennen). Sie können die Daten auch in Hot, Cool und Archive oder in Hot, Cold und Frozen oder in Hot, Warm und Cold einteilen (es gelten unterschiedliche Terminologien).
  • In einem Data Lake gibt es verschiedene Arten von Benutzern: Passive Benutzer haben nur Zugriff auf das statische PDF (die Geschichten aus SAP SAC), aber ein Light-Analytics-Benutzer kann auch auf die eigentlichen Daten zugreifen.

Bitte beachten Sie, dass wir hier von Data Lakes sprechen und nicht von Data Warehouse, Data Mesh oder Data Fabrics. Diese Begriffe haben jedoch viel gemeinsam. Zum Beispiel wurde Data Mesh erstmals 2018 (Forester Research) als ein Ansatz für Daten geprägt, der das Eigentum dezentralisiert und den Zugang demokratisiert. Data Mesh wurde in den letzten Jahren verwendet, beginnend mit Mark Russinovich und seiner “Datengravitation“: wo Unternehmen größere Mengen an Informationen sammeln und dann Schwierigkeiten haben, diese zu verwalten.

Ich persönlich stehe mehr auf das Data Fabric-Konzept und das Data Pipeline-Konzept. Padmaraj Nidagundi, ein erfahrener Software-Ingenieur, definiert es so: “Data Fabrics bilden eine Brücke zwischen Legacy-Umgebungen und neuen Cloud-nativen Implementierungen und versorgen die Zielsysteme mit den spezifischen Daten, die sie benötigen, ohne dabei Sicherheitsbedenken aufkommen zu lassen. Data Fabrics sind ein Rahmenwerk, keine Technologie”.

Zusammenfassend lässt sich sagen, dass das Konzept der Data Lakes eine entscheidende Entwicklung bei der Verwaltung und Nutzung großer Mengen unterschiedlicher Daten aus internen und externen Quellen darstellt. Dieser Artikel hat sich mit der grundlegenden Definition von Data Lakes befasst und ihre Rolle als zentrales, skalierbares Repository für eine Vielzahl von Analysedaten hervorgehoben. Da Unternehmen mit Altanwendungen zu kämpfen haben, ist die Verbindung zwischen Data Lakes und diesen veralteten Systemen von entscheidender Bedeutung. Der kommende Teil 2 wird sich mit den Auswirkungen auf Data Lakes befassen.