Google Data Cloud Summit Google Cloud stellt BigLake vor und gründet Data Cloud Alliance

Von Michael Matzer

Auf dem Data Cloud Summit hat Google Cloud mehrere Neuheiten angekündigt, mit denen seine Kunden ihre Daten durch Integration besser nutzen können. Zudem stellte Google Cloud die Data Cloud Alliance vor, die zahlreiche Partner in einem Ökosystem zusammenführt.

Anbieter zum Thema

Die BigLake-API spielt eine zentrale Rolle für den Einsatz von Analysewerkzeugen wie Google BigQuery.
Die BigLake-API spielt eine zentrale Rolle für den Einsatz von Analysewerkzeugen wie Google BigQuery.
(Bild: Google)

Da die meisten Datenquellen der Unternehmen in disparaten Datensilos abgelegt sind, ist die erste Voraussetzung für die Nutzung dieser Daten ein Data Lake. Mit BigLake stellt Google Cloud eine seit dem 6. April 2022 erhältliche Engine vor, in der alle Unternehmensdaten sowie angekoppelte Datenquellen zusammengeführt werden können. Dazu gehören Data Warehouses wie Snowflake, BI-Tools wie Tableau und Inhalte aus den Public Clouds GCP, AWS und Azure.

Die BigLake-API unterstützt offene Formate wie Parquet und Apache Spark. Mit einem Analysewerkzeug wie BigQuery lassen sich die Inhalte des Data Lakes auswerten, die in Instanzen von Google Cloud Storage (GCS) gespeichert sind. Notwendige Tools, wie etwa ein Datenkatalog, kommen von den über 700 Softwarepartnern Googles. Über Machine-Learning-Funktionen verfügt BigQuery bereits.

Spanner Change Streams

Google Cloud Spanner ist eine „vollständig verwaltete relationale Datenbank mit unbegrenzter Skalierung, strikter Konsistenz und bis zu 99,999 % Verfügbarkeit.“ Sie erlaubt Echtzeit-Analysen und verfügt über eine Schnittstelle zur quelloffenen Datenbank PostgreSQL.

Damit Spanner-Nutzer sicher sein können, dass sie die aktuellsten Daten verwenden, bietet Google Cloud nun Spanner Change Streams an. Das Tool soll sie in die Lage versetzen, Änderungen in der Datenbank in Echtzeit zu verfolgen und mit den frischen Daten Mehrwert zu generieren, denn alle Einfügungen, Updates und Löschvorgänge werden als Streams in Echtzeit in die gesamte Datenbank des Nutzers weitergeleitet.

Datenmigrationsprogramm

Mit dem neuen Database Migration Program will Google seine Kunden in die Lage versetzen, ihre lokalen Datenbanken sowie andere Clouds auf Google Cloud überzuführen, damit sie die GCP-Vorteile nutzen können. Das Programm umfasst die Bereitstellung entsprechender Werkzeuge, Ressourcen und Fachwissen sowie „Anreize“, um die Kosten für die Datenbank-Migration auszugleichen.

Vertex AI

Im Mittelpunkt von Googles KI-Portfolio steht Vertex AI. Die Plattform umfasst Funktionen für die Erstellung, Bereitstellung und Skalierung von Machine-Learning-Modellen. Sie ist für die Zusammenarbeit mit BigQuery-Workloads optimiert. Die neue Workbench soll es Developer-Teams möglich sein, Modelle fünfmal schneller als mit Notebooks zu implementieren.

Natürlich können Nutzer ihre Modelle aktualisieren, aber die Wartung von hunderten oder tausenden von Modellen kann sehr aufwendig werden. Hier sind MLOps-Funktionen nötig, und die liefert die Vertex AI Model Registry. Dieses zentrale Repository, das etwa Ende Juni verfügbar werden soll, verwaltet auch Modelle aus BigQuery ML und unterstützt die Kollaboration von Data Scientists und Developern. Zweck ist es in erster Linie, Machine-Learning-Modelle operativ in Geschäftsprozessen zu nutzen.

In die gleiche Richtung der Datenbewirtschaftung zielt die Ankündigung von Connected Sheets in Googles BI-Plattform Looker. Die Entwicklungsumgebung Data Studio kann zudem auf Looker-Datenmodelle zugreifen. Das weitet den Nutzerkreis für Looker-Daten deutlich aus. Mit dem Projekt BigBI will Google Cloud eine engere Integration zwischen Data Studio und Looker erreichen, um Data Discovery zu erleichtern.

Cloud Data Alliance

Der Austausch von Daten zwischen verschiedenen Cloud-Plattformen ist nicht gerade einfach, doch die Cloud Data Alliance soll den Weg dazu ebnen. Zu den Gründungsmitgliedern zählen Google Cloud, Confluent, Databricks, Dataiku, Deloitte, Elastic, Fivetran, MongoDB, Neo4j, Redis, and Starburst.

Ziel ist aber nicht die Schaffung neuer Standards, denn die gibt es schon. Databricks trägt beispielsweise einen Delta Lake bei. Zweck ist vielmehr die Anwendung von Datenanalysen und KI-Modellen im Hinblick auf Compliance und Governance zu erleichtern. Hier lauern noch viele Herausforderungen und die Sicherheitsprobleme nehmen jedes Jahr zu. Die Allianz strebt danach, ihren Kunden Lösungen auf solche Herausforderungen zu entwickeln und so auch den Markt auszuweiten. Nicht zuletzt will die Allianz mehr Fachleute schulen bzw. Neulinge mit ihren Produkten vertraut machen.

(ID:48204434)