Aus den genannten Fachbereichen gibt es allerdings keine konkreten Anforderungen an das DWH-Team. Um unsere Kollegen in den Fachbereichen zu unterstützen, bieten wir an, Vorschläge für die Anbindung von Wetterdaten an unsere Datamanagement Plattform (DMP) zu machen, einen ausgewählten Vorschlag umzusetzen und so Wetterdaten zur Verfügung zu stellen. Diese Daten können die Fachbereiche sichten und auf Grundlage dieser ersten Wetterdaten konkrete Konzepte erstellen und weitere Anforderungen an das Data Warehouse Team definieren.

Zunächst werden vom DWH-Team Anbieter von Wetterdaten gesucht und die Daten geprüft. Hierbei zeigt sich, dass eine Unterteilung in historische, aktuelle und prognostizierte Wetterdaten sinnvoll ist, da wir in jedem Bereich die Stärken der jeweiligen Anbieter nutzen wollen.

Für historische und aktuelle Daten bewährt sich der Deutsche Wetterdienst (DWD) als Datenlieferant für deutsche Wetterdaten. Zu den Wetterdaten werden auch die Geodaten der einzelnen Messstationen des DWDs zur Verfügung gestellt und von uns weiterverarbeitet. Die Daten liegen in Form komprimierter CSV-Dateien auf einem SFTP-Server und können so schnell an unseren Staging-Bereich der DMP angebunden werden. Für die Prognosedaten scheint es sinnvoll, einen Anbieter zu wählen, der auch bekannte Wetter Apps mit Wetterdaten versorgt.

Die Prognosedaten werden über eine API abgerufen und beinhalten Prognosen für die nächsten 5 Tage. Die API Calls werden pro Tag beschränkt um zunächst eine kostenlose Version testen zu können. Zudem werden nur Prognosen für die Geokoordinaten abgerufen, an denen sich Messstationen des DWD befinden. Aus den drei Staging-Tabellen (mit historischen, aktuellen und prognostizierten Wetterdaten)  werden per T-SQL Prozeduren die Daten zunächst in den Quelldaten Bereich übernommen und  dann in einer Core-Tabelle zusammengeführt.

Die kompletten Wetterdaten in der Core-Tabelle werden per Typ (historisch (h) / aktuell (a) / prognostiziert (p)) unterschieden. So liegen zu jeder DWD Wetterstation historische Daten, aktuelle Daten und Prognosen für die nächsten 5 Tage vor. Die Prognosedaten werden am nächsten Tag durch neuere Prognosedaten aktualisiert oder verlassen den Status Prognose und werden per Update zu aktuellen Daten. Ebenso werden die aktuellen Daten zu historischen Daten sobald diese in die Staging-Tabelle mit historischen Daten geladen werden.

Neben den reinen Wetterdaten, wird auch die Stammtabelle für die einzelnen Wetterstationen täglich automatisch aktualisiert und in Quelldaten und Core aufgebaut. Diese wiederum wird verwandt um den Kunden im Core der DMP die nächstgelegene Wetterstation zuzuordnen. Nicht nur die Wetterdaten, sondern auch die Zuordnung der Wetterstationen zu Kunden wird täglich aktualisiert, um gewährleisten zu können, dass im Falle eines Umzugs der Kunden oder bei Änderungen an den Wetterstationen, dem Kunden immer die am nächsten gelegene Wetterstation zugeordnet wird. Für die Umsetzung des Ladeprozesses auf dem SQL Server wurden das ETL-Tool SSIS (SQL Server Integration), die Programmiersprache C# sowie die die funktional-prozedurale Programmiersprache T-SQL (Transact SQL) eingesetzt.

Da es sich um einen Vorschlag zur Anbindung der Wetterdaten handelt, wird für die Wetterdaten zunächst auf die Implementierung einer von DWH-Team entwickelten Standard-Fehlerlogik zwischen Quelldaten-Schicht und Core der DMP verzichtet. Sobald die Fachbereiche die Daten gesichtet, konkrete Konzepte zu Wetterdaten Verwendung erstellt haben und somit generelle Ausschlüsse von Daten, fehlerhafte Datensätze und Businesslogik definiert werden kann, kann die Fehlerlogik implementiert werden. Aus demselben Grund wird auf eine Historisierung der Kunde-Wetterstationszuordnung zunächst verzichtet. Die kleinen Unstimmigkeiten in den Daten, die z.B. auftauchen können, wenn ein Kunde umzieht, werden im Zeitraum der Evaluierungsphase im Fachbereich toleriert werden müssen. Um ein schnelles Anbinden zum Sichten der Daten zu gewährleisten und um die Produktivumgebung der DMP clean zu halten (bisher keine Fehlerlogik!), wird ein täglicher Ladeprozess nur auf der Testumgebung aufgebaut, der als Ziel die Core-Tabellen befüllt. Auch die Walbusch-Gesellschaften Österreich und Schweiz werden für die Erprobungszeit nicht mit Wetterdaten bedient.

So ist uns eine schnelle und flexible Anbindung der Wetterdaten gelungen, auf Basis derer, der Fachbereich Analysen und Konzepte entwickeln kann.

Ulrike Pagacz

Adrian Reichenberger

techblog@walbusch.de

Kontakt Blog

Wenn Sie Fragen oder Feedback zum Technologie-Blog oder zu einem unserer Beiträge haben, können Sie sich gerne per Mail an unser Technologie-Blog Team wenden!

E-Mail: techblog@walbusch.de