Ein Lakehouse für konsistentes Net Sales Reporting 

Michelle Schulz
19. März
5 Min. Lesezeit

Aktualisiert: 20. März

Wie eine global aufgestellte Pharma Company (API Producer) mit einem Azure-Databricks-Lakehouse ihr Net-Sales-Reporting konsolidiert hat inklusive zentralen KPI-Definitionen und einem kontrollierten Excel-Upload. 

Waleed Saleem

Projektleiter und Senior Analytics Engineer

Ziel war es, Net-Sales-KPIs, Budget- und Forecast-Daten sowie weitere Steuerungsgrößen auf einer Plattform zusammenzuführen. 

Das Ergebnis: schnellere Monatsabschlüsse, weniger Diskussionen über Zahlen und eine Datengrundlage, auf der Analysen über Länder, Business Units und Sales-Strukturen hinweg verlässlich funktionieren. 

Als international aufgestellter Entwicklungs- und Herstellungsdienstleister für führende Pharma- und Biotech-Unternehmen, kann genau diese internationale Realität, Steuerung und Reporting anspruchsvoll gestalten. Wenn Business Units (BUs), Länderorganisationen, Sales-Teams und Märkte parallel arbeiten, entstehen Daten schnell in unterschiedlichen Strukturen, Definitionen und Granularitäten. Gleichzeitig erwarten Management, Finance/Controlling sowie BU- und Sales-Leitungen monatlich verlässliche Zahlen: Net Sales auf Gruppen- und BU-Ebene, Budget-vs.-Ist, Forecast-Stände, Abweichungsanalysen und natürlich die Möglichkeit, schnell Fehler zu finden, wenn etwas nicht passt. 

In einem aktuellen Projekt haben wir deshalb eine standardisierte, DWH basierte Reportinglösung aufgebaut, die Net-Sales-KPIs und zentrale Steuerungsgrößen (u. a. CAPEX, FTE sowie Budget-/Planungsstände) konsistent bereitstellt. Ziel war nicht einfach ein weiteres Dashboard zu erstellen, sondern eine Plattform, die Monatsdaten schnell verarbeitet, die Struktur des Gesamtprozesses stabiler und sicherer hält und Entscheidungen messbar beschleunigt. 

Warum haben wir uns dabei für Azure Databricks entschieden? 

Die zentrale Architekturentscheidung fiel auf einen Lakehouse-Ansatz mit Azure Databricks.

Nicht aus Trendgründen, sondern weil Databricks Datenaufnahme, Transformation und Bereitstellung in einem skalierbaren Stack zusammenführt und sich gleichzeitig sauber in das Azure-Ökosystem integriert, sowohl bei Themen wie Security, als auch Identity oder Monitoring.

Gerade für Reporting-Plattformen, die sich kontinuierlich weiterentwickeln im Sinne von neuen KPIs, zusätzlichen Quellen oder weiteren Dimensionen, ist diese Kombination entscheidend: skalierbar, kontrollierbar und ohne dass Erweiterungen zu einer Sammlung von Sonderlösungen führen. 

Technisch basiert die Lösung auf einer modernen Databricks-Lakehouse-Architektur: 

Delta Lake für zuverlässige, transaktionale Tabellen im Data Lake 
Medallion-Architektur mit klaren Schichten (Bronze, Silver, Gold) 
Unity Catalog für Governance und rollenbasierte Zugriffe 
Databricks Jobs/Workflows für Orchestrierung inklusive Logging und Fehlerhandling 
Power BI als Frontend über das Databricks SQL Warehouse

Der entscheidende Punkt: KPI-Logik gehört nicht verteilt in mehrere Power-BI-Dateien, sondern zentral dorthin, wo Datenqualität, Governance und Nachvollziehbarkeit kontrollierbar sind – in den Gold-Layer des Lakehouse. 

Das Setup: Bronze, Silver, Gold – und warum diese Trennung hilft 

Die Medallion Architektur ist kein theoretisches Architekturmodell, sondern eine sehr praktische Antwort auf typische Datenprobleme: manuelle Excel-Quellen, unterschiedliche Definitionen, wechselnde Datenlieferungen oder fehlende Identifikatoren. 

Datenverarbeitungspipeline mit Streamlit: Kunden laden über die benutzerfreundliche Oberfläche Daten hoch, die im Bronze-Layer gespeichert werden. Die Silver-Layer sorgt für bereinigte und standardisierte Daten, während der Gold-Layer kuratierte Analysen liefert.

Bronze: Rohdaten mit Rückverfolgbarkeit 

Excel-Dateien werden monatlich von Fachanwendern über eine Streamlit-App hochgeladen. Die Anwendung erzwingt dabei einen kontrollierten Upload inklusive Metadaten (z. B. Periode und Quelle) und legt die Originaldateien standardisiert in einem Databricks Volume als Landing Zone ab. 

Von dort werden die Dateien in den Bronze-Layer geladen – als Delta-Rohdaten, inklusive klarer Rückverfolgbarkeit zur Ursprungsdatei.  Die Originaldateien bleiben dabei vollständig erhalten. Das klingt unspektakulär, wird aber entscheidend, wenn später nachvollzogen werden muss, warum sich beispielsweise eine Zahl verändert hat.

Silver: Bereinigung, Typisierung und Qualitätsregeln 

Im Silver-Layer werden die Daten dann bereinigt und operationalisiert: Typisierung, Standardisierung, Mapping-Logik und Harmonisierung. Hier greifen ebenso Validierungen und Qualitätsregeln, um Abweichungen frühzeitig zu erkennen und nachvollziehbar zu behandeln. 

Dazu gehören beispielsweise: 

Schema-Checks 
Pflichtfeldvalidierungen 
Dublettenlogik 
Referenzabgleiche gegen Dimensionstabellen 
Periodenkonsistenz

Gerade bei Excel-basierten Quellen ist dieser Schritt unverzichtbar. 

Gold: Business-fertige Tabellen und KPIs 

Im Gold-Layer entstehen kuratierte Tabellen und Views, die als stabile Grundlage für Reporting und Analyse dienen. Hier werden die fachlichen Definitionen zentraler Kennzahlen – etwa Net Sales und weiterer Steuerungs-KPIs – standardisiert umgesetzt. Power BI greift auf diese Strukturen direkt zu und baut darauf das semantische Modell und die Visualisierung auf. Dadurch basiert die Analyse über Gruppen-, BU- und Länderebene hinweg auf einer gemeinsamen, konsistenten Datenbasis. Power BI (Power Query / M-Code) greift dabei über Catalog → Schema → Tabelle auf Databricks SQL Warehouse zu. 

Excel-Upload ohne Chaos: Streamlit als kontrolliertes Einfallstor 

Wie bisher beschrieben, scheitern viele Reporting-Projekte weniger an komplexen Datenplattformen als an scheinbar kleinen Dingen wie Excel-Dateien, die unterschiedliche Vorlagen, manuelle Anpassungen oder fehlende Metadaten haben. 

Deshalb wurde der Upload-Prozess bewusst als Teil der Lösung gestaltet. 

Die Streamlit-App bietet: 

einen einfachen, geführten Upload-Prozess für Fachanwender 
eine standardisierte Ablage im Databricks Volume 
verpflichtende Metadaten (Periode, Quelle) und Testing der Datenfelder auf fehlende Daten oder Qualitätsprobleme damit Laden und Historisierung sauber funktioniert
klare Nachvollziehbarkeit, welche Datei welche Tabellen befüllt hat

Das reduziert spätere Diskussionen über “welche Datei war die richtige?” erheblich und stabilisiert gleichzeitig den gesamten Ladeprozess. 

Orchestrierung: Notebooks für Logik, Workflows für Betrieb 

Die Verarbeitung der Daten erfolgt in Python- und SQL-Notebooks, die über Databricks Workflows (Jobs) orchestriert werden. Diese Kombination trennt bewusst Entwicklung und Betrieb voneinander: Notebooks dienen der Implementierung und Weiterentwicklung der Transformationslogik, während Workflows Scheduling, Abhängigkeiten zwischen Verarbeitungsschritten sowie Monitoring und Fehlerbehandlung übernehmen. Gerade bei periodischen Ladeprozessen, etwa monatlichen Datenlieferungen, ist neben der reinen Verarbeitung vor allem entscheidend, dass Fehler und Ladezuständen reproduzierbar sind. Eine stabile Datenbasis und ein nachvollziehbarer Ladeprozess sind daher zentrale Voraussetzungen für belastbares Reporting und konsistente Kennzahlen.

Was mit der Plattform möglich wurde 

Der ursprüngliche Fokus lag auf Net Sales Reporting auf Gruppen- und BU-Ebene, der Mehrwert wird jedoch spürbar, sobald man die Daten mehrdimensional analysieren und auswerten kann. 

Multi-dimensionale Marktanalyse 

Analysen entlang von: 

Geografien (Länder und Regionen) 
Sales-Organisationen 
Sales-Teams 
Business Units

Damit lassen sich Fragen beantworten, die zuvor häufig nur mit hohem manuellen Aufwand geklärt werden konnten: Welche Regionen wachsen wirklich? Welche Organisation liefert welche Performance? Wo liegen Potenziale und wo entstehen Risiken?

Integrierte Planung und Forecasting 

Ist-Zahlen, Budget und mehrere Forecast-Stände sind in einer Struktur zusammengeführt. Das macht Abweichungsanalysen und Budget-vs.-Ist-Vergleiche konsistent und historisierbar – inklusive sauberem Performance-Tracking über Zeit. 

Globale Standardisierung 

Einheitliche Länder- und Regionshierarchien sorgen dafür, dass Analysen international vergleichbar bleiben, ohne dass jede Einheit ihre eigenen Definitionen mitbringt. 

Preis- und Margentransparenz 

Neben Gross und Net Sales werden auch Preisbestandteile und Abzüge berücksichtigt (z.B. Logistik, Boni oder Discounts). Dadurch lassen sich Margentreiber, Rabattwirkungen und Preislogik deutlich besser analysieren. 

Typische Herausforderungen – und wie sie strukturiert gelöst wurden 

Die Komplexität solcher Plattformen entsteht selten durch Dashboards, sondern durch reale Vertriebs- und Organisationsstrukturen. 

Im Projekt spielten unter anderem folgende Aspekte eine Rolle: 

Kundensegmente und Hierarchien (Direktkunden vs. Distributoren) 
Multi-Währungs-Transaktionen und FX-Effekte 
Lieferbedingungen (Incoterms) als Kosten- und Risikotreiber 
konsistente Business-Unit-Zuordnungen 
heterogene Datenquellen und Excel-Ursprünge

Entscheidend war hier ein klar definierter Validierungs- und Qualitätsansatz im Silver-Layer, ergänzt um Mapping-Logiken und strukturierte Korrekturprozesse. Das ermöglicht, dass Datenprobleme früh sichtbar werden und nicht erst im Management-Reporting entdeckt. 

Betrieb, Kosten und Governance 

Ein praktischer Vorteil der Plattform ist das Betriebsmodell: Compute wird nur bei Bedarf genutzt (Pay-as-you-go), statt dauerhaft Ressourcen vorzuhalten. 

Die Medallion-Struktur reduziert zudem Nacharbeit, da Rohdaten, bereinigte Daten und kuratierte KPIs bereits klar getrennt sind. Die Governance erfolgt über Unity Catalog mit rollenbasierten Zugriffen: Bronze und Silver sind stärker eingeschränkt, während der Gold-Layer für Reporting-Zwecke breiter zugänglich ist. Zusammen mit den Originaldateien, Ladeprotokollen und Metadaten entsteht so eine belastbare Nachvollziehbarkeit, die eine wichtige Grundlage dafür ist, dass Zahlen nicht nur verfügbar sind, sondern auch akzeptiert werden. 

Fazit 

Die Plattform liefert nicht nur Reports, sondern eine stabile Entscheidungsgrundlage: skalierbar, nachvollziehbar und konsistent in der KPI-Logik. 

Im Alltag zeigt sich der größte Effekt vor allem in zwei Punkten: Monatsdaten stehen nach dem Upload automatisiert im Reporting zur Verfügung, und internationale Strukturen lassen sich transparent analysieren. So wird Reporting weniger zu einer monatlichen Pflichtaufgabe und stärker zu einem Werkzeug für Marktsteuerung, Preisentscheidungen und belastbare Forecasts. 

Ein Lakehouse für konsistentes Net Sales Reporting

Aktuelle Beiträge

Kommentare