Ein Lakehouse für konsistentes Net Sales Reporting
- Michelle Schulz
- vor 3 Tagen
- 5 Min. Lesezeit
Aktualisiert: vor 2 Tagen
Wie eine global aufgestellte Pharma Company (API Producer) mit einem Azure-Databricks-Lakehouse ihr Net-Sales-Reporting konsolidiert hat inklusive zentralen KPI-Definitionen und einem kontrollierten Excel-Upload.

Waleed Saleem
Projektleiter und Senior Analytics Engineer
Ziel war es, Net-Sales-KPIs, Budget- und Forecast-Daten sowie weitere Steuerungsgrößen auf einer Plattform zusammenzuführen.
Das Ergebnis: schnellere Monatsabschlüsse, weniger Diskussionen über Zahlen und eine Datengrundlage, auf der Analysen über Länder, Business Units und Sales-Strukturen hinweg verlässlich funktionieren.
Als international aufgestellter Entwicklungs- und Herstellungsdienstleister für führende Pharma- und Biotech-Unternehmen, kann genau diese internationale Realität, Steuerung und Reporting anspruchsvoll gestalten. Wenn Business Units (BUs), Länderorganisationen, Sales-Teams und Märkte parallel arbeiten, entstehen Daten schnell in unterschiedlichen Strukturen, Definitionen und Granularitäten. Gleichzeitig erwarten Management, Finance/Controlling sowie BU- und Sales-Leitungen monatlich verlässliche Zahlen: Net Sales auf Gruppen- und BU-Ebene, Budget-vs.-Ist, Forecast-Stände, Abweichungsanalysen und natürlich die Möglichkeit, schnell Fehler zu finden, wenn etwas nicht passt.
In einem aktuellen Projekt haben wir deshalb eine standardisierte, DWH basierte Reportinglösung aufgebaut, die Net-Sales-KPIs und zentrale Steuerungsgrößen (u. a. CAPEX, FTE sowie Budget-/Planungsstände) konsistent bereitstellt. Ziel war nicht einfach ein weiteres Dashboard zu erstellen, sondern eine Plattform, die Monatsdaten schnell verarbeitet, die Struktur des Gesamtprozesses stabiler und sicherer hält und Entscheidungen messbar beschleunigt.
Warum haben wir uns dabei für Azure Databricks entschieden?
Die zentrale Architekturentscheidung fiel auf einen Lakehouse-Ansatz mit Azure Databricks.
Nicht aus Trendgründen, sondern weil Databricks Datenaufnahme, Transformation und Bereitstellung in einem skalierbaren Stack zusammenführt und sich gleichzeitig sauber in das Azure-Ökosystem integriert, sowohl bei Themen wie Security, als auch Identity oder Monitoring.
Gerade für Reporting-Plattformen, die sich kontinuierlich weiterentwickeln im Sinne von neuen KPIs, zusätzlichen Quellen oder weiteren Dimensionen, ist diese Kombination entscheidend: skalierbar, kontrollierbar und ohne dass Erweiterungen zu einer Sammlung von Sonderlösungen führen.
Technisch basiert die Lösung auf einer modernen Databricks-Lakehouse-Architektur:
Delta Lake für zuverlässige, transaktionale Tabellen im Data Lake
Medallion-Architektur mit klaren Schichten (Bronze, Silver, Gold)
Unity Catalog für Governance und rollenbasierte Zugriffe
Databricks Jobs/Workflows für Orchestrierung inklusive Logging und Fehlerhandling
Power BI als Frontend über das Databricks SQL Warehouse
Der entscheidende Punkt: KPI-Logik gehört nicht verteilt in mehrere Power-BI-Dateien, sondern zentral dorthin, wo Datenqualität, Governance und Nachvollziehbarkeit kontrollierbar sind – in den Gold-Layer des Lakehouse.
Das Setup: Bronze, Silver, Gold – und warum diese Trennung hilft
Die Medallion Architektur ist kein theoretisches Architekturmodell, sondern eine sehr praktische Antwort auf typische Datenprobleme: manuelle Excel-Quellen, unterschiedliche Definitionen, wechselnde Datenlieferungen oder fehlende Identifikatoren.

Bronze: Rohdaten mit Rückverfolgbarkeit
Excel-Dateien werden monatlich von Fachanwendern über eine Streamlit-App hochgeladen. Die Anwendung erzwingt dabei einen kontrollierten Upload inklusive Metadaten (z. B. Periode und Quelle) und legt die Originaldateien standardisiert in einem Databricks Volume als Landing Zone ab.
Von dort werden die Dateien in den Bronze-Layer geladen – als Delta-Rohdaten, inklusive klarer Rückverfolgbarkeit zur Ursprungsdatei. Die Originaldateien bleiben dabei vollständig erhalten. Das klingt unspektakulär, wird aber entscheidend, wenn später nachvollzogen werden muss, warum sich beispielsweise eine Zahl verändert hat.
Silver: Bereinigung, Typisierung und Qualitätsregeln
Im Silver-Layer werden die Daten dann bereinigt und operationalisiert: Typisierung, Standardisierung, Mapping-Logik und Harmonisierung. Hier greifen ebenso Validierungen und Qualitätsregeln, um Abweichungen frühzeitig zu erkennen und nachvollziehbar zu behandeln.
Dazu gehören beispielsweise:
Schema-Checks
Pflichtfeldvalidierungen
Dublettenlogik
Referenzabgleiche gegen Dimensionstabellen
Periodenkonsistenz
Gerade bei Excel-basierten Quellen ist dieser Schritt unverzichtbar.
Gold: Business-fertige Tabellen und KPIs
Im Gold-Layer entstehen kuratierte Tabellen und Views, die als stabile Grundlage für Reporting und Analyse dienen. Hier werden die fachlichen Definitionen zentraler Kennzahlen – etwa Net Sales und weiterer Steuerungs-KPIs – standardisiert umgesetzt. Power BI greift auf diese Strukturen direkt zu und baut darauf das semantische Modell und die Visualisierung auf. Dadurch basiert die Analyse über Gruppen-, BU- und Länderebene hinweg auf einer gemeinsamen, konsistenten Datenbasis. Power BI (Power Query / M-Code) greift dabei über Catalog → Schema → Tabelle auf Databricks SQL Warehouse zu.
Excel-Upload ohne Chaos: Streamlit als kontrolliertes Einfallstor
Wie bisher beschrieben, scheitern viele Reporting-Projekte weniger an komplexen Datenplattformen als an scheinbar kleinen Dingen wie Excel-Dateien, die unterschiedliche Vorlagen, manuelle Anpassungen oder fehlende Metadaten haben.
Deshalb wurde der Upload-Prozess bewusst als Teil der Lösung gestaltet.
Die Streamlit-App bietet:
einen einfachen, geführten Upload-Prozess für Fachanwender
eine standardisierte Ablage im Databricks Volume
verpflichtende Metadaten (Periode, Quelle) und Testing der Datenfelder auf fehlende Daten oder Qualitätsprobleme damit Laden und Historisierung sauber funktioniert
klare Nachvollziehbarkeit, welche Datei welche Tabellen befüllt hat
Das reduziert spätere Diskussionen über “welche Datei war die richtige?” erheblich und stabilisiert gleichzeitig den gesamten Ladeprozess.
Orchestrierung: Notebooks für Logik, Workflows für Betrieb
Die Verarbeitung der Daten erfolgt in Python- und SQL-Notebooks, die über Databricks Workflows (Jobs) orchestriert werden. Diese Kombination trennt bewusst Entwicklung und Betrieb voneinander: Notebooks dienen der Implementierung und Weiterentwicklung der Transformationslogik, während Workflows Scheduling, Abhängigkeiten zwischen Verarbeitungsschritten sowie Monitoring und Fehlerbehandlung übernehmen. Gerade bei periodischen Ladeprozessen, etwa monatlichen Datenlieferungen, ist neben der reinen Verarbeitung vor allem entscheidend, dass Fehler und Ladezuständen reproduzierbar sind. Eine stabile Datenbasis und ein nachvollziehbarer Ladeprozess sind daher zentrale Voraussetzungen für belastbares Reporting und konsistente Kennzahlen.
Was mit der Plattform möglich wurde
Der ursprüngliche Fokus lag auf Net Sales Reporting auf Gruppen- und BU-Ebene, der Mehrwert wird jedoch spürbar, sobald man die Daten mehrdimensional analysieren und auswerten kann.
Multi-dimensionale Marktanalyse
Analysen entlang von:
Geografien (Länder und Regionen)
Sales-Organisationen
Sales-Teams
Business Units
Damit lassen sich Fragen beantworten, die zuvor häufig nur mit hohem manuellen Aufwand geklärt werden konnten: Welche Regionen wachsen wirklich? Welche Organisation liefert welche Performance? Wo liegen Potenziale und wo entstehen Risiken?
Integrierte Planung und Forecasting
Ist-Zahlen, Budget und mehrere Forecast-Stände sind in einer Struktur zusammengeführt. Das macht Abweichungsanalysen und Budget-vs.-Ist-Vergleiche konsistent und historisierbar – inklusive sauberem Performance-Tracking über Zeit.
Globale Standardisierung
Einheitliche Länder- und Regionshierarchien sorgen dafür, dass Analysen international vergleichbar bleiben, ohne dass jede Einheit ihre eigenen Definitionen mitbringt.
Preis- und Margentransparenz
Neben Gross und Net Sales werden auch Preisbestandteile und Abzüge berücksichtigt (z.B. Logistik, Boni oder Discounts). Dadurch lassen sich Margentreiber, Rabattwirkungen und Preislogik deutlich besser analysieren.
Typische Herausforderungen – und wie sie strukturiert gelöst wurden
Die Komplexität solcher Plattformen entsteht selten durch Dashboards, sondern durch reale Vertriebs- und Organisationsstrukturen.
Im Projekt spielten unter anderem folgende Aspekte eine Rolle:
Kundensegmente und Hierarchien (Direktkunden vs. Distributoren)
Multi-Währungs-Transaktionen und FX-Effekte
Lieferbedingungen (Incoterms) als Kosten- und Risikotreiber
konsistente Business-Unit-Zuordnungen
heterogene Datenquellen und Excel-Ursprünge
Entscheidend war hier ein klar definierter Validierungs- und Qualitätsansatz im Silver-Layer, ergänzt um Mapping-Logiken und strukturierte Korrekturprozesse. Das ermöglicht, dass Datenprobleme früh sichtbar werden und nicht erst im Management-Reporting entdeckt.
Betrieb, Kosten und Governance
Ein praktischer Vorteil der Plattform ist das Betriebsmodell: Compute wird nur bei Bedarf genutzt (Pay-as-you-go), statt dauerhaft Ressourcen vorzuhalten.
Die Medallion-Struktur reduziert zudem Nacharbeit, da Rohdaten, bereinigte Daten und kuratierte KPIs bereits klar getrennt sind. Die Governance erfolgt über Unity Catalog mit rollenbasierten Zugriffen: Bronze und Silver sind stärker eingeschränkt, während der Gold-Layer für Reporting-Zwecke breiter zugänglich ist. Zusammen mit den Originaldateien, Ladeprotokollen und Metadaten entsteht so eine belastbare Nachvollziehbarkeit, die eine wichtige Grundlage dafür ist, dass Zahlen nicht nur verfügbar sind, sondern auch akzeptiert werden.
Fazit
Die Plattform liefert nicht nur Reports, sondern eine stabile Entscheidungsgrundlage: skalierbar, nachvollziehbar und konsistent in der KPI-Logik.
Im Alltag zeigt sich der größte Effekt vor allem in zwei Punkten: Monatsdaten stehen nach dem Upload automatisiert im Reporting zur Verfügung, und internationale Strukturen lassen sich transparent analysieren. So wird Reporting weniger zu einer monatlichen Pflichtaufgabe und stärker zu einem Werkzeug für Marktsteuerung, Preisentscheidungen und belastbare Forecasts.
Kommentare