Zum Oldenbourg Wissenschaftsverlag

Titelbild zum Beitrag: Erheben, aufbereiten und auswerten
.

Erheben, aufbereiten und auswerten

Was leistet die deskriptive Statistik?

Die deskriptive Statistik setzt nicht wie die induktive auf die Wahrscheinlichkeitsrechnung. Sie erhebt vielmehr Daten, bereitet sie auf und wertet sie letztendlich auch aus. Ein Mainzer Professor zeigt anhand des Beispiels der Einkommensverteilung in Deutschland exemplarisch auf, was die deskriptive Statistik zu leisten vermag. Erfahrt mehr über den Mittelwert, die Varianz, so genannte Schiefemaße sowie den Korrelationskoeffizienten - allesamt wichtige Maßzahlen der deskriptiven Statistik.

Von Univ.-Professor Dr. Peter M. Schulze, Johannes Gutenberg-Universität Mainz

.

Diesen Beitrag als PDF.

.

Marktforschung im Unternehmen, Infrastrukturplanung in einer Region oder Analysen zum Außenhandel einer Volkswirtschaft beruhen - sofern sie empirischer Natur sind - auf Daten der Wirtschafts- und Sozialstatistik. Solche auf konkrete Fragestellungen bezogenen sozioökonomischen Sachverhalte müssen allerdings, bevor sie ausgewertet werden können, zunächst beobachtet und vor allem gemessen werden. 

Üblicherweise unterscheidet man zwischen deskriptiver (beschreibender) und induktiver (schließender) Statistik. Letztere führt auf der Grundlage der Wahrscheinlichkeitsrechung von einer beobachteten Stichprobe zum Schluss auf die unbekannte Gesamtheit. Die deskriptive Statistik umfasst dagegen die statistischen Verfahren zur Erhebung, Aufbereitung und Auswertung von Daten aus einer Gesamtheit über räumlich und zeitlich fixierte Zustände oder Vorgänge.

Dabei wird die Fülle der Ursprungsdaten zu einem bestimmten Zeitpunkt in tabellarischer beziehungsweise graphischer Form präsentiert und/oder mittels weniger, aber charakteristischer Maßzahlen gekennzeichnet. Ebenso kann die Analyse von in Zeitreihenform vorliegenden Daten von Interesse sein. 

Es lassen sich aber auch Zusammenhänge zwischen verschiedenen Datenreihen quantifizieren. Wie die Analyse im Einzelnen aussehen mag, am Schluss sollte immer eine auf die Fragestellung bezogene Interpretation der numerischen Resultate stehen. Diese beziehen sich nur auf die betrachtete Gesamtheit, Rückschlüsse auf zum Beispiel übergeordnete Gesamtheiten sind hierbei nicht zulässig.


Alles beginnt mit einer Frage

Es lassen sich fünf Phasen in einer deskriptiven statistischen Analyse unterscheiden: Am Anfang steht die Planung mit der Präzisierung der Fragestellung. Auch wenn dies banal klingt, ist dies oft in der Praxis alles andere als einfach. Der Grund: Im Bereich der Wirtschafts- und Sozialwissenschaften gibt es eine Vielzahl von  theoretischen Begriffen, die wegen ihres hohen Abstraktionsgrades nicht direkt gemessen werden können. Ein gutes Beispiel ist die „Inflationsrate". Ist das Problem präzise formuliert, folgt im zweiten Schritt die Datengewinnung. Dies kann durch eine eigene Datenerhebung oder durch Rückgriff auf bereits existierendes Datenmaterial erfolgen. Da das Datenmaterial in seiner ursprünglichen Form oft zu unübersichtlich ist, wird es im dritten Schritt häufig in Tabellenform zusammengefasst und/oder in graphischen Darstellungen veranschaulicht. Meist werden im vierten Schritt die Daten auf einige charakteristische Kennzahlen, wie zum Beispiel Mittelwerte oder Streuungsmaße, reduziert. Den fünften und letzten Schritt bildet die Interpretation der gefundenen Resultate vor dem Hintergrund der in Schritt Eins erfolgten Fragestellung.


Im Folgenden soll anhand einiger weniger Beispiele demonstriert werden, was die deskriptive Statistik zu leisten vermag. Zunächst für einen Sachverhalt, der zeitpunktbezogen ist, dann für ein Merkmal, das im Zeitablauf registriert wird und zum Schluss für die Zusammenhänge zwischen zwei Merkmalen.

1. Datenreihe im Zeitquerschnitt

Wir wollen die Bruttomonatseinkommen von Arbeitnehmern in Deutschland im Jahr 2001 charakterisieren. Es liegen Zahlen des Statistischen Bundesamtes vor, so dass in Phase Zwei Tabelle 1 für die Verteilung der Einkommen in klassierter Form erstellt und eine graphische Darstellung in Form eines Histogramms (Abbildung 1) angefertigt werden kann.

 

Quelle: Statistisches Bundesamt, Gehalts- und Lohnstrukturerhebung 2001 (Campus-File) http://www.forschungsdatenzentrum.de/bestand/gls/cf/2001/index.asp, Stand 21.01.2008, Abruf 02.04.2008

Hieraus lässt sich zunächst als wichtigster Mittelwert das gewogene arithmetische Mittel

 

mit

ermitteln, wobei fi die Zahl der Arbeitnehmer in den jeweiligen Einkommensklassen als Gewichtungsfaktoren und xi* die zugehörigen Klassenmitten der Einkommen darstellen, k ist die Zahl der Einkommensklassen.


Was ist ein Histogramm?

Ein Histogramm oder Blockdiagramm ist die grafische Darstellung der Haufigkeitsverteilung quantitativ-stetiger Merkmale. Solche sind zum Beispiel Einkommen, Arbeitsstunden oder Umsätze.


Mit den Werten aus Tabelle 1 ergibt sich

das heißt das durchschnittliche Bruttomonatseinkommen der betrachteten Arbeitnehmer in Deutschland lag 2001 bei ca. 2306 €. Weitere Mittelwerte, die hier berechnet werden könnten, sind der Zentralwert/Median (Wert, der die Häufigkeitsverteilung in zwei gleich große Hälften teilt) und der Häufigste Wert/Modus (Wert der Häufigkeitsverteilung, der mit der größten Häufigkeit auftritt).[1]

Als Vertreter einer zweiten wichtigen Gruppe von Maßzahlen lässt sich ein Streuungsmaß berechnen, die empirische Standardabweichung als Wurzel aus der empirischen Varianz:

Hier müssen zunächst die quadratischen Abweichungen der xi*-Werte von dem unter (1) bestimmten Mittelwert berechnet und vor der Aufsummierung mit den Faktoren fi gewichtet werden. Nach diesen Zwischenrechnungen folgt S=1359,93. Um das mittlere Einkommen von 2306 € im Jahr 2001 gibt es eine durch (2) gemessene durchschnittliche Abweichung nach oben und unten von etwa 1360 €.

Da Einkommensverteilungen typischerweise Asymmetrien beziehungsweise. Konzentrationen aufweisen, lassen sich hierfür entsprechende charakteristische Kennzahlen bestimmen. Um die Schiefe/Asymmetrie einer empirischen Häufigkeitsverteilung zu kennzeichnen, können Schiefemaße berechnet werden, zum Beispiel

wobei Z den oben erwähnten Zentralwert darstellt. Er lässt sich hier mit Z = 2163 € berechnen. Mit Hilfe der soweit berechneten Größen erhält man dann ein Schiefemaß von 0,32. Dies ist als dimensionslose Maßzahl - im Gegensatz zu (1) und (2) - nicht mehr in Euro, sondern nur vor dem Hintergrund des Wertebereichs zu interpretieren:

Bei Null liegt eine symmetrische Verteilung vor, bei einem Wert größer Null eine linkssteile, bei einem Wert kleiner Null eine rechtssteile Verteilung. Hier handelt es sich demnach um eine linkssteile Verteilung, das heißt es gibt eine größere Häufung bei den unteren Einkommen, was sich auch in Abbildung 1 zeigt.

2. Eine Datenreihe im Zeitablauf

Betrachten wir nun in Abbildung 2 für die Analyse im Zeitablauf als zweites Beispiel die Entwicklung des durchschnittlichen Stundenverdienstes in Deutschland seit der Wiedervereinigung mit den zugehörigen Daten. Beispielhaft werden hier die Wirtschaftszweige „Öffentliche und private Dienstleister" und „Baugewerbe" dargestellt.

 

Abb. 2: Durchschnittlicher Stundenverdienst je Arbeitnehmer im Baugewerbe und im Dienstleistungssektor 1991-2007
Quelle: Statistisches Bundesamt, Fachserie 18 Reihe 1.5 (2007)

Es ist ein stetiger Anstieg der Monatseinkommen seit 1991 im Dienstleistungssektor zu verzeichnen. Man spricht von einem - hier positiven - Trend, der mit geeigneten Methoden quantifiziert werden kann, und der die grundlegende langfristige Entwicklung der Zeitreihenwerte anzeigt.

Oft wird die Entwicklung einer Zeitreihe auch durch mittelfristige konjunkturelle Einflüsse bestimmt, wie sich dies im Baugewerbe zunächst durch einen Anstieg, ab 1996 durch einen Rückgang und ab 2003 durch einen stagnierenden Verlauf andeutet. Diese lang- und mittelfristigen Trend- und Konjunkturkomponenten lassen sich zur Glatten Komponente zusammenfassen. Bei unterjährigen Reihen, also zum Beispiel Quartalsdaten, finden sich oft Saisonfaktoren, die die innerhalb eines Jahres auftretenden, durch jahreszeitliche Änderungen bedingten Einflüsse widerspiegeln. Die Erfassung und Ausschaltung dieser Saisonkomponenten ist deshalb von Bedeutung, weil man häufig an der Entwicklung einer von saisonalen Faktoren unbeeinflussten Zeitreihe interessiert ist.

3. Zusammenhänge zwischen zwei Datenreihen

Auch wenn die Analyse einzelner Datenreihen - entweder im Querschnitt zur Zeit oder entlang der Zeitachse - ein wichtiger erster Schritt ist, so interessiert man sich bei sozioökonomischen Fragestellungen häufig auch für die Zusammenhänge/Abhängigkeiten zwischen zwei (oder mehr) Datenreihen. Hier könnte man zum Beispiel untersuchen, ob in den beiden unter 2. betrachteten Wirtschaftszweigen zwischen dem Verdienst je Arbeitnehmer und der Arbeitsproduktivität (Produktionsoutput bezogen auf den Arbeitsinput) ein Zusammenhang besteht.

Zur Messung des Outputs selbst bedarf es statistischer Instrumente, hier der Indexzahlen.[2] Die Arbeitsproduktivität stellt deshalb auch eine Indexzahl dar. Ein Maß, das die Stärke des Zusammenhangs misst, stellt der Korrelationskoeffizient

 

zur Verfügung. Dabei sind die xi und yi  (i=1, 2,..., N) die Beobachtungswerte der jeweiligen Datenreihen und

die zugehörigen (ungewogenen) arithmetischen Mittel. Liegt der Wert

nahe bei Null gibt es keinen Zusammenhang zwischen beiden Datenreihen. Liegt der Wert nahe bei +/- 1, so spricht man von einem starken positiven/negativen Zusammenhang.

Hier soll beispielhaft die Korrelation zwischen der Arbeitsproduktivität je Arbeitsstunde und dem durchschnittlichen Stundenverdienst (in €) je Arbeitnehmer (siehe Abbildung 2) in den beiden betrachteten Wirtschaftszweigen berechnet werden. Abbildung 3 zeigt die Daten und den zeitlichen Verlauf der Arbeitsproduktivitäten.

Abb. 3: Arbeitsproduktivitäten im Baugewerbe und im Dienstleistungssektor 1991-2007
Quelle: Statistisches Bundesamt, Fachserie 18 Reihe 1.5 (2007)

Nach (4) ergibt sich im Dienstleistungssektor ein

von 0,979 und im Baugewerbe von 0,154. Damit zeigt sich bei den Dienstleistungen ein sehr starker positiver Zusammenhang zwischen der Entwicklung der Arbeitsproduktivität und den Stundenlöhnen, im Baugewerbe existiert ein solcher Zusammenhang hingegen nicht.

Möchte man wissen, ob sich zwischen beiden Merkmalen eine funktionale Abhängigkeit quantifizieren lässt, so kann man eine Regressionsanalyse durchführen.[3]

 

Autor

Universitätsprofessor Dr. Peter M. Schulze ist Inhaber des Lehrstuhls für Statistik und Ökonometrie und Leiter des gleichnamigen Instituts an der Johannes Gutenberg-Universität Mainz.

 

Literatur

Schulze, P.M., Beschreibende Statistik, 6. korr. u. akt. Aufl., München/Wien (Oldenbourg) 2007.

 


 

[1] Zur Berechnung dieser beiden Werte vgl. Schulze (2007) S. 36 ff., S. 43 ff.

[2] Vgl. Schulze (2007) Kap. 6.

[3] Vgl. Schulze (2007), Kap. 3.3.

.
.