Zum Oldenbourg Wissenschaftsverlag

Titelbild zum Beitrag: Kommandosprache
.

Kommandosprache

Stata unter Lupe

Ganz egal ob im Studium, in der Wissenschaft oder im Beruf - große Datenberge müssen immer öfter bezwungen werden. Vor einer kompetenten wissenschaftlichen Analyse steht allerdings eine statistische Aufbereitung des Datenmaterials. Häufigkeitsverteilungen, Korrelationen oder Cluster werden heute allerdings nur noch selten ausschließlich mit Hilfe eines spitzen Bleistifts gebildet. Meist nimmt man auch ein Statistikprogramm zur Hilfe. Unser economag.de Experte hat sich ein solches Pogramm genauer angeschaut und taucht ein in die Welt der Befehle, Kommandos und Grafiken.

Von Dr. phil. Ulrich Kohler, Wissenschaftszentrum Berlin

.

PDFDiesen Beitrag als PDF.

.

Stata ist eine Software zur Bearbeitung und statistischen Auswertung großer Datenmengen. Bekannte Mitbewerber von Stata sind SPSS, SAS und S-Plus. Auf die grundlegenden Eigenschaften und Funktionsweisen von Stata soll im Folgenden das Augenmerk gelegt werden und damit auch eine Antwort auf die Frage gegeben werden, wann es Sinn macht beim Bearbeiten und Auswerten von Daten auf Stata zu setzen.

Großes Repertoire: der Befehlsumfang

Stata richtet sich vor allem an Anwender aus dem wissenschaftlichen Bereich. Der Schwerpunkt der implementierten Auswertungsverfahren liegt auf statistischen Modellen. Implementiert sind alle geläufigen Regressionsmodelle für kontinuierliche, binäre, ordinale und multinomiale abhängige Variablen sowie zahlreiche speziellere Verfahren für Paneldaten, Ereignisdaten, Zeitreihen und Daten mit hierarchischen Strukturen („Multilevel-Modelle"). Daneben finden sich multivariate Verfahren wie dieFaktorenanalyse, Clusteranalyse, multidimensionale Skalierung und Korrespondenzanalyse. Besonders hervorzuheben sind die zahlreichen Möglichkeiten zur korrekten Standardfehlerberechnung für Daten aus komplexen Stichproben.

Der Befehlsumfang von Stata wird ergänzt durch Kommandos, die von Stata-Anwendern programmiert werden. Diese Kommandos werden am Boston-College archiviert und können auf einfache Weise nachinstalliert werden.

Eine Vorliebe der Stata-Anwender: die Kommandos

Stata kann sowohl über Menüs als auch über eine Kommandosprache bedient werden. Praktisch alle Stata-Anwender verwenden die Kommandosprache, das heißt sie geben Kommandos in Form von Zahlen, Buchstaben oder Worten in ein dafür vorgesehenes Textfenster ein. Die Vorliebe der Stata-Anwender für die Kommandosprache liegt einerseits an ihrer dokumentarischen Qualität, andererseits daran, dass die Sprache sehr einfach zu erlernen ist. Benötigt werden lediglich allgemeine Kenntnisse über die wenigen Bausteine, aus denen die Stata-Kommandos zusammengesetzt werden. Die wichtigsten dieser Bausteine sind: Befehl, Variablenliste, if-Bedingung und Option.

Mit dem Befehl wird die Prozedur angefordert, welche Stata ausführen soll. Der Befehl summarize dient dazu, Mittelwerte und Standardabweichungen zu berechnen, regress berechnet eine lineare Regression und logit eine logistische Regression.

Die Variablenliste ist eine durch Leerzeichen getrennte Liste von Variablennamen. Mit ihr wird der Anwendungsbereich eines Befehls auf die angegebenen Variablen eingegrenzt. Mit

summarize income age bdauer

würde man zum Beispiel Mittelwerte und Standardabweichungen der Variablen „income", „age" und „bdauer" ausweisen. Bei statistischen Modellen ist immer der zuerst genannte Variablenname die abhängige Variable. Der Befehl

regress income age bdauer

berechnet daher eine lineare Regression des Einkommens gegen das Alter und die Bildungsdauer. Entsprechend verfährt man mit allen anderen Modellen. Zur Berechnung eines Logit-Modells würde man also lediglich regress durch logit ersetzen.

Mit der if-Bedingung wird die Ausführung eines Befehls auf diejenigen Beobachtungen eingeschränkt, für welche die if-Bedingung wahr ist. Dadurch lässt sich z.B. die gerade gezeigte Regression auf Personen unter 65 Jahren eingrenzen:

regress income age bdauer if age < 65

Ebenso werden if-Bedingungen an beliebige andere Stata-Befehle angehängt.

Die Option dient der näheren Spezifikation eines Befehls. Ein Komma markiert den Punkt in einem Kommando, an dem die Optionen beginnen. Dies kann zum Beispiel so aussehen:

summarize income age bdauer, detail

Hierdurch würden detaillierte deskriptive Statistiken angefordert.

Die Steuerung von Stata mit der Kommandozeile verlangt nicht unbedingt viel Tipparbeit. Viele Befehle, und die meisten Optionen können abgekürzt werden; das Gleiche gilt für Variablennamen. Wer will, kann obigen Befehl auch so schreiben:

su inc a bd, d

Wenn man nicht mehr weiter weiß: die Hilfe

Hilfe zu Stata-Befehlen erhält man durch die Menüs, den Befehl help, oder den Befehl search. Spezifiziert man ein Stata-Kommando durch Anklicken eines Menüs, wird die dem Menüpunkt entsprechende Kommandozeile ausgegeben. Gibt man den Befehl help gefolgt vom Namen eines Stata-Befehls ein, erhält man eine Erläuterung der verschiedenen Varianten und Optionen dieses Befehls. Ist der Name eines Befehls für ein bestimmtes statistisches Verfahren nicht bekannt, so hilft der Befehl search. Die Eingabe von „search" gefolgt von einem Stichwort sucht nach Stata-Befehlen, die mit der eingegebenen Statistik zusammenhängen.

Weitere Hilfe erhält man von der unten beschriebenen User-Community.

 

Auf einen Blick: die Grafik

Stata kennt sieben grundlegende Grafiktypen: Histogramm, Kuchendiagramm, Balkendiagram, Dot-Chart, Box-Plot, Twoway und Scatterplot-Matrix. Daneben sind eine Vielzahl spezieller statistischer Grafiken implementiert.

Der Twoway-Grafiktyp ist von besonderer Bedeutung, da mit ihm die Überlagerung verschiedener Ebenen möglich ist. Hierbei werden verschiedene Plots gezeichnet, die dann ähnlich wie Overheadfolien übereinander gelegt werden. Abbildung 1 zeigt ein Beispiel, bei dem - in dieser Reihenfolge - Balkengrafik, Streudiagramm, Pfeildiagramm und Liniendiagramm überlagert wurden.

Durch das Überlagern von Plots in Twoway-Grafiken ergibt sich eine enorme Anzahl von sehr unterschiedlichen Anwendungsgebieten. So lässt sich hierdurch zum Beispiel auch das Zeichnen von thematischen Landkarten realisieren.

Eine lebendige Welt: die Community

Stata ist nicht nur ein Datenanalyseprogramm, sondern stellt auch eine Programmierumgebung bereit. Viele Stata-Anwender machen davon regen Gebrauch und sind in ständigem Austausch untereinander. Mit den Jahren hat sich so eine sehr aktive User-Community entwickelt. Diese betreibt unter anderem eine eigene Zeitschrift („Stata Journal"), ein E-Mail-Diskussionsforum („Statalist") in dem man Hilfe zur Arbeit rund um Stata erhält und ein Archiv für zusätzliche Stata-Module („SSC-Archiv"). Die deutsche User-Community veranstaltet einmal jährlich das „German Stata Users' Group Meeting".

Je nach Zielgruppe unterschiedlich: die Kosten

Der Anschaffungspreis von Stata lässt sich schwer pauschal wiedergeben, da sich die Angebote zwischen akademischen und industriellen Kunden stark unterscheiden. Hier nur einige Preisbeispiele. Die Version „Intercooled Stata", mit der Datensätze bis 2047 Variablen ohne Fallzahlbegrenzung bearbeitet werden können, kostet als Einzellizenz derzeit zwischen 410 und 1050 Euro; eine Studentenlizenz kostet 82,27 Euro. Der Preis für eine Netzwerk-Lizenz für 10 User beträgt zwischen 1800 und 4040 Euro und die Ausstattung eines ausschließlich zu Ausbildungszwecken eingesetzten Computerlabors mit 10 Lizenzen kostet 880 Euro. Weitere Auskünfte erteilt der Distributor von Stata in Deutschland: http://www.dpc.de

 

Autor

Dr. phil. Ulrich Kohler ist am Wissenschaftszentrum Berlin tätig.

.
.