Statistik mit R
R als Programmiersprache hat bereits eine lange und erfolgreiche
Geschichte hinter sich und weiß auch durch seinen Funktionsumfang
sowie weitere Aspekte zu beeindrucken.
Statistische Analysen mit R
Mit dem Core-Paket von R und den Paketen, die schon bei einer
Standardinstallation von R vorhanden sind, kann man die gängigen
Analysen aus deskriptiver Statistik und induktiver Statistik
durchführen. Weitere der über 5000 vorhandenen Pakete erlauben
es, auch seltene und für einzelne Anwendungsbereiche hin
optimierte Analysen durchzuführen. Multivariate Verfahren mit
gängigen Fragestellungen oder sehr branchenbezogenen Techniken
sind dann genauso möglich wie Data Mining.
R als Programmiersprache
Es sind zwar für R einige wenige Softwarepakete verfügbar,
welche Standardanalysen über eine grafische Oberfläche
ermöglichen, aber der Standard ist das R-Skript. Es ist
gleichzeitig der technische Grund, warum in R so viele Analysen
möglich sind, und warum die erstmalige Verwendung von R eine
große Hürde darstellt. Auf der einen Seite kann man beliebige
Aufgaben für den Import und Export sowie die Integration und
Bereinigung von Daten bis hin zu ihrer Analyse und der Ausgabe
komplexer Diagramme automatisieren. Auf der anderen Seite hat
man hier auch keine andere Wahl. Man ist gezwungen,
Datenintegration und die statistische Datenanalyse in einem
R-Skript durchzuführen. Hierbei müssen sich Anwender/innen
zunächst mit allgemeiner Programmierlogik und speziell mit der
R-Syntax beschäftigen und diese erlernen.
Open Source
Neben der Vielzahl an verfügbaren Analysepaketen in R ist wohl
die Tatsache, dass R als Open Source-Technologie veröffentlicht
wird und damit kostenlos ist, ein zentraler Grund für die
Beliebtheit von R. Andere Systeme und Lösungen stellen eine
finanzielle Hürde dar, wenn beim erstmaligen intensiven Einsatz
von Statistik und Data Mining sofort hohe Anfangsinvestitionen
zu tätigen sind. Diese entfallen bei R und auch bei den über
5000 Paketen für statistische Analysen oder für allgemeine
Datenverarbeitung.
Datenbanken und R
Wir bieten eine 360-Grad-Unterstützung bei der Datenanalyse an. Hier
schließen wir auch Datenbanken wie MS SQL Server, Oracle und IBM DB2
ein. Diese Systeme bieten eingebaute Statistik- und
Datenanalysefunktionen oder lassen sich durch geeignete Produkte
ergänzen. Wir helfen Ihnen, Ihre Daten und Ihre Analysen mit den
großen Datenbanken zu integrieren.
Oracle
In der Oracle Datenbank gibt es eine von Version zur Version
zunehmende Anzahl von statistischen Funktionen. Über diese
direkt in der DB implementierten Funktionen kann man dann
Berechnungen der deskriptiven Statistik, Korrelationsanalyse,
Kreuztabellen mit Chi-Quadrat-Statistik, Hypothesentests oder
Anpassungstests durchführen und auch anspruchsvollere Techniken
wie lineare Regression und Varianzanalyse (ANOVA) verwenden
Mehr
lesen
MS SQL Server
In MS SQL Server sind nur wenige statistische Funktionen fest
eingebaut, sodass man nur sehr einfache deskriptive Kennwerte
erhält. Verwendet man aber ein Paket wie „XLeratorDB - Statistics
Package“, dann kann man tatsächlich deskriptive und induktive
Statistik wie auch Korrelation und Kontingenz sowie
Regressionsanalyse direkt in T-SQL durchführen und daher
Funktionen, Prozeduren oder Sichten programmieren, welche
statistische Analysen durchführen.
Mehr
lesen