Data Science

Die Artikel zum Thema Data Science umfassen verschiedene statistische Analysen und Data Mining. Sie dienen der Übung und Demonstration der Möglichkeiten von Data Science. Hier sollen die statistischen Methoden erläutert sowie die Erkenntnisse der Artikel dargestellt werden.

Statistische Methoden und Data Mining

Meine Fallstudien im Bereich Data Science betreffen Data-Mining-Programme und Statistical-Learning-Programme.

Data Mining

Die zwei Data-Mining-Programme betreffen Data Mining mit Homepages (Webscrapping, vgl. Die 1057 interessantesten Data-Science-Central-Artikel nach Kategorien) und mit Twitter und Homepages (Twitterscrapping und Webscrapping, vgl. WE Alliance – Twitter Link-Scrapping Summary) sowie die automatische Generierung der HTML-Seiten als Output.

Im ersten Fall wurden alle Artikel des Multiauthorblogs Data Science Central gesucht und mit TF-IDF beschlagwortet, um manuell Kategorien zu bestimmen und die Artikel den Kategorien zuzuordnen. Dann wurde eine HTML-Seite besierend auf diesen Daten erstellt, die es erlaubt Kategorien anzuklicken und zu entsprechenden Links zu gelangen.

Im zweiten Fall wurden zunächst relevante Twitter-Hashtags rund um das Thema Wellbeing-Economics aus den Tweets unter #WellbeingEconomics extrahiert, um sodann in gewissen Zeitabständen ein Skript laufen zu lassen. Dieses Skript extrahiert alle neuen Tweets unter einem Hashtag seit dem letzten Durchlauf, extrahiert alle Artikellinks und fasste die Links mit TF-IDF zusammen. Die Ergebnisse werden in einer HTML-JavaScript seite ausgegeben. Leider kam es beim letzten Durchlauf zu einem Fehler, der die Datumsangaben überschrieben hat.

Statistical-Learning

Drei Artikel sind Fallstudien des Statistical Learnings: Glücksländer und Importance of Domain Knowledge sowie Europawachstum.

Glücksländer und Importance of Domain Knowledge

Die Artikel Glücksländer und Importance of Domain Knowledge betreffen die selbe statistische Analyse. Es wurde mittels nicht-linearer Regression unter Nutzung von Lern und Testdatensatz bzw. unter Vorgabe eines ökonomisch sinnvollen Modells eine Schätzung der Korrelation von Einkommen auf Zufriedenheit durchgeführt. Anschließend wurden die Abweichungen von der Trendlinie mit K-Means geclustert, um besonders glückliche bzw. unglückliche Länder zu gruppieren. Die Idee war, anhand dieser Länderlisten Gemeinsamkeiten und Unterschiede zu identifizieren, sodass man sinnvolle Kandidaten für eine Abweichungsanalyse identifiziert.

Mit Kommentatorenfeedback und eigener Betrachtungen konnten nun Kandidaten für eine Abweichungsanalyse gewählt und einzeln geschätzt werden (Gini-Koeffizient, Kulturdimensionen nach Hofstede und Fragility of States Index). Nach der Schätzung einzelner Kandidaten, wurde ein Gesamtmodell mit den signifikanten Daten nochmal geschätzt und auf Signifikanz untersucht. Hier wäre eine Ridge-Regression eigentlich angemessen, aber aus Zeitgründen wurde nur eine einfache Regression durchgeführt.

Europawachstum (NUTS 2)

Basierend auf Daten von Eurostat wurden einfache Wachstumsraten der Nuts 2 Regionen über längere Zeiträume kalkuliert und mittels spatialer Visualisierung visualisiert, was der Sinn der Fallstudie war, mal mit Spatialer Visualisierung zu arbeiten.

Erkenntnisse der Fallstudien

Importance of Domain Knowledge

Der Artikel Importance of Domain Knowledge macht deutlich, dass Big-Data-Algorithmen nicht mit einfachen Parametrisierungstests laufen können, sondern dass Ausreißer für jede Parametrisierung individuell zu überprüfen wären.

Glücksländer

Zufriedenheit vs. Pro-Kopf-BIP

Der Artikel Glücksländer zeigt, dass die Abweichung der Zufriedenheit für höhere Zufriedenheit unabhängig vom Einkommen durch folgende Faktoren statistisch signifikant bedingt ist:

  1. Gini-Koeffizient (je gleicher die Verteilung, desto besser)
  2. Machtdistanz (je geringer die Machtdistanz, desto besser)
  3. Unsicherheitsvermeidung (je höher die Toleranz für Unsicherheit, desto besser)
  4. Freiheitliche Kultur (je höher die freiheitliche Kultur, desto besser)
  5. Fragilität des Sicherheitsapperats (je stabiler, desto besser)
  6. Fraktionalisierte Eliten (je weniger Fraktionalisierung, desto besser)
  7. Ungleichverteilung der Wirtschaftsentwicklung (je gleicher, desto besser)
  8. Menschliche Flucht und Brain Drain (je weniger, desto besser)
  9. Fragilität staatlicher Legitimität (je legitimer, desto besser)
  10. Fragilität öffentlicher Leistungen (je stabiler, desto besser)

An diesen Punkten sollte man angreifen, sofern man die Bevölkerung einer Nation für gegebenes Einkommen zufriedener machen möchte.

Europawachstum (Nuts 2)

Während die Grafiken zur den realen und langfristigen BIP-Wachstumsraten in den Regionen Europas und dem realen BIP in den Regionen Europas des Artikels Europawachstum nicht geprüft wurden, ob die Visualisierung stimmt, stimmt die Visualisierung, die Deutschlands Regionen in über- und unterdurchschnittliche Wachstumsgebiete einteilt. Es zeigt sich, dass das östliche Ostdeutschland möglicherweise konvergiert, während andere Regionen divergieren. BIP-Wachstumsrate Deutschland nach Regionen

Blog via E-Mail abonnieren

Gib deine E-Mail-Adresse an, um diesen Blog zu abonnieren und Benachrichtigungen über neue Beiträge via E-Mail zu erhalten.