Data Science

Die Artikel zum Thema Data Science umfassen verschiedene statistische Analysen und Data Mining. Sie dienen der Übung und Demonstration der Möglichkeiten von Data Science. Hier sollen die statistischen Methoden erläutert sowie die Erkenntnisse der Artikel dargestellt werden.

Statistische Methoden und Data Mining

Meine Fallstudien im Bereich Data Science betreffen Data-Mining-Programme und Statistical-Learning-Programme.

Data Mining

Die zwei Data-Mining-Programme betreffen Data Mining mit Homepages (Webscrapping, vgl. Die 1057 interessantesten Data-Science-Central-Artikel nach Kategorien) und mit Twitter und Homepages (Twitterscrapping und Webscrapping, vgl. WE Alliance – Twitter Link-Scrapping Summary) sowie die automatische Generierung der HTML-Seiten als Output.

Im ersten Fall wurden alle Artikel des Multiauthorblogs Data Science Central gesucht und mit TF-IDF beschlagwortet, um manuell Kategorien zu bestimmen und die Artikel den Kategorien zuzuordnen. Dann wurde eine HTML-Seite besierend auf diesen Daten erstellt, die es erlaubt Kategorien anzuklicken und zu entsprechenden Links zu gelangen.

Im zweiten Fall wurden zunächst relevante Twitter-Hashtags rund um das Thema Wellbeing-Economics aus den Tweets unter #WellbeingEconomics extrahiert, um sodann in gewissen Zeitabständen ein Skript laufen zu lassen. Dieses Skript extrahiert alle neuen Tweets unter einem Hashtag seit dem letzten Durchlauf, extrahiert alle Artikellinks und fasste die Links mit TF-IDF zusammen. Die Ergebnisse werden in einer HTML-JavaScript seite ausgegeben. Leider kam es beim letzten Durchlauf zu einem Fehler, der die Datumsangaben überschrieben hat.

Statistical-Learning

Drei Artikel sind Fallstudien des Statistical Learnings: Glücksländer und Importance of Domain Knowledge sowie Europawachstum.

Glücksländer und Importance of Domain Knowledge

Die Artikel Glücksländer und Importance of Domain Knowledge betreffen die selbe statistische Analyse. Es wurde mittels nicht-linearer Regression unter Nutzung von Lern und Testdatensatz bzw. unter Vorgabe eines ökonomisch sinnvollen Modells eine Schätzung der Korrelation von Einkommen auf Zufriedenheit durchgeführt. Anschließend wurden die Abweichungen von der Trendlinie mit K-Means geclustert, um besonders glückliche bzw. unglückliche Länder zu gruppieren. Die Idee war, anhand dieser Länderlisten Gemeinsamkeiten und Unterschiede zu identifizieren, sodass man sinnvolle Kandidaten für eine Abweichungsanalyse identifiziert.

Mit Kommentatorenfeedback und eigener Betrachtungen konnten nun Kandidaten für eine Abweichungsanalyse gewählt und einzeln geschätzt werden (Gini-Koeffizient, Kulturdimensionen nach Hofstede und Fragility of States Index). Nach der Schätzung einzelner Kandidaten, wurde ein Gesamtmodell mit den signifikanten Daten nochmal geschätzt und auf Signifikanz untersucht. Hier wäre eine Ridge-Regression eigentlich angemessen, aber aus Zeitgründen wurde nur eine einfache Regression durchgeführt.

Europawachstum (NUTS 2)

Basierend auf Daten von Eurostat wurden einfache Wachstumsraten der Nuts 2 Regionen über längere Zeiträume kalkuliert und mittels spatialer Visualisierung visualisiert, was der Sinn der Fallstudie war, mal mit Spatialer Visualisierung zu arbeiten.

Erkenntnisse der Fallstudien

Importance of Domain Knowledge

Der Artikel Importance of Domain Knowledge macht deutlich, dass Big-Data-Algorithmen nicht mit einfachen Parametrisierungstests laufen können, sondern dass Ausreißer für jede Parametrisierung individuell zu überprüfen wären.

Glücksländer

Zufriedenheit vs. Pro-Kopf-BIP

Der Artikel Glücksländer zeigt, dass die Abweichung der Zufriedenheit für höhere Zufriedenheit unabhängig vom Einkommen durch folgende Faktoren statistisch signifikant bedingt ist:

  1. Gini-Koeffizient (je gleicher die Verteilung, desto besser)
  2. Machtdistanz (je geringer die Machtdistanz, desto besser)
  3. Unsicherheitsvermeidung (je höher die Toleranz für Unsicherheit, desto besser)
  4. Freiheitliche Kultur (je höher die freiheitliche Kultur, desto besser)
  5. Fragilität des Sicherheitsapperats (je stabiler, desto besser)
  6. Fraktionalisierte Eliten (je weniger Fraktionalisierung, desto besser)
  7. Ungleichverteilung der Wirtschaftsentwicklung (je gleicher, desto besser)
  8. Menschliche Flucht und Brain Drain (je weniger, desto besser)
  9. Fragilität staatlicher Legitimität (je legitimer, desto besser)
  10. Fragilität öffentlicher Leistungen (je stabiler, desto besser)

An diesen Punkten sollte man angreifen, sofern man die Bevölkerung einer Nation für gegebenes Einkommen zufriedener machen möchte.

Europawachstum (Nuts 2)

Während die Grafiken zur den realen und langfristigen BIP-Wachstumsraten in den Regionen Europas und dem realen BIP in den Regionen Europas des Artikels Europawachstum nicht geprüft wurden, ob die Visualisierung stimmt, stimmt die Visualisierung, die Deutschlands Regionen in über- und unterdurchschnittliche Wachstumsgebiete einteilt. Es zeigt sich, dass das östliche Ostdeutschland möglicherweise konvergiert, während andere Regionen divergieren. BIP-Wachstumsrate Deutschland nach Regionen

Blog via E-Mail abonnieren

Gib deine E-Mail-Adresse an, um diesen Blog zu abonnieren und Benachrichtigungen über neue Beiträge via E-Mail zu erhalten.

Sozialkapitalismus im IT-Zeitalter (Utilitismus)

Einleitung

Es gibt bis jetzt zwei grundsätzliche Ansätze um das Versorgungsproblem eines sozialen Systems zu lösen, den Kapitalismus und den Sozialismus. Aus ökonomischer Perspektive nutzt der Kapitalismus das individuelle streben nach Nutzen, um Arbeit für die ökonomische Nutzenerstellung bereitzustellen, während er Privateigentum garantiert, während der Sozialismus soziales Eigentum kennt und das Interesse an einem funktionierenden System (mittelbarer Nutzen) dazu nutzt, Arbeit für die ökonomische Nutzenerstellung bereitzustellen. Viele Menschen sind der Überzeugung, dass der Kapitalismus sich durchgesetzt hat und der Sozialismus nicht effizient funktioniert.

Durch die technologische Entwicklung in IT-Hardware, Cluster-Algorithmen und selbstlernender Algorithmen, entstehen flexible Lösungsautomaten basierend auf den besten Verfahren, die bekannt sind, und menschliche Arbeit wird zum Teil und möglicherweise irgendwann im Potential substituiert. Es gibt derzeit eine große Debatte darum, wie sich die Gesellschaft im Kontext zunehmender flexibler Automatisierung menschlicher Arbeit entwickelt.

Mir ist aufgefallen, dass die Probleme des Sozialismus in Bezug auf die Leistungsmotivation und Regelkonformität durch flexible Automatisierung lösbar sind. Ein abgeleitetes Modell möchte ich hier vorstellen und zur Diskussion vorlegen.

Automatisierte Unternehmen

Ich unterscheide in meiner Betrachtung, basierend auf meiner ökonomischen Intuition, automatisierte Unternehmen und Humanunternehmen.

Betriebliche Funktionen, die optimal oder mit der besten bekannten Heuristik “lösbar” sind, werden per Gesetz verpflichtend in automatisierte Unternehmen ausgelagert, die jedes Humanunternehmen in Anspruch nehmen muss (Regulation), um die betriebliche Funktion zu erfüllen.

Wie funktioniert das? Es werden sich meines Erachtens automatisierte privatwirtschaftliche Unternehmen entwickeln und diese sollte der Staat aufkaufen und mit einer automatischen Preissetzungslogik und Investitionslogik ausstatten. Um die Wohlfahrt zu maximieren sollte die Preissetzungslogik den Konkurrenzpreis basieren auf kurzfristigen Prognosen simulieren und mit einem Gewinnaufschlag versehen. Dieser Gewinnaufschlag wird im Wesentlichen als bedingungsloses Grundeinkommen / negative Einkommenssteuer an die Bevölkerung ausgezahlt, sodass sich in einem demokratischen Prozess der Abwägung zwischen Einkommen und Konsummöglichkeiten der Gewinnaufschlag bestimmt.

Die Automatisierung eröffnet die Möglichkeit, die automatisierten Unternehmen unter regulatorische Restriktion zu stellen, die absolut bindend und durchsetzbar ist. Das ist meines derzeitigen Erachtens genauso wohlfahrtsoptimal wie eine Pigue-Steuer um Externalitäten zu “internalisieren”, erzeugt aber zusätzlich ein bedingungsloses Grundeinkommen / eine negative Einkommenssteuer.

Meinem bisherigen Verständnis des Nachhaltigkeitsbegriffs nach bedeutet das, dass automatisierte Unternehmen sequenziell optimiert werden sollten, und zwar beginnend mit einer ökologischen Optimierung auf die die Optimierung entsprechend der betrieblichen Funktion folgt. Der europäischen Zielsetzung der sozialen Nachhaltigkeit wird die Systemkonfiguration von sich aus gerecht.

Diese automatisierten Unternehmen befinden sich also im Staatseigentum und ihre verteilbaren Gewinne werden gleichmäßig auf die Bevölkerung als bedingungsloses Grundeinkommen / negative Einkommensteuer verteilt.

Es verbleibt ein privatwirtschaftlicher Anreiz die automatisierten Unternehmen zu optimieren, um den Preis senken zu können und so mehr “Share-of-Wallet” zu erzielen, also Anteil am Budget der Konsumenten. Gleichwohl können die automatisierten Unternehmen logisch und empirisch innoviert werden, weil sie Algorithmen sind, deren Leistung messbar ist.

Humanunternehmen

Humanunternehmen übernehmen Kreativitätsleistungen, zwischenmenschliche Leistungen und Innovationen. Sie befinden sich systemisch in einem klassischen Kapitalismus unter der Nebenbedingung automatisierte Unternehmen für bestimmte betriebliche Funktionen nutzen zu müssen, und haben deswegen in Bezug auf sich selbst klassische Innovationsanreize. Die Anreize automatisierte Unternehmen zu bilden ergeben sich aus dem Aufkaufsgebot für den Staat. Die Anreize für die Verbesserung von zu nutzenden automatisierten Unternehmen ergeben sich aus der oben angeführten Share-of-Wallet-Optimierung.

Abschätzung von Konsequenzen

Humanunternehmen erzeugen möglicherweise nicht genug Arbeitskapazität und die strukturelle Arbeitslosenquote steigt. Arbeitslose werden jedoch durch die Umverteilung der Erträge von automatisierten Unternehmen finanziert (Verteilungsgerechtigkeit). Es bestehen allerdings nach wie vor individuelle Anreize, das Einkommen durch Arbeit zu erhöhen (Leistungsgerechtigkeit). Humanunternehmen erzeugen entsprechend der kapitalistische Funktionsweise nach wie vor ökonomischen Fortschritt und Variantenvielfalt (ökonomische Nachhaltigkeit). Die Bedingungen des Kapitalismus stehen jedoch in Verbindung mit einer z. B. ökologischen Restriktion, Staatspräferenzen können in Teile des kapitalistischen Systems verbindlich installiert werden (Moralisierung des Kapitalismus durch Staatsorganisation).

Wenn wir unterstellen, dass die Menge von Fortschritt und vernünftiger Variantenvielfalt ermöglichender Faktoren begrenzt ist, aber alle Probleme irgendwann gelöst werden können, konvergiert das System gegen einen Sozialismus basierend auf kapitalistischem Versorgungssystem ohne Arbeit, der sich nach den individuellen Präferenzen der Menschen richtet, sofern die Staatsorganisation die Variante nicht indirekt eingeschränkt hat (das ist etwas anderes als Planwirtschaft).

Restriktionen

Ein Staat der dieses System individuell, also nicht in globaler Koordination einführen möchte, müsste sehr wahrscheinlich Importe beschränken und verminderte Exporte in kauf nehmen.

In einem demokratischen Prozess würde das bedingungslose Grundeinkommen / die negative Einkommenssteuer seiner Höhe nach entsprechend der Möglichkeiten definiert. Hieraus resultiert die “Gefahr”, dass ab einer gewissen Automatisierungsquote auf den kapitalistischen Teil der Wirtschaftsordnung verzichtet wird, um den Konsum erhöhen zu können. Dies wäre eine vorgenerationenopportunistische Verhaltensweise, die mit Erziehung eingedämmt werden könnte. Diese Erziehung ist jedoch nicht anreizkompatibel.

Blog via E-Mail abonnieren

Gib deine E-Mail-Adresse an, um diesen Blog zu abonnieren und Benachrichtigungen über neue Beiträge via E-Mail zu erhalten.