Pandas-Tutorial

Pandas ist eine unter BSD-Lizenz lizenzierte Open-Source-Software Python Datenanalyse-Support-Bibliothek, die für die Programmiersprache Python leistungsstarke, einfach zu verwendende Datenstrukturen und Analysewerkzeuge bereitstellt. Python mit Pandas wird in breitgefächerten Bereichen verwendet, einschließlich der Wissenschaft, des Handels, der Finanzen, der Ökonomie, der Statistik und der Analyse. Pandas ist ein leistungsstarkes Werkzeugset zur Analyse strukturierter Daten; seine Basis ist Numpy (das leistungsstarke Matrixrechnungen bereitstellt); es wird für Datenmining und Datenanalyse verwendet und bietet auch Datenreinigungsfunktionen. In diesem教程, werden wir die verschiedenen Funktionen von Python Pandas sowie deren praktische Anwendung erlernen.

Dieses Tutorial ist für Personen gedacht, die die grundlegenden Kenntnisse und Funktionen von Pandas lernen möchten. Es ist besonders nützlich für Personen, die sich mit Datenbereinigung und -analyse beschäftigen. Nach Abschluss dieses Tutorials sollten Sie über ein mittleres Fachwissen verfügen und auf einem höheren Niveau spezialisiert werden können.

Bevor Sie Pandas lernen, sollten Sie grundlegende Kenntnisse über Computerprogrammierungstermine haben. Ein grundlegendes Verständnis für jede Programmiersprache ist ein Pluspunkt. Das pandas-Bibliothek nutzt die meisten Funktionen von NumPy. Es wird empfohlen, zuerst Tutorials über NumPy zu lesen, bevor Sie mit diesem Tutorial fortfahren.

Pandas ist geeignet für die Verarbeitung der folgenden Arten von Daten:

Tabellen mit heterogenen Spalten, ähnlich SQL- oder Excel-Tabellen; Elemente von NumPy-Arrays müssen das gleiche Datentyp haben, daher haben sie in der Speichergröße die gleiche Größe. Geordnete und ungeordnete (nicht fest gefrequente) Zeitreihendaten; Matrizen mit Zeilen- und Spaltenkennzeichnern, einschließlich homogener oder heterogener Daten; Observations- und Datenmengen in jeder anderen Form, bei der Daten in Pandas-Datenstrukturen überführt werden, müssen nicht vorher markiert werden.

Warum Pandas verwenden?

Die Hauptdatenstrukturen von Pandas sind Series (einfach dimensionale Daten) und DataFrame (zweidimensionale Daten), diese beiden Datenstrukturen reichen aus, um die meisten typischen Anwendungsfälle in Bereichen wie Finanzen, Statistik, Sozialwissenschaften und Ingenieurwesen zu bewältigen. Für R-Nutzer bietet DataFrame mehr Funktionen als die data.frame in der R-Sprache. Pandas wurde auf Basis von NumPy entwickelt und kann mit anderen wissenschaftlichen Berechnungslibraries nahtlos integriert werden. Pandas ist wie ein universelles Schweizer Messer, und hier werden nur einige seiner Vorteile aufgelistet:

Verarbeitung von fehlenden Daten in fließenden und nicht-fließenden Daten, dargestellt als NaN; Veränderliche Größe: Spalten in DataFrame und anderen mehrdimensionalen Objekten einfügen oder löschen; Automatische und explizite Datenausrichtung: Objekte werden explizit mit einer Gruppe von Tags ausgerichtet, es kann auch auf die Tags verzichtet werden, und die Ausrichtung mit Daten erfolgt automatisch bei der Berechnung von Series und DataFrame; Kraftvolle und flexible Gruppierungsfunktion (group by): Aufteilen-Anwendung-Kombinieren von Datensätzen, Aggregieren und Konvertieren von Daten; Unregelmäßige und unterschiedlich indizierte Daten in Python- und NumPy-Datenstrukturen können problemlos in DataFrame-Objekte umgewandelt werden; Durch die Verwendung von intelligenten Tags können Operationen wie Schneiden, stylisierte Indizes und Untermengenzerlegung in großen Datensätzen durchgeführt werden; direkt zusammenführen (merge),**verbinden (join)**Datenmengen; flexibel neu gestalten (reshape),**Perspektive (pivot)**Datenmengen; Achsen unterstützen strukturierte Tags: Ein Maßstabskaliber unterstützt mehrere Tags; Ausgereifte IO-Tools: Lesen von Textdateien (CSV und andere durch Trennzeichen unterstützte Dateien), Excel-Dateien, Datenbanken und anderen Quellen, Nutzung der extrem schnellen HDF-5 Format speichern / Daten laden; Zeitserien: Unterstützung der Generierung von Datumsbereichen, Frequenzumwandlung, mobiles Fensterstatistik, mobiles Fensterlineares Regression, Datumsverschiebung und andere Zeitreihenfunktionen.

Diese Funktionen sind hauptsächlich entwickelt, um die Schmerzpunkte anderer Programmiersprachen und Forschungsumgebungen zu lösen. Die Verarbeitung von Daten gliedert sich in mehrere Phasen: Datenorganisation und -reinigung, Datenanalyse und Modellierung, Datenvisualisierung und Tabellenkreation, Pandas ist das ideale Werkzeug für die Datenverarbeitung.

Andere Anmerkungen:

Pandas ist schnell. Viele der grundlegenden Algorithmen von Pandas sind mit Cython optimiert. Allerdings muss man für die Allgemeingültigkeit einige Leistung opfern, und wenn man sich auf eine Funktion konzentriert, kann man spezielle Werkzeuge entwickeln, die schneller als Pandas sind. Pandas ist Abhängigkeit von statsmodels und ist ein wichtiger Bestandteil des statistischen Berechnungssystems in Python. Pandas wird weit verbreitet in der Finanzbranche eingesetzt.

Einfaches Beispiel von Pandas

Beispiel

　　$　pip　install　pandas
　　$　python　-i
　　>>>　pandaspd
　>>>　df　=　pd.()　
　>>>　print(df)
　　Leere　DataFrame
　Spalten:　[]
　Index:　[]

Pandas SQL-Operationen