SQL Operations in Pandas Pandas Installation

Pandas Data Structures

Pandas hat drei gebräuchliche Datenstrukturen

Series DataFrame Panel

Diese Datenstrukturen sind auf Numpy-Arrays aufgebaut, was bedeutet, dass sie alle sehr schnell laufen.

Vergleich von Python, Numpy und Pandas

Python

list: Standard-Datentyp von Python, hauptsächlich ein-dimensional, einfache Funktionen, geringe Effizienz Dict: Standard-Datentyp von Python, mehrdimensionale Schlüssel-Wert-Paare, geringe Effizienz

Numpy

ndarray: Basisdatentyp von Numpy, einheitlicher Datentyp Beachtet die Datenstruktur/Operation/Dimension (Beziehung zwischen Daten)

Pandas

Series:1Dimension, ähnlich einem mit Index.1ndarray, Dimension DataFrame:2Dimension, tabellarischer Datentyp, ähnlich einem mit Zeilen-/Spaltenindizes.2ndarray, Dimension, beachtet das Verhältnis zwischen Daten und Index (reale Anwendung der Daten)

Im Vergleich von Praktikabilität, Funktionalität und Handhabbarkeit: list < ndarray < Series/DataFrame

In der Arbeit der Datenreduktion und -analyse dient ndarray als notwendige Ergänzung, und die meisten Daten sollten尽量使用Pandas-Datentypen.

Der beste Weg, diese Datenstrukturen zu betrachten, ist, dass die hochdimensionalen Datenstrukturen Behälter der niedrigeren Dimensionen sind. Zum Beispiel ist DataFrame ein Behälter für Series, und Panel ist ein Behälter für DataFrame.

Datenstruktur	Dimension	Erklärung
Series	1	Für ein-dimensionalen Daten, die eine Sequenz speichern.
Data Frames	2	DataFrame als komplexere Datenstruktur wird zur Speicherung mehrdimensionaler Daten verwendet.
Panel	3	Allgemein3D-Label, Array mit veränderlicher Größe.

Das Erstellen und Verarbeiten von zwei-dimensionalen Arrays ist eine mühselige Aufgabe, und beim Schreiben von Funktionen müssen die Benutzer über die Richtung des Datensatzes nachdenken. Aber mit den Datenstrukturen von Pandas kann die Anstrengung der Benutzer verringert werden.
For example, for table data (DataFrame), considering the index (row) and column semantically is more than considering axis 0 and axis1is more helpful on top.

Variability

All Pandas data structures are variable (can be changed), except for Series, whose size is invariant.

Note -DataFrame is widely used and is one of the most important data structures. Panels are used much less.

Series

Series is a one-dimensional array-like structure with uniform data. For example, the following series is an integer10,23,56...

10	23	56	17	52	61	73	90	26	72

Series is a one-dimensional array-like structure with uniform data. For example, the following series is an integer10,23,56...

Key Points

Of the Same Type Size is Invariant Variable Data Values

Data Frames

A DataFrame is a two-dimensional array with heterogeneous data. For example,

Name	Age	Gender	Rating
Steve	32	Male	3.45
Lia	28	Female	4.6
Vin	45	Male	3.9
Katie	38	Female	2.78

The table above represents the data of the sales team of the organization and its overall performance rating, represented by rows and columns, where each column represents an attribute and each row represents a person.

Data Type of Column

Column	Type
Name	String
Age	Integer
Gender	String
Rating	Float

Key Points

Heterogeneous Data Size is Invariant Data is Variable

Panel

A Panel is a three-dimensional data structure with heterogeneous data. It is difficult to represent a panel graphically. However, a panel can be described as a container for DataFrames.

Key Points

Heterogeneous Data Size is Variable Data is Variable

SQL Operations in Pandas Pandas Installation

Pandas-Tutorial

Pandas Data Structures

Vergleich von Python, Numpy und Pandas

Variability

Series

Data Frames

Panel