English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Pandas Data Structures

Pandas hat drei gebräuchliche Datenstrukturen

Series DataFrame Panel

Diese Datenstrukturen sind auf Numpy-Arrays aufgebaut, was bedeutet, dass sie alle sehr schnell laufen.

Vergleich von Python, Numpy und Pandas

Python

list: Standard-Datentyp von Python, hauptsächlich ein-dimensional, einfache Funktionen, geringe Effizienz Dict: Standard-Datentyp von Python, mehrdimensionale Schlüssel-Wert-Paare, geringe Effizienz

Numpy

ndarray: Basisdatentyp von Numpy, einheitlicher Datentyp Beachtet die Datenstruktur/Operation/Dimension (Beziehung zwischen Daten)

Pandas

Series:1Dimension, ähnlich einem mit Index.1ndarray, Dimension DataFrame:2Dimension, tabellarischer Datentyp, ähnlich einem mit Zeilen-/Spaltenindizes.2ndarray, Dimension, beachtet das Verhältnis zwischen Daten und Index (reale Anwendung der Daten)

Im Vergleich von Praktikabilität, Funktionalität und Handhabbarkeit: list < ndarray < Series/DataFrame

In der Arbeit der Datenreduktion und -analyse dient ndarray als notwendige Ergänzung, und die meisten Daten sollten尽量使用Pandas-Datentypen.

Der beste Weg, diese Datenstrukturen zu betrachten, ist, dass die hochdimensionalen Datenstrukturen Behälter der niedrigeren Dimensionen sind. Zum Beispiel ist DataFrame ein Behälter für Series, und Panel ist ein Behälter für DataFrame.

Datenstruktur DimensionErklärung
Series1Für ein-dimensionalen Daten, die eine Sequenz speichern.
Data Frames2DataFrame als komplexere Datenstruktur wird zur Speicherung mehrdimensionaler Daten verwendet.
Panel3Allgemein3D-Label, Array mit veränderlicher Größe.

Das Erstellen und Verarbeiten von zwei-dimensionalen Arrays ist eine mühselige Aufgabe, und beim Schreiben von Funktionen müssen die Benutzer über die Richtung des Datensatzes nachdenken. Aber mit den Datenstrukturen von Pandas kann die Anstrengung der Benutzer verringert werden.
For example, for table data (DataFrame), considering the index (row) and column semantically is more than considering axis 0 and axis1is more helpful on top.

Variability

All Pandas data structures are variable (can be changed), except for Series, whose size is invariant.

Note -DataFrame is widely used and is one of the most important data structures. Panels are used much less.

Series

Series is a one-dimensional array-like structure with uniform data. For example, the following series is an integer10,23,56...

10235617526173902672

Series is a one-dimensional array-like structure with uniform data. For example, the following series is an integer10,23,56...

Key Points

Of the Same Type Size is Invariant Variable Data Values

Data Frames

A DataFrame is a two-dimensional array with heterogeneous data. For example,

NameAgeGenderRating
Steve32Male3.45
Lia28Female4.6
Vin45Male3.9
Katie38Female2.78

The table above represents the data of the sales team of the organization and its overall performance rating, represented by rows and columns, where each column represents an attribute and each row represents a person.

Data Type of Column
ColumnType
Name String
Age Integer
Gender String
Rating Float
Key Points

Heterogeneous Data Size is Invariant Data is Variable

Panel

A Panel is a three-dimensional data structure with heterogeneous data. It is difficult to represent a panel graphically. However, a panel can be described as a container for DataFrames.

Key Points

Heterogeneous Data Size is Variable Data is Variable