English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Pandas hat drei gebräuchliche Datenstrukturen
Series DataFrame Panel
Diese Datenstrukturen sind auf Numpy-Arrays aufgebaut, was bedeutet, dass sie alle sehr schnell laufen.
list: Standard-Datentyp von Python, hauptsächlich ein-dimensional, einfache Funktionen, geringe Effizienz Dict: Standard-Datentyp von Python, mehrdimensionale Schlüssel-Wert-Paare, geringe Effizienz
ndarray: Basisdatentyp von Numpy, einheitlicher Datentyp Beachtet die Datenstruktur/Operation/Dimension (Beziehung zwischen Daten)
Series:1Dimension, ähnlich einem mit Index.1ndarray, Dimension DataFrame:2Dimension, tabellarischer Datentyp, ähnlich einem mit Zeilen-/Spaltenindizes.2ndarray, Dimension, beachtet das Verhältnis zwischen Daten und Index (reale Anwendung der Daten)
Im Vergleich von Praktikabilität, Funktionalität und Handhabbarkeit: list < ndarray < Series/DataFrame
In der Arbeit der Datenreduktion und -analyse dient ndarray als notwendige Ergänzung, und die meisten Daten sollten尽量使用Pandas-Datentypen.
Der beste Weg, diese Datenstrukturen zu betrachten, ist, dass die hochdimensionalen Datenstrukturen Behälter der niedrigeren Dimensionen sind. Zum Beispiel ist DataFrame ein Behälter für Series, und Panel ist ein Behälter für DataFrame.
Datenstruktur | Dimension | Erklärung |
Series | 1 | Für ein-dimensionalen Daten, die eine Sequenz speichern. |
Data Frames | 2 | DataFrame als komplexere Datenstruktur wird zur Speicherung mehrdimensionaler Daten verwendet. |
Panel | 3 | Allgemein3D-Label, Array mit veränderlicher Größe. |
Das Erstellen und Verarbeiten von zwei-dimensionalen Arrays ist eine mühselige Aufgabe, und beim Schreiben von Funktionen müssen die Benutzer über die Richtung des Datensatzes nachdenken. Aber mit den Datenstrukturen von Pandas kann die Anstrengung der Benutzer verringert werden.
For example, for table data (DataFrame), considering the index (row) and column semantically is more than considering axis 0 and axis1is more helpful on top.
All Pandas data structures are variable (can be changed), except for Series, whose size is invariant.
Note -DataFrame is widely used and is one of the most important data structures. Panels are used much less.
Series is a one-dimensional array-like structure with uniform data. For example, the following series is an integer10,23,56...
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Series is a one-dimensional array-like structure with uniform data. For example, the following series is an integer10,23,56...
Of the Same Type Size is Invariant Variable Data Values
A DataFrame is a two-dimensional array with heterogeneous data. For example,
Name | Age | Gender | Rating |
Steve | 32 | Male | 3.45 |
Lia | 28 | Female | 4.6 |
Vin | 45 | Male | 3.9 |
Katie | 38 | Female | 2.78 |
The table above represents the data of the sales team of the organization and its overall performance rating, represented by rows and columns, where each column represents an attribute and each row represents a person.
Column | Type |
Name | String |
Age | Integer |
Gender | String |
Rating | Float |
Heterogeneous Data Size is Invariant Data is Variable
A Panel is a three-dimensional data structure with heterogeneous data. It is difficult to represent a panel graphically. However, a panel can be described as a container for DataFrames.
Heterogeneous Data Size is Variable Data is Variable