Seleziona più colonne in panda

Seleziona più colonne in panda

Discuteremo di panda a Python, una libreria open source che offre strutture di dati ad alte prestazioni e strumenti di analisi dei dati pronti per l'uso. Impareremo anche a conoscere i dati di dati, i vantaggi dei panda e come è possibile utilizzare i panda per selezionare più colonne di un frame dati . Iniziamo!

Cos'è Panda in Python?

Pandas è una biblioteca open source di Python. Offre strutture e strumenti efficienti per l'analisi dei dati pronti per l'uso. Panda è un modulo Python che opera in cima a Numpy ed è ampiamente utilizzato per la scienza dei dati e l'analisi. Numpy è un'altra serie di strutture di dati di basso livello in grado di gestire array multidimensionali e una varietà di operazioni matematiche di array. I panda hanno un'interfaccia utente più avanzata. Ha anche una solida funzionalità di serie temporali e un efficiente allineamento dei dati tabulari. La struttura dati primaria di Pandas è il telaio. Una struttura di dati 2D ci consente di archiviare e modificare i dati tabulari. I panda forniscono qualsiasi funzionalità al telaio di dati come manipolazione dei dati, concatenazione, fusione, raggruppamento, ecc.

Cos'è un frame di dati?

La struttura dei dati più essenziale e ampiamente utilizzata è il frame dati. È un metodo comune di archiviazione dei dati. DataFrame memorizza i dati in righe e colonne, proprio come una tabella SQL o un database di fogli di calcolo.

Vantaggi dei panda

Molti utenti desiderano che il SQL abbia incluso funzionalità come la generazione di numeri casuali gaussiani o quantili perché lottano per incorporare una nozione procedurale in una query SQL. Gli utenti possono dire: "Se solo potessi scrivere questo in Python e tornare rapidamente a SQL" e Panda fornisce un tipo di dati tabulare con interfacce ben progettate che consentono loro di fare esattamente questo. Esistono più opzioni verbose, come l'utilizzo di un linguaggio procedurale specifico come il PLPGSQL di Oracle o PLPGSQL di Postgres o un'interfaccia di database di basso livello. I panda hanno un'interfaccia di lettura SQL a una linea (PD.Leggi SQL) e un'interfaccia di scrittura SQL con un liner (PD.a SQL), paragonabile ai frame di dati R.

Un altro vantaggio significativo è che le librerie di grafici come Seaborn possono trattare le colonne della cornice di dati come attributi grafici di alto livello. Quindi, i panda forniscono un modo ragionevole di gestire i dati tabulari in Python e alcune API di archiviazione e grafico meravigliose.

Opzione 1: utilizzando l'indice della chiave di base

1
2
3
4
5
6
7
8
9
10
Importa panda come PD
data = 'name': ['a', 'b', 'c', 'd',
'Age': [27, 24, 22, 32]
df = pd.DataFrame (dati)
df [['name', 'age']

Produzione:

1
2
3
4
5
6
7
8
9
Nome età
0 a 27
1 b 24
2 c 22
3 d 32

Opzione 2: usando .loc []

1
2
3
4
5
6
7
8
9
10
11
12
13
14
Importa panda come PD
Data = 'Fruit': ['Apple', 'Banana', 'Grapes', 'Orange'],
'Price': [160, 100, 60, 80]
df = pd.DataFrame (dati)
df.loc [0: 2, ['frutto', 'prezzo']]

Produzione:

1
2
3
4
5
6
7
8
9
Prezzo di frutta
0 Apple 160
1 banana 100
2 uva 60
3 Orange 80

Opzione 3: usando .iloc []

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Importa panda come PD
data = 'dog': ['a', 'b', 'c', 'd',
'Age': [2, 4, 3, 1]
df = pd.DataFrame (dati)
df.Iloc [:, 0: 2]

Produzione:

1
2
3
4
5
6
7
8
9
Età del cane
0 a 2
1 b 4
2 C 3
3 d 1

Opzioni 4: utilizzando .ix []

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Importa panda come PD
data = 'name': ['a', 'b', 'c', 'd',
'Roll Number': [21, 25, 19, 49]
df = pd.DataFrame (dati)
Stampa (df.ix [:, 0: 2])

Produzione:

1
2
3
4
5
6
7
8
9
Numero rullo di nome
0 a 21
1 b 25
2 C 19
3 d 49

Conclusione

Abbiamo discusso di Panda in Python, The DataFrame, i vantaggi dei panda e come utilizzare i panda per selezionare più colonne di un frame dati. Esistono quattro opzioni che abbiamo discusso nella selezione di più colonne: usando l'indicizzazione della chiave di base, ".ix ",".loc "e".iloc ", rispettivamente.