Pandas – Import dati con Pandas
In questa pagina proviamo a caricare lo stesso dataset del capitolo precedente utilizzando la libreria Pandas cercando di testare alcune funzioni base.
L’indice di questa guida è disponibile a questo link: https://computer4dummy.altervista.org/programmazione-guide-alla-programmazione/python-data-analisi/panda-per-python/
Comando read_csv
Prima cosa da fare è importare la libreria Pandas con il comando import:
import pandas as pd
Ora utilizzando il comando read_csv importiamo i dati del file CSV nel nostro array “X” .
Per maggiori dettagli e l’elenco completo degli argomenti del comando consultare questo link: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html
X = pd.read_csv("data_2d.csv", header=None) X Out[5]: 0 1 2 0 17.930201 94.520592 320.259530 1 97.144697 69.593282 404.634472 2 81.775901 5.737648 181.485108 3 55.854342 70.325902 321.773638 4 49.366550 75.114040 322.465486 .. ... ... ... 96 77.130301 95.188759 438.460586 97 68.600608 72.571181 355.900287 98 41.693887 69.241126 284.834637 99 4.142669 52.254726 168.034401 [100 rows x 3 columns]
header=None
Con il comando header=None si specifica alla funzione di import che non sono presenti righe di intestazione nel file CSV che dobbiamo importare, se volessimo escludere la prima riga nel caso includesse il nome della colonna vasterebbe specificare il numero di riga che si vuole escludere (es. header=1).
Tipi di dati
Verifichiamo ora che tipo di dati contiene la nostra variabile “X” con il comando type().
type(X) Out[7]: pandas.core.frame.DataFrame
Pandas definisce la variabile “X” con il tipo DataFrame ora man mano andremo ad approfondirne il significato e le varie funzioni.
Per prima cosa andiamo a vedere che informazioni contiene con la funzione info:
X.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 100 entries, 0 to 99 Data columns (total 3 columns): 0 100 non-null float64 1 100 non-null float64 2 100 non-null float64 dtypes: float64(3) memory usage: 2.4 KB
Con questa funzione possiamo scoprire molte informazioni come la presenza di 100 righe e tre colonne (0, 1, 2) ogni una composta da 100 numeri (Float64).
Un altra funzione utile è la funzione head() che permette di visualizzare un anteprima dei dati contenuti nel dataframe.
X.head() Out[9]: 0 1 2 0 17.930201 94.520592 320.259530 1 97.144697 69.593282 404.634472 2 81.775901 5.737648 181.485108 3 55.854342 70.325902 321.773638 4 49.366550 75.114040 322.465486
Specificano un numero come argomento della funzione è possibile definire il numero di righe da visualizzare nell’anteprima es.
X.head(7) Out[10]: 0 1 2 0 17.930201 94.520592 320.259530 1 97.144697 69.593282 404.634472 2 81.775901 5.737648 181.485108 3 55.854342 70.325902 321.773638 4 49.366550 75.114040 322.465486 5 3.192702 29.256299 94.618811 6 49.200784 86.144439 356.348093