Pandas – Import dati con Pandas

In questa pagina proviamo a caricare lo stesso dataset del capitolo precedente utilizzando la libreria Pandas cercando di testare alcune funzioni base.
L’indice di questa guida è disponibile a questo link: https://computer4dummy.altervista.org/programmazione-guide-alla-programmazione/python-data-analisi/panda-per-python/

Comando read_csv

Prima cosa da fare è importare la libreria Pandas con il comando import:

import pandas as pd

Ora utilizzando il comando read_csv importiamo i dati del file CSV nel nostro array “X” .
Per maggiori dettagli e l’elenco completo degli argomenti del comando consultare questo link: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

X = pd.read_csv("data_2d.csv", header=None)

X
Out[5]: 
            0          1           2
0   17.930201  94.520592  320.259530
1   97.144697  69.593282  404.634472
2   81.775901   5.737648  181.485108
3   55.854342  70.325902  321.773638
4   49.366550  75.114040  322.465486
..        ...        ...         ...
96  77.130301  95.188759  438.460586
97  68.600608  72.571181  355.900287
98  41.693887  69.241126  284.834637
99   4.142669  52.254726  168.034401

[100 rows x 3 columns]

header=None

Con il comando header=None si specifica alla funzione di import che non sono presenti righe di intestazione nel file CSV che dobbiamo importare, se volessimo escludere la prima riga nel caso includesse il nome della colonna vasterebbe specificare il numero di riga che si vuole escludere (es. header=1).

Tipi di dati

Verifichiamo ora che tipo di dati contiene la nostra variabile “X” con il comando type().

type(X)
Out[7]: pandas.core.frame.DataFrame

Pandas definisce la variabile “X” con il tipo DataFrame ora man mano andremo ad approfondirne il significato e le varie funzioni.

Per prima cosa andiamo a vedere che informazioni contiene con la funzione info:

X.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 3 columns):
0    100 non-null float64
1    100 non-null float64
2    100 non-null float64
dtypes: float64(3)
memory usage: 2.4 KB

Con questa funzione possiamo scoprire molte informazioni come la presenza di 100 righe e tre colonne (0, 1, 2) ogni una composta da 100 numeri (Float64).

Un altra funzione utile è la funzione head() che permette di visualizzare un anteprima dei dati contenuti nel dataframe.

X.head()
Out[9]: 
           0          1           2
0  17.930201  94.520592  320.259530
1  97.144697  69.593282  404.634472
2  81.775901   5.737648  181.485108
3  55.854342  70.325902  321.773638
4  49.366550  75.114040  322.465486

Specificano un numero come argomento della funzione è possibile definire il numero di righe da visualizzare nell’anteprima es.

X.head(7)
Out[10]: 
           0          1           2
0  17.930201  94.520592  320.259530
1  97.144697  69.593282  404.634472
2  81.775901   5.737648  181.485108
3  55.854342  70.325902  321.773638
4  49.366550  75.114040  322.465486
5   3.192702  29.256299   94.618811
6  49.200784  86.144439  356.348093

Comando read_csv

header=None

Tipi di dati

Aspetta!!! Leggi queste due righe