Effettuare il parsing di un file Excel è una delle operazioni più comuni nell'ambito della gestione dei dati. Python offre numerose librerie che rendono questo processo estremamente semplice ed efficiente. In questo articolo, vedremo come usare la libreria pandas e openpyxl per leggere e analizzare un file Excel.
Per prima cosa, è necessario installare le librerie utili per la lettura e la gestione dei file Excel. Le due librerie più comuni sono:
- pandas: una potente libreria per la manipolazione dei dati.
- openpyxl: utilizzata da pandas per gestire file Excel in formato
.xlsx
.
Puoi installarle usando pip
:
pip install pandas openpyxl
La funzione più semplice per leggere un file Excel con pandas è read_excel()
. Vediamo un esempio di base:
import pandas as pd
# Leggere il file Excel
df = pd.read_excel('nome_file.xlsx')
# Visualizzare le prime righe del file
print(df.head())
In questo esempio, df
è un DataFrame che contiene i dati letti dal file Excel. Il metodo .head()
stampa le prime righe per avere un'anteprima dei dati.
Un file Excel può contenere più fogli di lavoro. Se desideri specificare quale foglio leggere, puoi usare il parametro sheet_name
. Ecco come fare:
# Leggere un foglio specifico dal file Excel
df = pd.read_excel('nome_file.xlsx', sheet_name='Foglio1')
# O specificare il numero del foglio (partendo da 0)
df = pd.read_excel('nome_file.xlsx', sheet_name=0)
Se hai bisogno di leggere più fogli contemporaneamente, pandas
ti consente di farlo facilmente passando una lista di nomi o indici di fogli:
# Leggere più fogli in un dizionario
dfs = pd.read_excel('nome_file.xlsx', sheet_name=['Foglio1', 'Foglio2'])
# Ora 'dfs' è un dizionario con chiavi i nomi dei fogli e valori i DataFrame
print(dfs['Foglio1'].head())
In molti casi, potresti essere interessato a lavorare solo con alcune colonne del file Excel. Puoi usare il parametro usecols
per selezionare le colonne che ti servono.
# Leggere colonne specifiche
df = pd.read_excel('nome_file.xlsx', usecols=['Colonna1', 'Colonna2'])
print(df.head())
Se hai bisogno di saltare righe all'inizio del file (ad esempio, metadati o righe di intestazione), puoi usare il parametro skiprows
.
# Saltare le prime 3 righe del file
df = pd.read_excel('nome_file.xlsx', skiprows=3)
print(df.head())
Conclusione
Effettuare il parsing di un file Excel con Python è un'operazione molto semplice grazie alla flessibilità delle librerie pandas
e openpyxl
. Queste librerie permettono di gestire sia la lettura di file Excel per analisi dati, sia modifiche più complesse. Con le giuste conoscenze, puoi utilizzare questi strumenti per integrare i dati di Excel nelle tue pipeline di lavoro in modo rapido ed efficiente.