Il parsing di file PDF in Python può essere utile in molti contesti, come l'estrazione di dati da documenti o l'indicizzazione di contenuti. In questo articolo vedremo come farlo utilizzando una delle librerie più comuni: PyMuPDF (nota anche come fitz
).
Installazione della libreria
Per prima cosa, è necessario installare la libreria PyMuPDF
. Può essere installata facilmente tramite pip:
pip install pymupdf
Parsing di un file PDF
Una volta installata la libreria, possiamo iniziare a estrarre il testo da un PDF. Il codice seguente mostra un esempio base:
import fitz # PyMuPDF
def extract_text_from_pdf(file_path):
doc = fitz.open(file_path)
pdf_text = ""
for page in doc:
pdf_text += page.get_text()
doc.close()
return pdf_text
# Esempio di utilizzo
pdf_path = "documento.pdf"
text = extract_text_from_pdf(pdf_path)
print(text)
Spiegazione del codice
fitz.open
: apre il file PDF.- Il ciclo
for page in doc
itera su tutte le pagine del PDF. page.get_text()
: estrae il testo da ciascuna pagina.doc.close()
: chiude il file per liberare le risorse.
Conclusioni
Utilizzare PyMuPDF è un modo semplice e veloce per leggere il contenuto di file PDF in Python. La libreria offre anche funzionalità più avanzate come l'estrazione di immagini, la ricerca di testo e la manipolazione del layout, che possono essere utili in progetti più complessi.