Come effettuare il parsing di un file PDF con Python

Il parsing di file PDF in Python può essere utile in molti contesti, come l'estrazione di dati da documenti o l'indicizzazione di contenuti. In questo articolo vedremo come farlo utilizzando una delle librerie più comuni: PyMuPDF (nota anche come fitz).

Installazione della libreria

Per prima cosa, è necessario installare la libreria PyMuPDF. Può essere installata facilmente tramite pip:

pip install pymupdf

Parsing di un file PDF

Una volta installata la libreria, possiamo iniziare a estrarre il testo da un PDF. Il codice seguente mostra un esempio base:

import fitz  # PyMuPDF

def extract_text_from_pdf(file_path):
    doc = fitz.open(file_path)
    pdf_text = ""

    for page in doc:
        pdf_text += page.get_text()

    doc.close()
    return pdf_text

# Esempio di utilizzo
pdf_path = "documento.pdf"
text = extract_text_from_pdf(pdf_path)
print(text)

Spiegazione del codice

  • fitz.open: apre il file PDF.
  • Il ciclo for page in doc itera su tutte le pagine del PDF.
  • page.get_text(): estrae il testo da ciascuna pagina.
  • doc.close(): chiude il file per liberare le risorse.

Conclusioni

Utilizzare PyMuPDF è un modo semplice e veloce per leggere il contenuto di file PDF in Python. La libreria offre anche funzionalità più avanzate come l'estrazione di immagini, la ricerca di testo e la manipolazione del layout, che possono essere utili in progetti più complessi.

Torna su