Come effettuare il parsing di un file PDF con Python

Come effettuare il parsing di un file PDF con Python

Il parsing di file PDF in Python può essere utile in molti contesti, come l'estrazione di dati da documenti o l'indicizzazione di contenuti. In questo articolo vedremo come farlo utilizzando una delle librerie più comuni: PyMuPDF (nota anche come fitz).

Installazione della libreria

Per prima cosa, è necessario installare la libreria PyMuPDF. Può essere installata facilmente tramite pip:

pip install pymupdf

Parsing di un file PDF

Una volta installata la libreria, possiamo iniziare a estrarre il testo da un PDF. Il codice seguente mostra un esempio base:

import fitz  # PyMuPDF

def extract_text_from_pdf(file_path):
    doc = fitz.open(file_path)
    pdf_text = ""

    for page in doc:
        pdf_text += page.get_text()

    doc.close()
    return pdf_text

# Esempio di utilizzo
pdf_path = "documento.pdf"
text = extract_text_from_pdf(pdf_path)
print(text)

Spiegazione del codice

  • fitz.open: apre il file PDF.
  • Il ciclo for page in doc itera su tutte le pagine del PDF.
  • page.get_text(): estrae il testo da ciascuna pagina.
  • doc.close(): chiude il file per liberare le risorse.

Conclusioni

Utilizzare PyMuPDF è un modo semplice e veloce per leggere il contenuto di file PDF in Python. La libreria offre anche funzionalità più avanzate come l'estrazione di immagini, la ricerca di testo e la manipolazione del layout, che possono essere utili in progetti più complessi.