Il parsing di file PDF in Python può essere utile in molti contesti, come l'estrazione di dati da documenti o l'indicizzazione di contenuti. In questo articolo vedremo come farlo utilizzando una delle librerie più comuni: PyMuPDF (nota anche come fitz).
Installazione della libreria
Per prima cosa, è necessario installare la libreria PyMuPDF. Può essere installata facilmente tramite pip:
pip install pymupdfParsing di un file PDF
Una volta installata la libreria, possiamo iniziare a estrarre il testo da un PDF. Il codice seguente mostra un esempio base:
import fitz  # PyMuPDF
def extract_text_from_pdf(file_path):
    doc = fitz.open(file_path)
    pdf_text = ""
    for page in doc:
        pdf_text += page.get_text()
    doc.close()
    return pdf_text
# Esempio di utilizzo
pdf_path = "documento.pdf"
text = extract_text_from_pdf(pdf_path)
print(text)Spiegazione del codice
- fitz.open: apre il file PDF.
- Il ciclo for page in docitera su tutte le pagine del PDF.
- page.get_text(): estrae il testo da ciascuna pagina.
- doc.close(): chiude il file per liberare le risorse.
Conclusioni
Utilizzare PyMuPDF è un modo semplice e veloce per leggere il contenuto di file PDF in Python. La libreria offre anche funzionalità più avanzate come l'estrazione di immagini, la ricerca di testo e la manipolazione del layout, che possono essere utili in progetti più complessi.