Come estrarre il testo da un documento PDF con PHP

Estrarre il testo da un documento PDF può essere utile in molte applicazioni web, ad esempio per la ricerca di contenuti, l'indicizzazione di documenti, o l'analisi di informazioni strutturate. In PHP, esistono diversi modi per realizzare questa funzionalità. In questo articolo esploreremo una soluzione che utilizza una libreria open source molto popolare: PDFParser.

PDFParser è una libreria sviluppata appositamente per estrarre testo e metadati dai file PDF. Per installarla, apri il terminale nella directory del tuo progetto e esegui il comando:


composer require smalot/pdfparser

Questo comando scaricherà e installerà la libreria insieme a tutte le sue dipendenze.

Dopo aver installato la libreria, possiamo procedere con la scrittura del codice PHP. Iniziamo con il caricamento del PDF e l'estrazione del testo.


// Carica il file autoload di Composer per includere le dipendenze
require 'vendor/autoload.php';

// Usa la libreria PDFParser
use Smalot\PdfParser\Parser;

try {
    // Crea un'istanza del parser
    $parser = new Parser();

    // Carica il documento PDF
    $pdf = $parser->parseFile('path/to/document.pdf');

    // Estrai il testo dal PDF
    $text = $pdf->getText();

    // Visualizza il testo estratto
    echo nl2br($text);

} catch (Exception $e) {
    // Gestisce gli errori
    echo 'Errore durante l\'estrazione del testo: ' . $e->getMessage();
}

Spiegazione del codice:

  1. Inclusione di Composer: Il file autoload.php carica automaticamente tutte le classi necessarie, inclusa quella del PDFParser.
  2. Creazione dell'istanza Parser: Il parser è l'oggetto che si occuperà di elaborare il PDF.
  3. Caricamento del PDF: Il metodo parseFile() viene usato per caricare il PDF specificato dal percorso.
  4. Estrazione del testo: Il metodo getText() restituisce il testo del PDF, che viene poi stampato a schermo.
  5. Gestione degli errori: Qualsiasi problema nel caricamento del PDF o nell'estrazione del testo viene gestito con un blocco try-catch, che cattura l'eccezione e stampa un messaggio di errore.

Conclusione

Estrarre il testo da un file PDF in PHP è un compito semplice grazie all'uso di librerie come PDFParser. Questa libreria fornisce un'interfaccia facile da usare per gestire l'estrazione di testo e metadati. Tuttavia, in casi complessi, potresti dover esplorare altre soluzioni più avanzate. Con queste basi, sei pronto per integrare la funzionalità di estrazione del testo PDF nella tua applicazione PHP.

Torna su