Go | 21/07/2023 | Gabriele Romanato

Go: parsing di un documento HTML

Il parsing di un documento HTML è una delle operazioni più comuni nel mondo dello sviluppo web. In Go, il linguaggio di programmazione creato da Google, esistono diverse librerie che consentono di effettuare il parsing di un documento HTML in modo semplice ed efficiente. In questo articolo, ti guiderò attraverso i passaggi necessari per effettuare il parsing di un documento HTML utilizzando la libreria standard di Go.

Per iniziare, dovrai importare due librerie fondamentali: fmt per la stampa dei risultati e "golang.org/x/net/html" per il parsing dell'HTML. Puoi farlo aggiungendo le seguenti righe di codice all'inizio del tuo file Go:


package main

import (
    "fmt"
    "golang.org/x/net/html"
)

Successivamente, definiremo una funzione chiamata parseHTML che prenderà come argomento una stringa contenente l'HTML da analizzare:


    func parseHTML(htmlString string) {
        // Effettua il parsing dell'HTML
        doc, err := html.Parse(strings.NewReader(htmlString))
        if err != nil {
            fmt.Println("Errore durante il parsing dell'HTML:", err)
            return
        }
    
        // Effettua l'attraversamento dell'albero DOM
        traverseHTML(doc)
    }

La funzione parseHTML utilizza la funzione html.Parse per effettuare il parsing dell'HTML e restituisce un puntatore a un oggetto Node rappresentante l'albero DOM del documento HTML. In caso di errori durante il parsing, verrà stampato un messaggio di errore.

Ora che abbiamo il documento HTML parsato, è possibile attraversare l'albero DOM per ottenere le informazioni desiderate. Definiamo una funzione chiamata traverseHTML per farlo:


    func traverseHTML(node *html.Node) {
        if node.Type == html.ElementNode && node.Data == "a" {
            // Esempio: stampa il testo e l'URL di tutti i tag a
            fmt.Println("Testo:", node.FirstChild.Data)
            for _, attr := range node.Attr {
                if attr.Key == "href" {
                    fmt.Println("URL:", attr.Val)
                    break
                }
            }
        }
    
        // Attraversa i nodi figli
        for child := node.FirstChild; child != nil; child = child.NextSibling {
            traverseHTML(child)
        }
    }

Nella funzione "traverseHTML", controlliamo se il nodo corrente è un elemento HTML di tipo "a" utilizzando la condizione "node.Type == html.ElementNode && node.Data == "a"". In questo esempio, stiamo cercando tutti i tag <a> nel documento HTML. Puoi adattare questa condizione in base alle tue esigenze.

Una volta trovato un tag <a>, stampiamo il testo contenuto al suo interno utilizzando "node.FirstChild.Data". Successivamente, iteriamo attraverso gli attributi del tag utilizzando "node.Attr" e troviamo l'URL corrispondente cercando l'attributo "href".

Infine, chiamiamo ricorsivamente la funzione "traverseHTML" per attraversare tutti i nodi figli del nodo corrente.

Ora che abbiamo definito la funzione di parsing e la funzione di attraversamento, possiamo utilizzarle nel nostro codice principale:


    func main() {
        // Esempio di documento HTML
        htmlString := `
            <html>
                <body>
                    <h1>Titolo</h1>
                    <p>Un paragrafo di testo.</p>
                    <a href="https://www.example.com">Link a example.com</a>
                </body>
            </html>
        `
    
        parseHTML(htmlString)
    }

Nell'esempio sopra, abbiamo dichiarato una variabile htmlString contenente un documento HTML di esempio. Chiamiamo quindi la funzione parseHTML passando come argomento la stringa HTML.

Al momento dell'esecuzione, l'output del programma sarà:


    Testo: Link a example.com
    URL: https://www.example.com

Come puoi vedere, abbiamo stampato il testo del tag <a> e l'URL corrispondente.

Conclusione

In questo articolo, hai imparato come effettuare il parsing di un documento HTML utilizzando il linguaggio di programmazione Go. Abbiamo utilizzato la libreria standard di Go "golang.org/x/net/html" per effettuare il parsing e abbiamo attraversato l'albero DOM per ottenere le informazioni desiderate. Puoi utilizzare queste conoscenze come base per eseguire operazioni più complesse come l'estrazione di dati strutturati da documenti HTML o la manipolazione dei contenuti.