Python: estrarre gli URL da una pagina web

Python: estrarre gli URL da una pagina web

In questo articolo vedremo come estrarre tutti gli URL dei link presenti in una pagina web con Python utilizzando il modulo BeautifulSoup.

Si tratta di fatto di individuare tutti gli elementi a ed ottenere il valore del loro attributo href.

from bs4 import BeautifulSoup

def get_page_urls(html):
    soup = BeautifulSoup(html, 'html.parser')
    links = soup.find_all('a')
    urls = []
    for link in links:
        href = link.get('href', '')
        if href.startswith('http'): 
            urls.append(href)
    return urls

La nostra funzione restituirĂ  una lista contenente gli URL dei link individuati.

Torna su