In questo articolo vedremo come estrarre tutti gli URL dei link presenti in una pagina web con Python utilizzando il modulo BeautifulSoup.

Si tratta di fatto di individuare tutti gli elementi a ed ottenere il valore del loro attributo href.

from bs4 import BeautifulSoup

def get_page_urls(html):
    soup = BeautifulSoup(html, 'html.parser')
    links = soup.find_all('a')
    urls = []
    for link in links:
        href = link.get('href', '')
        if href.startswith('http'): 
            urls.append(href)
    return urls

La nostra funzione restituirĂ  una lista contenente gli URL dei link individuati.