In questo articolo vedremo come estrarre tutti gli URL dei link presenti in una pagina web con Python utilizzando il modulo BeautifulSoup.
Si tratta di fatto di individuare tutti gli elementi a
ed ottenere il valore del loro attributo href
.
from bs4 import BeautifulSoup
def get_page_urls(html):
soup = BeautifulSoup(html, 'html.parser')
links = soup.find_all('a')
urls = []
for link in links:
href = link.get('href', '')
if href.startswith('http'):
urls.append(href)
return urls
La nostra funzione restituirĂ una lista contenente gli URL dei link individuati.