[Python][爬蟲]URL沒有 HTTP/HTTPS 與網址重新導向

這次要爬的網址長得像這樣

  • hazyfairyland.blogspot.tw
  • cartersoshkosh.tw
  • yungmaun.com.tw

沒有www也沒有http/https
如果直接將這樣的網址丟到瀏覽器的網址列它會自動重新導向,
但如果是使用request就會產生錯誤訊息。

這時候該怎麼辦呢?

其實只要在前方加上”http://”就行了,
若其實該網址是”https//”, request也會自動重新導向。

假如所有的網址都是沒有www,
就直接在所有url前方加上”http://”就好了。

url = "cartersoshkosh.tw"

while True:
    try:
        res = requests.get(url, timeout = 30)		
        break
			
    # catch requests.exceptions.MissingSchema error, add "http://" in the front
    except requests.exceptions.MissingSchema:
        url = "http://" + url
       
    print res.url  # print the final url
    print res.history  # print how many redirections it has gone throgh