[Python][爬蟲]如何刪除網頁中的 & nbsp;
在爬取網頁時偶爾會碰到
而且怎麼樣都刪不掉也取代不掉,
使用strip()仍然會有空白。
「 」 是屬於 HTML 的特殊符號之一「空格符號」,其 nbsp 取自於英文 a non-breaking space 的英文簡稱,其原意是「不會被間斷的空白」
假如現在有一個網頁內容包含
<td>
E601010
電器承裝業
<br>
E601020
電器安裝業
<br>
</td>
已經抓出td tag,
接著可以使用
td = td.encode(formatter="html")
這時候td type會變成str,
再使用replace取代就可以刪除空白了。