[Python][爬蟲]如何刪除網頁中的 & nbsp;

在爬取網頁時偶爾會碰到

 

而且怎麼樣都刪不掉也取代不掉,
使用strip()仍然會有空白。

「 」 是屬於 HTML 的特殊符號之一「空格符號」,其 nbsp 取自於英文 a non-breaking space 的英文簡稱,其原意是「不會被間斷的空白」

假如現在有一個網頁內容包含

<td>
	E601010&nbsp;
	電器承裝業
	<br>
	E601020&nbsp;
	電器安裝業
	<br>													
</td>

已經抓出td tag,
接著可以使用

td = td.encode(formatter="html")

這時候td type會變成str,
再使用replace取代就可以刪除空白了。