鍍金池/ 問(wèn)答/人工智能  數(shù)據(jù)分析&挖掘  Python/ 如何清理爬蟲(chóng)數(shù)據(jù)中一些不需要的 HTML 屬性

如何清理爬蟲(chóng)數(shù)據(jù)中一些不需要的 HTML 屬性

比如對(duì)于以下數(shù)據(jù)

<p id="a">data</p>

我只想保留

<p>data</p>

該如何操作,有快捷的方法嗎?

回答
編輯回答
朕略傻

思路:
1 獲取當(dāng)前element name,p
2 獲取當(dāng)前element text,data
3 組裝成<element_name>text</element_name>

2017年11月14日 02:23