鍍金池/ 問答/數(shù)據(jù)分析&挖掘  Python/ python 爬蟲遇到的xpath 的問題

python 爬蟲遇到的xpath 的問題

[u'\u4f18\u4fe1\u4e70\u8f66APP\u7ec4\u56fe3\u81f34', u'\u4f18\u4fe1\u4e70\u8f66APP\u7ec4\u56fe1\u81f32', u'\u4f18\u4fe1\u4e70\u8f66APP\u5927\u56fe5', u'\u4f18\u4fe1\u4e70\u8f66APP\u5927\u56fe3\u81f34', u'\u4f18\u4fe1\u4e70\u8f66H5\u5c0f\u56fe5\u81f36', '\n\t\t\t\t\t\t\t\t\t\r\n\r\n\r\n\r\n\t', '\r\n\t', '\r\n\t', '\r\n\t', '\r\n\t\r\n\t\t', '\r\n\t\t\r\n\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\r\n\t\t\r\n\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t', '\r\n\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t', '\r\n\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\r\n\t\r\n\t\r\n\t\t\r\n\t\t', '\r\n\t\r\n\t', '\r\n\n\t\t\t\t\t\t\t\t']

爬蟲抓到的數(shù)據(jù) 后面很多(“\t\n”)這種的列表怎么把后面的這些臟東西去掉呢? 而且每個抓的字段長度不一樣呢!

回答
編輯回答
款爺

如果只是從列表中去掉的話

arr = map(lambda x:x.strip(),arr)
arr = [e for e in arr if e]

當(dāng)然得根據(jù)具體的需求,如果只是題主提供的那種字符串列表,這種方式就夠了

2018年8月10日 14:43
編輯回答
擱淺

把response得東西貼一下才行呀……

2017年5月5日 18:47
編輯回答
護(hù)她命

抓取下來之后成員挨個正則過一遍 (\n|\t|\r)? 就好了嘛,如果怕正常內(nèi)容里也會有換行 \r|\n 的話,那就幸苦一點,整個字符串遍歷一下看有沒有出現(xiàn) \n|\t|\r 之外的字符,沒有就整個舍棄。

2018年6月12日 21:38