鍍金池/ 問答/HTML5  Python/ 請問這種文本怎么抓???(python爬蟲)

請問這種文本怎么抓取?(python爬蟲)

圖片描述

如圖,可以很容易的定位到<span class="pl">制片國家/地區(qū):</span>,然后把該標(biāo)簽的文本抓下來。但是那個 “法國/德國” 它好像不屬于任何一個標(biāo)簽,這種文本怎么抓?

回答
編輯回答
久舊酒

依然有跡可循,他在span的后面 用python的話用 先得到兩個 pl 之間 然后引號之內(nèi)
可以 參考 谷歌 的 puppeteer 進(jìn)行高級爬蟲爬取

2018年7月12日 00:28
編輯回答
怣人

別再推薦用正則去解析標(biāo)記類型文檔了,看到這種正則強(qiáng)無敵的言論頭都大了,你們別這樣誤導(dǎo)其他人了行不?

2017年11月3日 13:46
編輯回答
空白格

方法一:正則強(qiáng)無敵,看樓上

方法二:Beautifulsoup解決(題主是用beautifulsoup的吧,如果不是請說)
“法國/德國”雖然看上去不屬于任何標(biāo)簽,但是它應(yīng)該是屬于<span class="pl">的父標(biāo)簽(往上找找)。假如父標(biāo)簽是a,那么可以通過a對象的strings屬性獲取a標(biāo)簽下所有字符串的迭代器,list化后索引出來

target = list(a.strings)[n]
2017年1月4日 05:51
編輯回答
短嘆

樓主,xpath了解一下,右鍵一下就出來了,只是需要確定html結(jié)構(gòu)而已,比beautifulsoup好用很多

2018年8月11日 05:42
編輯回答
萢萢糖

爬取這種信息有很多種方法
1)醉常用的也是現(xiàn)在比較流行的一種方式就是python的一種爬取的方式
https://www.crummy.com/softwa... 這個是爬蟲的一個開放文檔,使用起來很簡單
2)PHP也是可以做爬蟲處理的
https://doc.querylist.cc/ 這個是文檔地址,也很簡單,入門方便
3)node.js也是可以做爬蟲的
總結(jié)可以寫爬蟲的方式有很多,就要看你比較喜歡哪種然后比較適合哪種

2018年6月18日 17:06
編輯回答
墨小羽
<span class="pl">制片國家/地區(qū):</span>([\s\S]*)<br>[\s\S]*語言

沒有什么是正則解決不了的 ([\s\S]*) 這個里面的就是制片國家/地區(qū)

你這扒的是豆瓣吧 哈哈 豆瓣抓取多了會限制ip 哦

2018年1月1日 06:12