請問這種文本怎么抓取？（python爬蟲）

圖片描述

如圖，可以很容易的定位到<span class="pl">制片國家/地區(qū)：</span>,然后把該標(biāo)簽的文本抓下來。但是那個 “法國/德國” 它好像不屬于任何一個標(biāo)簽，這種文本怎么抓？

回答

編輯回答

久舊酒

依然有跡可循，他在span的后面用python的話用先得到兩個 pl 之間然后引號之內(nèi)
可以參考谷歌的 puppeteer 進(jìn)行高級爬蟲爬取

2018年7月12日 00:28

編輯回答

怣人

別再推薦用正則去解析標(biāo)記類型文檔了，看到這種正則強(qiáng)無敵的言論頭都大了，你們別這樣誤導(dǎo)其他人了行不？

2017年11月3日 13:46

編輯回答

空白格

方法一：正則強(qiáng)無敵，看樓上

方法二：Beautifulsoup解決（題主是用beautifulsoup的吧，如果不是請說）
“法國/德國”雖然看上去不屬于任何標(biāo)簽，但是它應(yīng)該是屬于<span class="pl">的父標(biāo)簽（往上找找）。假如父標(biāo)簽是a，那么可以通過a對象的strings屬性獲取a標(biāo)簽下所有字符串的迭代器，list化后索引出來

target = list(a.strings)[n]

2017年1月4日 05:51

編輯回答

短嘆

樓主，xpath了解一下，右鍵一下就出來了，只是需要確定html結(jié)構(gòu)而已，比beautifulsoup好用很多

2018年8月11日 05:42

編輯回答

萢萢糖

爬取這種信息有很多種方法
1）醉常用的也是現(xiàn)在比較流行的一種方式就是python的一種爬取的方式
https://www.crummy.com/softwa... 這個是爬蟲的一個開放文檔，使用起來很簡單
2）PHP也是可以做爬蟲處理的
https://doc.querylist.cc/ 這個是文檔地址，也很簡單，入門方便
3）node.js也是可以做爬蟲的
總結(jié)可以寫爬蟲的方式有很多，就要看你比較喜歡哪種然后比較適合哪種

2018年6月18日 17:06

編輯回答

墨小羽

<span class="pl">制片國家/地區(qū):</span>([\s\S]*)<br>[\s\S]*語言

沒有什么是正則解決不了的 ([\s\S]*) 這個里面的就是制片國家/地區(qū)

你這扒的是豆瓣吧哈哈豆瓣抓取多了會限制ip 哦

2018年1月1日 06:12

相關(guān)信息

熱門機(jī)構(gòu)

北大青鳥昌平沙河校區(qū)

北大青鳥APTECH成立于1999年。依托北京大學(xué)優(yōu)質(zhì)雄厚的教育資源和背景，秉承“教育改變生活”的發(fā)展理念，致力于培養(yǎng)中國IT技能型緊缺人才，是大數(shù)據(jù)專業(yè)的國家
北大青鳥中博軟件學(xué)院

北大青鳥中博軟件學(xué)院創(chuàng)立于2003年，作為華東區(qū)著名互聯(lián)網(wǎng)學(xué)院和江蘇省首批服務(wù)外包人才培訓(xùn)基地，中博成功培育了近30000名軟件工程師走向高薪崗位，合作企業(yè)超4
中公教育IT品牌優(yōu)就業(yè)

中公教育集團(tuán)創(chuàng)建于1999年，經(jīng)過二十年潛心發(fā)展，已由一家北大畢業(yè)生自主創(chuàng)業(yè)的信息技術(shù)與教育服務(wù)機(jī)構(gòu)，發(fā)展為教育服務(wù)業(yè)的綜合性企業(yè)集團(tuán)，成為集合面授教學(xué)培訓(xùn)、網(wǎng)
達(dá)內(nèi)教育

達(dá)內(nèi)教育集團(tuán)成立于2002年，是一家由留學(xué)海歸創(chuàng)辦的高端職業(yè)教育培訓(xùn)機(jī)構(gòu)，是中國一站式人才培養(yǎng)平臺、一站式人才輸送平臺。2014年4月3日在美國成功上市，融資1

熱門課程

北大青鳥android課程

適合人群：大專以上學(xué)歷

開班時間：每月1號
北大青鳥ACCP初中課程

適合人群：初中以上學(xué)歷

開班時間：每月1號
北大青鳥java軟件工程師

適合人群：大學(xué)畢業(yè)生

開班時間：每月1號
北大青鳥大數(shù)據(jù)課程

適合人群：18歲以上人群

開班時間：每月1號

熱門教師

劉國斌Java講師

曾工作于聯(lián)想擔(dān)任系統(tǒng)開發(fā)工程師，曾在博彥科技股份有限公司擔(dān)任項目經(jīng)理從事移動互聯(lián)網(wǎng)管理及研發(fā)工作，曾創(chuàng)辦藍(lán)懿科技有限責(zé)任公司從事總經(jīng)理職務(wù)負(fù)責(zé)iOS教學(xué)及管理工作。
王克晶Java講師

浪潮集團(tuán)項目經(jīng)理。精通Java與.NET 技術(shù)，熟練的跨平臺面向?qū)ο箝_發(fā)經(jīng)驗，技術(shù)功底深厚。授課風(fēng)格授課風(fēng)格清新自然、條理清晰、主次分明、重點難點突出、引人入勝。
張老師web前端講師

精通HTML5和CSS3；Javascript及主流js庫，具有快速界面開發(fā)的能力，對瀏覽器兼容性、前端性能優(yōu)化等有深入理解。精通網(wǎng)頁制作和網(wǎng)頁游戲開發(fā)。
劉蒼松Java教研總監(jiān)

具有10 年的Java 企業(yè)應(yīng)用開發(fā)經(jīng)驗。曾經(jīng)歷任德國Software AG 技術(shù)顧問，美國Dachieve 系統(tǒng)架構(gòu)師，美國AngelEngineers Inc. 系統(tǒng)架構(gòu)師。

熱門資訊

熱門城市

熱門教程

熱門問題

請問這種文本怎么抓取？（python爬蟲）

相關(guān)信息

劉國斌Java講師

王克晶Java講師

張老師web前端講師

劉蒼松Java教研總監(jiān)

請問這種文本怎么抓取？（python爬蟲）