鍍金池/ 問(wèn)答/數(shù)據(jù)分析&挖掘  Python/ 請(qǐng)教下,文本類(lèi)的頁(yè)面解析怎樣又精準(zhǔn)效率又高?

請(qǐng)教下,文本類(lèi)的頁(yè)面解析怎樣又精準(zhǔn)效率又高?

做爬蟲(chóng)的時(shí)候,經(jīng)常會(huì)遇見(jiàn)對(duì)方頁(yè)面是文本類(lèi)的,前后關(guān)鍵詞又換來(lái)?yè)Q去,希望能有同行來(lái)探討一下,怎樣解析文本類(lèi)的頁(yè)面更好。
文本類(lèi)頁(yè)面比如:

clipboard.png

1.如果頁(yè)面很規(guī)整,無(wú)論BeautifulSoup,Xpath,還是re,都還ok;而B(niǎo)S和Xpath都是基于定位的,位置換了就不靈了。
2.希望用關(guān)鍵詞,剛開(kāi)始學(xué)的時(shí)候,用了如下方法:

clipboard.png

沒(méi)錯(cuò),很蠢,但比較準(zhǔn),也只是懶到往前后加關(guān)鍵詞即可,無(wú)論有多少相關(guān)關(guān)鍵詞。
3.后來(lái)嘗試用了正則表達(dá)式,語(yǔ)言精煉了些,但是碰到前后關(guān)鍵詞太多時(shí),有可能出現(xiàn)匹配錯(cuò)的時(shí)候(當(dāng)然,前后關(guān)鍵詞少的時(shí)候正則表達(dá)式更好)。
正則表達(dá)式剛學(xué),類(lèi)似如下(其他項(xiàng)目的):

clipboard.png

所以想問(wèn)下有沒(méi)有大神,探討下如何解析這種文本類(lèi)的頁(yè)面?

回答
編輯回答
六扇門(mén)

可用“工程名稱(chēng)”,“招標(biāo)單位”等這些項(xiàng)目名稱(chēng)作為前綴,再結(jié)合x(chóng)path搞定,相當(dāng)穩(wěn)定的。不論它怎么換位置,只要項(xiàng)目名稱(chēng)不變,就能準(zhǔn)確提取項(xiàng)目?jī)?nèi)容。

2017年6月10日 23:22
編輯回答
你好胸

如果有時(shí)間有精力的話,你可以嘗試一下文本識(shí)別的機(jī)器學(xué)習(xí),用神經(jīng)網(wǎng)絡(luò),輸入的是全文的單個(gè)中文字,然后通過(guò)模擬神經(jīng)網(wǎng)絡(luò)移動(dòng)來(lái)理解文本意思。
我是不是跑題了?如果只是搜索文字的話,用死循環(huán)查詢就好了,參考各類(lèi)編譯器對(duì)于代碼的解析。

2017年2月21日 19:06
編輯回答
別傷我

如果界面內(nèi)容規(guī)范的話,可以考慮選擇器抽取,比如xpath lxml 之類(lèi)的.

2018年8月2日 01:51