鍍金池/ 問答/Python  網(wǎng)絡(luò)安全  HTML/ 請教一種情況下html內(nèi)容讀取的方法

請教一種情況下html內(nèi)容讀取的方法

<html>
  <head>
    <meta name="generator" content="HTML Tidy for HTML5 for Windows version 5.2.0" />
    <title></title>
  </head>
  <body>
    <div data-id="1">
        <h4 class="headline">Title</h4>
        內(nèi)容1
        <br />
        內(nèi)容2
        <div class="foot" >
            內(nèi)容3
        </div>
    </div>

  </body>
</html>

請教下如何能夠便利的提取title和內(nèi)容1/2,但是不會(huì)提取foot下面的內(nèi)容,希望不使用正則。
不知道該如何對這種問題起合適的名字,抱歉。

我嘗試了下用xpath的string,jquery/BS,提取最外層的div節(jié)點(diǎn)。
雖然能夠幫我去除br,但是也會(huì)把foot下的內(nèi)容3也提取了出來.
這種內(nèi)容不在特定的標(biāo)簽下,又和其他標(biāo)簽混在一層的情況讓我覺得很棘手,

最好希望能獲得一種xpath,或者jquery的實(shí)現(xiàn)。感謝

回答
編輯回答
傻叼

從data div的dom里先把foot div這個(gè)元素remove掉,然后再獲取text就可以了

2017年2月12日 18:55