鍍金池/ 問(wèn)答/HTML5  Java  PHP  HTML/ 抓取其他網(wǎng)站的詳情頁(yè),怎么放到我們的項(xiàng)目中

抓取其他網(wǎng)站的詳情頁(yè),怎么放到我們的項(xiàng)目中

背景:
后臺(tái)抓取其他網(wǎng)站的詳情頁(yè),要放到我們手機(jī)app中,還要保持風(fēng)格統(tǒng)一,就不能使用iframe了,但是這個(gè)詳情頁(yè)的復(fù)雜程度我們不確定,有可能有table,圖片,也可能是抓取的web端頁(yè)面,web端頁(yè)面的table定寬了怎么辦?有沒(méi)有做過(guò)類似需求的?
問(wèn)題:
現(xiàn)在應(yīng)該從哪里下手,是先要確定輸入嗎?如果是的話

  1. 后臺(tái)返給前端帶內(nèi)聯(lián)樣式的html文本,還是
  2. 返給前端純文本,但是有table或者有img的地方需要連帶標(biāo)簽返回?還是有其他更好的方法或者腳本??
回答
編輯回答
夏木

有兩種想法

  1. 后臺(tái)抓取之后,解析html把 數(shù)據(jù) 圖片 表格 分類 , 只把數(shù)據(jù)返回給前端,前端再用統(tǒng)一的布局,決定各個(gè)的位置.
  2. 抓取之后 把html中的樣式去掉,把html傳給前端 , 前端用css給表格 文字 寫一個(gè)同一的樣式

都能達(dá)到統(tǒng)一風(fēng)格的目的

2017年9月19日 10:05
編輯回答
孤島

通常我的做法是,由于目標(biāo)網(wǎng)站的頁(yè)面結(jié)構(gòu)都是不一樣的,所以采集之后還是需要數(shù)據(jù)清洗的,把數(shù)據(jù)整理成結(jié)構(gòu)化的,這樣給前端就是固定的格式,前端方便處理,用戶使用的話也是看的一樣的格式。

然后麻煩的地方在于目標(biāo)站點(diǎn)的頁(yè)面結(jié)構(gòu)不一樣的,每個(gè)都需要單獨(dú)的采集程序和分析程序,如果站點(diǎn)數(shù)目不多其實(shí)沒(méi)關(guān)系,但是站點(diǎn)多了之后,就需要把采集和分析的程序開(kāi)發(fā)成可配置化的,這樣開(kāi)發(fā)難度可能會(huì)大一點(diǎn)。

2017年1月8日 11:12