鍍金池/ 問答/Python  Linux  數(shù)據(jù)庫/ 問大家一個python爬蟲和大數(shù)據(jù)的問題

問大家一個python爬蟲和大數(shù)據(jù)的問題

我的畢業(yè)設(shè)計是做一個爬取豆瓣網(wǎng)站的系統(tǒng),我的同學(xué)的畢業(yè)設(shè)計是大數(shù)據(jù)方面的題目。我們的畢設(shè)老師要求我用爬蟲爬完數(shù)據(jù)后存儲,然后做一個接口把數(shù)據(jù)傳給同學(xué)(數(shù)據(jù)從我的電腦傳到他的電腦上),他再用他搭建的平臺處理數(shù)據(jù)再展示出來?,F(xiàn)在我的爬蟲系統(tǒng)做好了,他的平臺也搭建好了。請問這之間傳數(shù)據(jù)的接口怎么設(shè)計,要掌握哪些知識

回答
編輯回答
嘟尛嘴

1、你的數(shù)據(jù)是什么量級,是MB,GB,PB?
2、你數(shù)據(jù)爬下來的存儲方式,是存在文件里還是還是存放到數(shù)據(jù)庫
3、你準備以什么方式把數(shù)據(jù)開放給對方,提供web api,還是提供ftp,還是提供數(shù)據(jù)庫訪問權(quán)限
你思考過這些問題,自然就知道該怎么做和該去研究哪些資料了

2018年5月5日 20:03
編輯回答
蝶戀花

你的爬蟲是winform項目吧??梢栽僮鲆粋€web項目,你同學(xué)需要什么接口,你就寫個相應(yīng)web api接口傳json格式數(shù)據(jù)給他。
如果你想做在爬蟲winform項目里,你這邊可以寫一個socket服務(wù)端,你同學(xué)那邊寫個socket客戶端來請求數(shù)據(jù)。不過不推薦把服務(wù)端寫在winform里,推薦用剛才說的web api,其次推薦webservice等。

2018年3月2日 10:32
編輯回答
撿肥皂

其實可以設(shè)計好數(shù)據(jù)庫結(jié)構(gòu),你這邊存,他那邊讀就好了,mysql這種關(guān)系數(shù)據(jù)庫和mongodb這類的文檔數(shù)據(jù)庫都可以。

2017年5月23日 23:31
編輯回答
孤客

我跟同事也做過這樣的配合,我這邊爬完數(shù)據(jù)后直接把數(shù)據(jù)存到mysql,他那邊直接查數(shù)據(jù)就好,存數(shù)據(jù)庫的表結(jié)構(gòu)什么的是我們事先商量好的。

2017年7月9日 14:18
編輯回答
尛曖昧

接口數(shù)據(jù)格式根據(jù)對方平臺的需求,就跟寫app的接口差不多,給個json數(shù)據(jù)

2018年4月15日 03:24