鍍金池/ 問答/人工智能  Java  PHP  Python/ 大數(shù)據(jù)清洗入庫的問題

大數(shù)據(jù)清洗入庫的問題

圖片描述

如圖,公司給了幾百G的word文檔,看了看里面的內(nèi)容,很亂,但是大致如圖涉及公司的信息;
但是排版啊,字段名啊,一致性很差;

公司要信息入庫,不知道從何入手??

有大神有思路或者建議嗎?

回答
編輯回答
嘟尛嘴

1 先用正則表達式,按照 數(shù)字冒號(1:,2:)拆分單條信息
得到結(jié)果:
[
'1:公司名:An網(wǎng)站:wwwn電話:123456789n',
'2:公司名:An網(wǎng)站:wwwn電話:123456789nn',
'3:公司名:An網(wǎng)站:wwwn電話:123456789地址:abbn',
'4:公司名:An網(wǎng)站:wwwn電話:123456789',
]

2 取出每一項目,將數(shù)字冒號(1:)替換為空
如:'1:公司名:An網(wǎng)站:wwwn電話:123456789n',

3 按照n拆分,再按照:區(qū)分鍵值對。
如:'公司名:An網(wǎng)站:wwwn電話:123456789n',
得到結(jié)果:[{'公司名':'A'},{'網(wǎng)站':'www'},{'電話':'123456789'}]

2017年10月14日 23:10