鍍金池/ 問答/Java  網(wǎng)絡(luò)安全  HTML/ nodejs 采集網(wǎng)頁(yè)如何自動(dòng)識(shí)別采集到的網(wǎng)頁(yè)編碼

nodejs 采集網(wǎng)頁(yè)如何自動(dòng)識(shí)別采集到的網(wǎng)頁(yè)編碼

如題

在使用nodejs 采集網(wǎng)頁(yè)時(shí)候如何自動(dòng)識(shí)別獲取到的網(wǎng)頁(yè)編碼。從而可以使用iconv-lite 進(jìn)行對(duì)應(yīng)的編碼轉(zhuǎn)換。

clipboard.png

回答
編輯回答
柚稚

不是有charset嗎‘’

2017年2月15日 05:14
編輯回答
朕略萌

網(wǎng)頁(yè)的編碼就是根據(jù)head 中的
<meta charset="UTF-8"> 來規(guī)定的

你可以自動(dòng)獲取這個(gè)編碼信息,來進(jìn)行編碼轉(zhuǎn)換的

2017年10月3日 05:56
編輯回答
厭遇
<meta charset="GBK">
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

我寫了 (?<=(<meta.*?charset=\"|<meta.*?charset=)).*?(?=\") 獲取到的是 ['','GBK','utf-8'] // 獲取GBK 會(huì)獲取到一個(gè)空的。 有沒有更好的寫法

2017年1月12日 03:19