鍍金池/ 問答/PHP  網(wǎng)絡(luò)安全  HTML/ PHP 導(dǎo)出CSV文件部分行錯位

PHP 導(dǎo)出CSV文件部分行錯位

使用PHP fputcsv 或者 fwrite 方法導(dǎo)出大概1萬7千條數(shù)據(jù),出現(xiàn)大概6條到10條左右的數(shù)據(jù)錯位情況。

代碼:

public static function createCsv($data, $header = [], $filename = '')
{
    // 參數(shù)判斷
    $data = is_object($data) ? $data->toArray() : $data;
    $header = is_array($header) ? $header : [];
    $filename = (1 > strlen(trim($filename))) ? 'csv-' : trim($filename);
    if (empty($data)) {
        return false;
    }

    // 文件名/目錄
    $filename = $filename . date("YmdHis", time()) . rand(1000, 9999) . ".csv";
    $dir = \Env::get('runtime_path') . '/export/';
    if (!is_dir($dir) && !mkdir($dir)) {
        return false;
    }

    // 打開文件指針資源
    $handle = fopen($dir . $filename, 'w+');
    if (!$handle) {
        return false;
    }

    // 寫入文件header頭
    if (!empty($header)) {
        $res = fputcsv($handle, $header);
        if (!$res) {
            return false;
        }
    }

    // 判斷header是索引數(shù)組還是關(guān)聯(lián)數(shù)組
    $is_assoc = array_keys($header) !== range(0, count($header) - 1);

    // 寫入文件內(nèi)容
    $frequency = 0; // 頻率
    $limit = 100000;
    foreach ($data as $datum) {
        $frequency++;
        if ($limit == $frequency) {
            // 刷新輸出buffer
            ob_flush();
            flush();
            $frequency = 0;
        }
        // 如果是關(guān)聯(lián)數(shù)組,則獲取內(nèi)容中和頭部key相對應(yīng)的值
        if ($is_assoc) {
            $csv = "";
            foreach(array_keys($header) as $item) {
                $val = str_replace('"', '""', "\t" . $datum[$item]);
                $csv .= '"' . $val . '",';
            }
            $csv = substr($csv, 0, -1);
            $csv .= "\n";
            $res = @fwrite($handle, $csv);
        } else {
            $res = fputcsv($handle, $datum);
        }

        if (!$res) {
            return false;
        }
    }

    // 關(guān)閉指針資源
    fclose($handle);
    return \Url::build('erp/Common/export', 'file=' . $filename);
}

出現(xiàn)的情況:

clipboard.png

同樣的數(shù)據(jù)篩選之后發(fā)現(xiàn)也只有這一條出現(xiàn)問題

clipboard.png

源碼:

clipboard.png

發(fā)現(xiàn)該行的逗號分隔符去到雙引號里了,請問出現(xiàn)這種問題的原因是什么。

回答
編輯回答
萌小萌

經(jīng)過一個下午的折騰,上周五還是發(fā)現(xiàn)出現(xiàn)該異常情況的原因。概括來說還是中文轉(zhuǎn)編碼的問題,即utf-8轉(zhuǎn)gbk出現(xiàn)的小部分行缺少空格或者雙引號的問題。
出現(xiàn)問題的原因:
在進(jìn)行導(dǎo)出的過程中,接收其他程序傳過來的數(shù)組參數(shù),均為utf-8編碼,我這邊在調(diào)用fwrite或者fputcvs寫入文件的過程中并沒有進(jìn)行 iconv("UTF-8", "GB2312//IGNORE", $header),而是將文件保存在了 export目錄下,然后由vuejs做的后臺調(diào)用位于同application下的一個共用類的 export方法,該方法是這樣的:

public function export()
{
    $file = \Request::get('file');
    header('Content-Type: application/vnd.ms-excel');
    header('Content-Disposition: attachment;filename=export.csv');
    header('Cache-Control: max-age=0');
    $contents = file_get_contents(\Env::get('runtime_path') . '/export/' . $file);
    echo iconv("UTF-8", "GB2312//IGNORE", $contents);
    @unlink(RUNTIME_PATH . '/export/' . $filename);
    exit;
}

問題就出在 echo iconv("UTF-8", "GB2312//IGNORE", $contents); 這句代碼上面,這里看到是對傳入的整個文件進(jìn)行轉(zhuǎn)編碼的,這里未進(jìn)行測試到底多少行的數(shù)據(jù)會出現(xiàn)缺少逗號引號的問題。
最終的解決思路是,把共用類中對整個文件的轉(zhuǎn)編碼放到寫入方法中,逐條轉(zhuǎn)編碼就解決了該問題。

更改后的代碼:

public static function createCsv($data, $header = [], $filename = '')
{
    // 參數(shù)判斷
    $data = is_object($data) ? $data->toArray() : $data;
    $header = is_array($header) ? $header : [];
    $filename = (1 > strlen(trim($filename))) ? 'csv-' : trim($filename);
    if (empty($data)) {
        return false;
    }

    // 文件名/目錄
    $filename = $filename . date("YmdHis", time()) . rand(1000, 9999) . ".csv";
    $dir = Env::get('runtime_path') . '/export/';
    if (!is_dir($dir) && !mkdir($dir)) {
        return false;
    }

    // 打開文件指針資源
    $handle = fopen($dir . $filename, 'w+');
    if (!$handle) {
        return false;
    }

    // 寫入文件header頭
    if (!empty($header)) {
        foreach ($header as $key => $item) {
            $header[$key] = iconv("UTF-8", "GB2312//IGNORE", $item);
        }
        $res = fputcsv($handle, $header);
        if (!$res) {
            return false;
        }
    }

    // 判斷header是索引數(shù)組還是關(guān)聯(lián)數(shù)組
    $is_assoc = array_keys($header) !== range(0, count($header) - 1);

    // 寫入文件內(nèi)容
    $frequency = 0; // 頻率
    $limit = 100000;
    foreach ($data as $datum) {
        $frequency++;
        if ($limit == $frequency) {
            // 刷新輸出buffer
            ob_flush();
            flush();
            $frequency = 0;
        }
        // 如果是關(guān)聯(lián)數(shù)組,則獲取內(nèi)容中和頭部key相對應(yīng)的值
        if ($is_assoc) {
            $csv = "";
            foreach(array_keys($header) as $item) {
                $datum[$item] = iconv("UTF-8", "GB2312//IGNORE", $item);
                $val = str_replace('"', '""', $datum[$item]); // 將單個雙引號替換為兩個雙引號
                $csv .= '"' . $val . '",'; // 為每個字符增加雙引號,并添加逗號分割符
            }
            $csv = substr($csv, 0, -1); // 去掉每行最后一個逗號
            $csv .= "\n"; // 添加換行符
            $res = @fwrite($handle, $csv);
        } else {
            $res = fputcsv($handle, $datum);
        }

        if (!$res) {
            return false;
        }
    }

    // 關(guān)閉指針資源
    fclose($handle);
    return Url::build('erp/Common/export', 'file=' . $filename);
}


public function export()
{
    $file = \Request::get('file');
    header('Content-Type: application/vnd.ms-excel');
    header('Content-Disposition: attachment;filename=export.csv');
    header('Cache-Control: max-age=0');
    $contents = file_get_contents(\Env::get('runtime_path') . '/export/' . $file);
    echo $contents;
    exit;
}

調(diào)用步驟:

先調(diào)用createCsv生成文件,再調(diào)用export下載。

———————————————————————分割線——————————————————————

另外一種解決思路:

csv文件直接存儲 UTF-8 編碼:
即不需要進(jìn)行 iconv 轉(zhuǎn)編碼,這樣會有個小問題就是MacOS中的Excel無法自動識utf-8編碼,中文會出現(xiàn)亂碼的情況。

原因:

Excel在讀取csv的時候是通過讀取文件頭上的bom來識別編碼的,如果文件頭無bom信息,則默認(rèn)按照unicode編碼讀取。(這個bom是微軟自己定義的一種文件頭部協(xié)定,顧名思義存儲在文件頭部,存儲內(nèi)容就是標(biāo)識文件編碼的信息。)而我們生成csv的平臺不一定遵循微軟的bom協(xié)議,導(dǎo)致如果輸出非unicode編碼的csv文件(例如utf-8),并且沒有生成bom信息的話,Excel自動按照unicode編碼讀取,就會出現(xiàn)亂碼問題了。

作者:李蛟 鏈接:https://www.zhihu.com/questio...
來源:知乎 著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。

根據(jù)知乎查到的答案,原來是這里未遵循微軟的bom協(xié)議。原因找到了,解決方案就能出了。

解決方法:
fopen 方法下寫入bom頭,這里簡單寫一下步驟

function createCsv($filename, $header, $data) {
    $handle = fopen($filename, 'w+');
    // 添加BOM,標(biāo)識為UTF-8格式
    fwrite($handle, chr(0xEF).chr(0xBB).chr(0xBF));
    // 寫入頭部
    fputcsv($handle, $header);
    // 逐行寫入內(nèi)容
    foreach ($data as $datum) {
        fputcsv($handle, $datum);
    }
    // 關(guān)閉指針資源
    fclose($handle);
}

另外再補充一下 Bom 簡介

  • 在UCS 編碼中有一個叫做”ZERO WIDTH NO-BREAKSPACE”的字符,它的編碼是FEFF。
  • FFFE在UCS中是不存在的字符,所以不應(yīng)該出現(xiàn)在實際傳輸中。
  • UCS規(guī)范建議我們在傳輸字節(jié)流前,先傳輸字符”ZERO WIDTH NO-BREAK SPACE”。
  • 這樣如果接收者收到FEFF,就表明這個字節(jié)流是Big-Endian的;
  • 如果收到FFFE,就表明這個字節(jié)流是Little-Endian的。
  • 因此字符”ZERO WIDTH NO-BREAK SPACE”又被稱作BOM。
  • UTF-8不需要BOM來表明字節(jié)順序,但可以用BOM來表明編碼方式。
  • 字符”ZERO WIDTH NO-BREAK SPACE”的UTF-8編碼是EF BB BF。
  • 所以如果接收者收到以EF BB BF開頭的字節(jié)流,就知道這是UTF-8編碼了。
  • Windows就是使用BOM來標(biāo)記文本文件的編碼方式的。

該內(nèi)容來自 http://blog.csdn.net/chaozhi_... 這篇博客

2017年6月3日 17:11