鍍金池/ 問答/PHP/ php curl_multi 攜帶cookie訪問如何提升速度?

php curl_multi 攜帶cookie訪問如何提升速度?

問題描述

工作中需要curl一個鏈接,需要登錄后才能返回關(guān)鍵字段。之前是直接curl,然后用保存后的cookie文件訪問,但是每頁只返回20條結(jié)果,而且太慢,每一次curl大概1s-1.3s,而且如果結(jié)果太多(最多50頁),curl就會超時。

問題出現(xiàn)的環(huán)境背景及自己嘗試過哪些方法

后面限制了頁數(shù),即如果返回頁數(shù)大于5頁只讓其curl 5次,這樣雖然不至于太慢了,但是結(jié)果也少了。后面了解了curl_multi ,自己也試了,如果不用cookie這個多進程確實快了很多,原來curl 25次 大概28秒,多進程之后大概2秒,但是一旦加上cookie訪問,速度變得和普通curl一樣了,甚至略慢一點。不知道是不是我哪里寫的不對,附上代碼

相關(guān)代碼

// 請把代碼文本粘貼到下方(請勿用圖片代替代碼)
這個是普通curl
if($arr0['pcount']>1){

        $arr[0]['total']['pcount']=$arr[0]['total']['pcount']>10?10:$arr[0]['total']['pcount'];
        for ($i=2;$i<=$arr[0]['total']['pcount'];$i++){
            //帶上cookie文件,訪問
            $send_url='http://******.cn/ashx/GetList.ashx?pageIndex='.$i.'&keys='.htmlspecialchars($tj).'&Lx=3';
            $ch = curl_init($send_url);
            curl_setopt($ch, CURLOPT_HEADER, 0);
            curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
            //curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
            curl_setopt($ch, CURLOPT_COOKIE, $cookie);
            $contents[] = curl_exec($ch);
            curl_close($ch);
        }
        $arr=array();
        foreach($contents as $k=>$v){
            $arr[$k]=(json_decode($v,true));
        }
    }
    
    
    //這個是調(diào)用curl_multi的
    
 if($arr[0]['total']['pcount']>1){
        $chArr=[];
        for($i=2;$i<=$arr[0]['total']['pcount'];$i++){
            $chArr[$i] = "http://*****.cn/ashx/GetList.ashx?pageIndex=$i&keys=".htmlspecialchars($tj)."&Lx=3";
        }
        $result = $this->postMulti($chArr,$cookie);
        $arr = array_merge($arr,$result);
    }
    
    //這個是curl_multi
    public static function postMulti($chArr,$cookie)
{
    $max_request = count($chArr);
    $ch_list = array();
    $multi_ch = curl_multi_init();
    for ($i = 2;$i <= $max_request+1;$i++) {
        $ch_list[$i] = curl_init($chArr[$i]);

        curl_setopt($ch_list[$i], CURLOPT_RETURNTRANSFER, true);
        curl_setopt($ch_list[$i], CURLOPT_COOKIE,$cookie) ;   //如果注釋此行返回結(jié)果則很快
        curl_setopt($ch_list[$i], CURLOPT_TIMEOUT, 30);
        //curl_setopt($ch_list[$i], CURLOPT_COOKIEFILE, $cookie_file);
        curl_multi_add_handle($multi_ch, $ch_list[$i]);
    }

    $active = null;
    do {
        $mrc = curl_multi_exec($multi_ch, $active); //處理在棧中的每一個句柄。無論該句柄需要讀取或?qū)懭霐?shù)據(jù)都可調(diào)用此方法。
    } while ($mrc == CURLM_CALL_MULTI_PERFORM);
    //Note:
    //該函數(shù)僅返回關(guān)于整個批處理棧相關(guān)的錯誤。即使返回 CURLM_OK 時單個傳輸仍可能有問題。
    while ($active && $mrc == CURLM_OK) {
        if (curl_multi_select($multi_ch) != -1) {
            //阻塞直到cURL批處理連接中有活動連接。
            do {
                $mrc = curl_multi_exec($multi_ch, $active);
            } while ($mrc == CURLM_CALL_MULTI_PERFORM);
        }
    }
    //獲取http返回的結(jié)果
    $true_request = 0;
    foreach ($ch_list as $k => $ch) {
        $result[] = curl_multi_getcontent($ch);
        curl_multi_remove_handle($multi_ch,$ch);
        curl_close($ch);
        if ($result == 1) {
            $true_request += 1;
        }
    }
    curl_multi_close($multi_ch);
    foreach($result as $k=>$v){
        $arr[$k]=(json_decode($v,true));
    }
    return $arr;
}

你期待的結(jié)果是什么?實際看到的錯誤信息又是什么?

回答
編輯回答
筱饞貓
  1. 抓住你要解決的問題的本質(zhì),不要局限在某種套路里面
  2. 你要解決的問題是如何爬取數(shù)據(jù),遇到的阻力是效率不夠,具體指單位時間內(nèi)爬取的數(shù)據(jù)太少
  3. 這時候要做的是提升效率而不是一直研究curl
  4. 解決思路:降低時間增大請求并發(fā)數(shù)
  5. 降低時間:本身接口慢還是你調(diào)用的方法有問題,你可以記一下每一步操作消耗的時間來排查這個問題
  6. 增大請求并發(fā)數(shù):curl_multi是模擬多線程,你可以創(chuàng)建多個進程來提高并發(fā)

開個腦洞:

  1. 能不能不讀接口,直接讀庫
  2. 試試python的scrapy
2017年1月9日 19:42