鍍金池/ 教程/ Java/ JSoup教程
JSoup安裝
JSoup教程
Jsoup應(yīng)用實例
Jsoup API
Jsoup示例:提取給定url的標題
JSoup快速入門
Jsoup示例:提取給定URL中的鏈接
Jsoup示例:提取URL中的元數(shù)據(jù)
Jsoup示例:提取URL中的圖像
Jsoup示例:提取表單參數(shù)

JSoup教程

JSoup是一個用于處理HTML的Java庫,它提供了一個非常方便類似于使用DOM,CSS和jquery的方法的API來提取和操作數(shù)據(jù)。

jsoup實現(xiàn)WHATWG HTML5規(guī)范,并將HTML解析為與現(xiàn)代瀏覽器相同的DOM。

  • 從URL,文件或字符串中提取并解析HTML。
  • 查找和提取數(shù)據(jù),使用DOM遍歷或CSS選擇器。
  • 操縱HTML元素,屬性和文本。
  • 根據(jù)安全的白名單清理用戶提交的內(nèi)容,以防止XSS攻擊。
  • 輸出整潔的HTML。

jsoup旨在處理發(fā)現(xiàn)所有格式有差異的HTML; 從原始和驗證,到無效的標簽; jsoup將創(chuàng)建一個明智的解析樹。

實例

獲取維基百科主頁,解析為DOM,并從新聞部分中選擇標題列入元素列表:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

以下是一個完整的示例,在這個示例中,它提取易百教程網(wǎng)首頁的title標簽中的字符串符。

import java.io.IOException;  
import org.jsoup.Jsoup;  
import org.jsoup.nodes.Document;  
public class FirstJsoupExample{  
    public static void main( String[] args ) throws IOException{  
                Document doc = Jsoup.connect("http://www.yiibai.com").get();  
                String title = doc.title();  
                System.out.println("title is: " + title);  
    }  
}

開源

jsoup是一個根據(jù)自由MIT許可證分發(fā)的開源項目。 源代碼可在GitHub獲得:http://github.com/jhy/jsoup/ 。

發(fā)展和支持

如果您有任何關(guān)于如何使用jsoup的問題,或有未來發(fā)展的想法,請通過郵件列表聯(lián)系( http://jsoup.org/discussion )。

如果您發(fā)現(xiàn)任何問題,請在檢查重復(fù)之后提交錯誤。

本教程問題

在本Jsoup教程中,我們是通過一些簡單的開發(fā)和測試實例來一步步演示Jsoup的使用的,但是由于開發(fā)環(huán)境和工具的不同,我們不能保證所有實例均可在您的機器也能正常運行。 如果您在本教程中發(fā)現(xiàn)任何問題或錯誤,可以向我們報告。我們及時修改/修正錯誤以方便后來的學(xué)習(xí)者。