鍍金池/ 教程/ Python/ 約束搜索
文本翻譯
提取URL地址
處理PDF
塊分類
搜索和匹配
大寫轉(zhuǎn)換
提取電子郵件地址
字符串的不變性
文本處理狀態(tài)機(jī)
雙字母組
閱讀RSS提要
單詞替換
WordNet接口
重新格式化段落
標(biāo)記單詞
向后讀取文件
塊和裂口
美化打印數(shù)字
拼寫檢查
將二進(jìn)制轉(zhuǎn)換為ASCII
文本分類
文字換行
頻率分布
字符串作為文件
約束搜索
詞干算法
符號(hào)化
同義詞和反義詞
過濾重復(fù)的字詞
刪除停用詞
Python文本處理教程
文字摘要
段落計(jì)數(shù)令牌
語料訪問
文字改寫
文本處理簡介
處理Word文檔
Python文本處理開發(fā)環(huán)境
排序行

約束搜索

很多時(shí)候,在得到搜索結(jié)果之后,我們需要更深入地搜索現(xiàn)有搜索結(jié)果的一部分。 例如,在給定的文本主體中,我們的目標(biāo)是獲取Web地址,并提取Web地址的不同部分,如協(xié)議,域名等。在這種情況下,需要借助用于劃分的組功能 搜索結(jié)果以各個(gè)組為基礎(chǔ),分配正則表達(dá)式。 我們通過使用可搜索部分周圍的括號(hào)分隔主搜索結(jié)果來創(chuàng)建這樣的組表達(dá)式,不包括想要匹配的固定單詞。

import re
text = "The web address is https://www.yiibai.com"

# Taking "://" and "." to separate the groups 
result = re.search('([\w.-]+)://([\w.-]+)\.([\w.-]+)', text)
if result :
    print "The main web Address: ",result.group()
    print "The protocol: ",result.group(1)
    print "The doman name: ",result.group(2) 
    print "The TLD: ",result.group(3)

執(zhí)行上面的示例代碼,得到以下結(jié)果 -

The main web Address:  https://www.yiibai.com
The protocol:  https
The doman name:  www.yiibai
The TLD:  com

上一篇:提取URL地址下一篇:單詞替換