通過使用正則表達(dá)式從文本文件實(shí)現(xiàn)URL提取。表達(dá)式在文本與模式匹配的任何位置獲取文本。 只有re
模塊用于此目的。
我們可以將輸入文件包含一些URL并通過以下程序處理它以提取URL。 findall()
函數(shù)用于查找與正則表達(dá)式匹配的所有實(shí)例。
輸入的文本文件
顯示的是下面的輸入文件。 其中包含幾個(gè)URL。
Now a days you can learn almost anything by just visiting http://www.google.com. But if you are completely new to computers or internet then first you need to leanr those fundamentals. Next
you can visit a good e-learning site like - https://www.yiibai.com to learn further on a variety of subjects.
現(xiàn)在,當(dāng)獲取上述輸入文件并通過以下程序處理它時(shí),我們得到所需的輸出,也就是從文件中提取出來URL地址。
import re
with open("path\url_example.txt") as file:
for line in file:
urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', line)
print(urls)
執(zhí)行上面示例代碼,得到以下結(jié)果 -
['http://www.google.com.']
['https://www.yiibai.com']