原始字符串被設計用來作為一些處理器(主要是正則表達式引擎)的輸入。這種處理器會認為這種未匹配的末端反斜杠是種錯誤，所以，原始字符串也就不允許以奇數(shù)個反斜杠結(jié)束。反過來，他們允許你使用斜杠來表示轉(zhuǎn)義，包括\"表示"，\t 表示 TAB 等。當原始字符串用于這些處理器時，這個規(guī)則適用。

如果原始字符串不用于正則表達式等處理器，只是簡單的代表一個字符串，那么該串中的 \ 就是 \,而不再具有轉(zhuǎn)義的含義，這就是所謂的‘原始’。

下面我會一步步的解釋字符串和原始字符串的區(qū)別

1.用于單獨的字符串表示:

簡單字符串中存在 \ 轉(zhuǎn)義行為，而原始字符串中 \n 就是 \n 字符

>>> s = "i have\na dream"
>>> r = r'i have\na dream'
>>> print s
i have
a dream
>>> print r
i have\na dream

2.原始字符串用于正則表達式中

我們使用 windows 路徑來做例子介紹原始字符串的一次轉(zhuǎn)義

>>> path = r"\this\is\a\path\"
  File "<stdin>", line 1
    path = r"\this\is\a\path\"    #原始字符串不允許單數(shù)個\結(jié)尾，不管是用于正則還是普通字串
                             ^
SyntaxError: EOL while scanning string literal
>>> path = r"\this\is\a\path\ "[:-1] 
>>> path
'\\this\\is\\a\\path\\'        #定義了一個待匹配的字符串
>>> reg1 = r'\\this\\is\\a\\path\\' #定義了自然字符串表示的正則表達式
>>> import re
>>> g = re.match(reg1, path)    #使用自然字符串進行匹配
>>> print g.group()
\this\is\a\path\               #匹配到了結(jié)果，表示真實的\字符可以被自然字符串以\\匹配上
>>>                            #\\轉(zhuǎn)義的結(jié)果就是\

3.簡單字符串用于正則表達式中

讓我們使用上面的 path 變量來制作簡單字符串用來匹配的例子

>>> reg2 = '\\this\\is\\a\\path\\'
>>> g = re.match(reg2, path)         #竟然報異常了，根據(jù)異常的意思是行尾是虛假的轉(zhuǎn)義
Traceback (most recent call last):  #下面我們再探究原因，先把行尾的\\去掉，再次進行匹配
  File "<stdin>", line 1, in <module>
  File "D:\Python27\lib\re.py", line 137, in match
    return _compile(pattern, flags).match(string)
  File "D:\Python27\lib\re.py", line 244, in _compile
    raise error, v # invalid expression
sre_constants.error: bogus escape (end of line)

>>> reg2 = '\\this\\is\\a\\path'    
>>> g = re.match(reg, path)         #按照原始字符串的理解，這里應該可以匹配上的，但是沒有
>>> print g.group()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

為什么會出現(xiàn)差異，又為什么到處都建議正則匹配時要使用r'字符串'呢？

讓我們分析下原始字符串和簡單字符串的區(qū)別：簡單字符串如果想輸出‘\’,需要進行轉(zhuǎn)義即'\'才會輸出一個'\'；那原始字符串想要輸出'\'，則直接寫即可'\'。

這里有些亂，我覺得主要在于 str、repr 在搗亂：

>>> print path                     #這里調(diào)用str，人們習慣的顯示方式
\this\is\a\path\
>>> path                           #這里調(diào)用repr，真實的顯示方式(比str的顯示僅多了一層轉(zhuǎn)義)
'\\this\\is\\a\\path\\'

讓我們?nèi)繉⒄鎸嵉娘@示方式當做參照物，即

path 的真實顯示是：'\this\is\a\path\'
簡單字符串的正則表達式 reg2 的真實顯示是：'\this\is\a\path'
原始字符串的正則表達式 reg1 的真實顯示是：'\\this\\is\\a\\path\\'
從真實的顯示來看匹配就容易理解的多了，而且沒有了原始和簡單字符串之分，都看做是正則引擎應用的串。從上面可以看出 reg2中\(zhòng) 只能匹配\，而 path 中是 \，需要像 reg1 中的 \\ 來進行匹配。

追根溯源向來比較繞，還是簡單記住使用規(guī)則，匹配路徑 \ 字符，需要普通字符串輸入 4 個斜杠(\\)匹配上，而原始字符串僅需要 2 個斜杠(\)即可匹配上。這也是鼓勵使用原始字符串進行正則匹配的原因。

上一篇：python 實現(xiàn) select 和 epoll 模型 socket 網(wǎng)絡編程下一篇：python simplejson 模塊淺談

Python FAQ3-python 中 的原始(raw)字符串

Python FAQ3-python 中的原始(raw)字符串