A question in .net regular expression matching / .net中一个正则匹配的问题
近日项目需要,用了一下C#中的正则匹配,惊奇的发现\w居然能够匹配到中文。
查了半天MSDN,未果。google后仅得到以下关于Ruby中正则的说明:
\w
字母和数字。等同于[0-9A-Za-z]。
若为匹配多字节字符的正则表达式时,则也会匹配日语的全角字符。
猜测.net内部是用unicode处理数据的,故在正则中\w也匹配到了多字节的中文字符。
待进一步确认中,欢迎指点迷津。
update:
已经确认,见以下链接:
http://www.microsoft.com/china/msdn/library/webservices/asp.net/regexnet.mspx?mfr=true
“预定义的集合元字符” 章节,\w 的说明部分。