中文的正则表达式-USB迷|专注于互联网分享

中文的正则表达式

可用于爬取txt文件中的中文字符
编码方式：UTF-8
正则表达式：[\u4e00-\u9fa5]
原理：像[a-z]一样，包括了由utf-8编码的所有中文字符
例：
`# coding:utf-8

import re

string = ‘我是个好人。’
pattern =’[\u4e00-\u9fa5]+’
pat = re.compile(pattern)

print(pat.findall(string)[0])`

中文的正则表达式

可用于爬取txt文件中的中文字符
编码方式：UTF-8
正则表达式：[\u4e00-\u9fa5]
原理：像[a-z]一样，包括了由utf-8编码的所有中文字符
例：
`# coding:utf-8

import re

string = ‘我是个好人。’
pattern =’[\u4e00-\u9fa5]+’
pat = re.compile(pattern)

print(pat.findall(string)[0])`