中文的正则表达式
中文的正则表达式
中文的正则表达式
可用于爬取txt文件中的中文字符
编码方式:UTF-8
正则表达式:[\u4e00-\u9fa5]
原理:像[a-z]一样,包括了由utf-8编码的所有中文字符
例:
`# coding:utf-8
import re
string = ‘我是个好人。’
pattern =’[\u4e00-\u9fa5]+’
pat = re.compile(pattern)
print(pat.findall(string)[0])`
最新文章
- java中的反射机制是什么
- CAS 和 AQS
- Dubbo:Dubbo服务发现
- JKD1.8新特性
- NetSuite SuiteQL Query Tool
- SQLyog 64位破解版 v12.09
- 文件服务器 NFS
- 01
- 计算机专业英语积累(包括前端和后端常用的)~持续更新
- 文本数据分析:删除停用词
- python thinker(菜单,滚动条,回调函数,对话框)
- 前端MVC设计模式
- 【分布式微服务】消息中心初步搭建
- RabbitMq消息中心
- C语言升序与降序
- tensorflow学习笔记(二十六):构建TF代码
- 【tflearn系列教程】(一)为什么要学tflearn?
- 斯德哥尔摩的照片七:城市漫步(下)
- 结构体嵌套结构体,及其的初始化
- 迷宫寻宝(一) 82