博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 匹配中文和英文
阅读量:6378 次
发布时间:2019-06-23

本文共 500 字,大约阅读时间需要 1 分钟。

在处理文本时经常会匹配中文名或者英文word,python中可以在utf-8编码下方便的进行处理。

中文unicode编码范围[\u4e00-\u9fa5]

英文字符编码范围[a-zA-Z]

此时匹配连续的中文或者英文就很方便了,例如:

>>> import re>>> strings = u'中国china美国American'>>> print strings中国china美国American>>> ch_pat = re.compile(ur'[\u4e00-\u9fa5]+')>>> en_pat = re.compile('[a-zA-Z]+')>>> ch_words = ch_pat.findall(strings)>>> en_words = en_pat.findall(strings)>>> print ch_words[u'\u4e2d\u56fd', u'\u7f8e\u56fd']>>> print en_words[u'china', u'American']

 

转载于:https://www.cnblogs.com/chybot/p/4665389.html

你可能感兴趣的文章
Vitamio视频播放器
查看>>
Java编程的逻辑 (66) - 理解synchronized
查看>>
[置顶] android 自定义ListView实现动画特效
查看>>
机器学习A-Z~Logistic Regression
查看>>
聊聊flink的NetworkEnvironmentConfiguration
查看>>
【Go】strings.Replace 与 bytes.Replace 调优
查看>>
RSA签名的PSS模式
查看>>
c# 注销 代码
查看>>
ubuntu 安装-apache2-trac-ldap【验证】-svn-mysql
查看>>
Nginx 安装
查看>>
php GD库
查看>>
项目管理
查看>>
隐私政策
查看>>
二分搜索树
查看>>
[折半查找]排序数组中某个元素出现次数
查看>>
【11-01】Sublime text 学习笔记
查看>>
.wav file research
查看>>
Link-Cut-Tree题目泛做(为了对应自己的课件)
查看>>
关于Android热点模式下的UDP广播
查看>>
多态-典型用法
查看>>