中文繁体、简体的差异,在NPL中类似英文中的大小写,但又比大小写更为复杂,比如同样为繁体字,大陆、香港和台湾又不一样。先前写过一篇中文繁简转换的文章,感觉写的不太详细,今天就针对Python下如何使用做进一步的记录。
OpenCC(Open Chinese Convert)
OpenCC是一个开源的中文繁简转化项目,支持词汇级别的转换、异体字转换和地区习惯用词转换(中国大陆、台湾、香港)。主要特点为:
- 严格区分「一简对多繁」和「一简对多异」。
- 完全兼容异体字,可以实现动态替换。
- 严格审校一简对多繁词条,原则为「能分则不合」。
- 支持中国大陆、台湾、香港异体字和地区习惯用词转换,如「裏」「裡」、「鼠標」「滑鼠」。
- 词库和函数库完全分离,可以自由修改、导入、扩展。
- 支持C、C++、Python、PHP、Java、Ruby、js and Android。
- 兼容Windows、Linux、Mac平台。
opencc-python是用纯Python所写的OpenCC实现。需要注意的是使用pip安装时正确的命令是pip install opencc-python-reimplemented,如果使用pip install opencc-python会出现如下错误:
Complete output from command python setup.py egg_info:
Traceback (most recent call last):
File "", line 1, in
File "C:\Users\qw\AppData\Local\Temp\pip-install-rvsnpo_d\opencc-python\setup.py", line 1, in
from distribute_setup import use_setuptools
ModuleNotFoundError: No module named 'distribute_setup'
opencc-pytho的使用:
from opencc import OpenCC cc = OpenCC('t2s') # hk2s: Traditional Chinese (Hong Kong standard) to Simplified Chinese # s2hk: Simplified Chinese to Traditional Chinese (Hong Kong standard) # s2t: Simplified Chinese to Traditional Chinese # s2tw: Simplified Chinese to Traditional Chinese (Taiwan standard) # s2twp: Simplified Chinese to Traditional Chinese (Taiwan standard, with phrases) # t2hk: Traditional Chinese to Traditional Chinese (Hong Kong standard) # t2s: Traditional Chinese to Simplified Chinese # t2tw: Traditional Chinese to Traditional Chinese (Taiwan standard) # tw2s: Traditional Chinese (Taiwan standard) to Simplified Chinese # tw2sp: Traditional Chinese (Taiwan standard) to Simplified Chinese (with phrases) to_convert = '開放中文轉換(Pure Python)' converted = cc.convert(to_convert) print(converted)
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
当前文章:使用Python进行中文繁简转换的实现代码-创新互联
本文地址:http://www.jxjierui.cn/article/ccdecp.html