html解析中遇到的&#开头的unicode编码字符串的处理和转换 - Python

2022 年 04 月 09 日

1980 次浏览

1134字数

用lxml库处理网页时遇到的，写个转换程序用用。
注：ASCII转unicode和中文转unicode是两个东西（起码在unicode在线转换网站上这两个不同），虽然说是中文，其实输入英文字母也没问题（表述可能不够准确，但大概是那么个意思）。

原理

常见的unicode编码格式如下：

\u670d\u52a1\u5668

如果换成&#开头的格式如下：

&#26381;&#21153;&#22120;

其实这两个是同一个东西，只是开头和进制不同

|十六进制|十进制|unicode转中文|
|-|-|-|
|670d|26381|服|
|52a1|21153|务|
|5668|22120|器|

代码

测试代码

print(ord('服'))
print(ord('务'))
print(ord('器'))

# 控制台打印
# 26381
# 21153
# 22120

print(chr(26381))
print(chr(21153))
print(chr(22120))

# 控制台打印
# 服
# 务
# 器

转换代码

中文转&#格式unicode编码字符串

# 输入中文，输出str类型的&#开头的unicode编码数据
def zh2uni(zhDat):
    rDat = ""
    for n in zhDat:
        rDat = rDat + '&#' + str(ord(n)) + ';'
    
    return rDat

print(zh2uni('服务器'))

# 控制台打印
# &#26381;&#21153;&#22120;

&#格式unicode编码字符串转中文

def uni2zh(uniDat):
    rDat = ''
    while True:
        if len(uniDat) == 0:
            break
        rDat = rDat + chr(int(uniDat[2:7]))
        uniDat = uniDat[8:]
    return rDat

print(uni2zh('&#26381;&#21153;&#22120;'))

# 控制台打印
# 服务器

html解析中遇到的&#开头的unicode编码字符串的处理和转换 - Python

原理

代码

转换代码

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

SEO优化之增加自定义description和keywords标签菜单 - [Typecho/Handsome]

解决Windows下VLC播放HDR视频外挂字幕纯黑问题

[萤火工场CEK8902] eMMC固件烧录

Microsoft Visual C++ Redistributable 2005-2019 各版本下载链接(2019/2017/2015/2013/2012/2010/2008/2005)

开源家庭云系统CasaOS使用体验记录 [长期更新]

使用轻量服务器+企业微信搭建股票盈亏查询Bot

浅谈网赌网站的充值方法

如何查找一个域名的子域名记录

使用轻量COS自动备份我的世界游戏存档

腾讯云轻量应用服务器免费升配

html解析中遇到的&#开头的unicode编码字符串的处理和转换 - Python

原理

代码

转换代码

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

html解析中遇到的&#开头的unicode编码字符串的处理和转换 - Python

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款