轶哥

📚 Having fun with AI Agent. Always learning.

解决XML报错:Input is not proper UTF-8, indicate encoding
  •   更新:2020-07-21 00:21:16
  •   首发:2020-07-21 00:14:40
  •   教程
  •   4590

如果使用Chrome浏览器访问XML地址,返回报错信息:

Input is not proper UTF-8, indicate encoding !
Bytes: 0x08 0xE6 0xBA 0x90

这是由于返回回来的数据存在ASCII控制字符。XML规范不支持这部分控制字符。

这个报错提示是Chrome浏览器生成的报错,不是服务器端返回的报错。

关于该报错的详细信息请参阅:《PRB: Error Message When an XML Document Contains Low-Order ASCII Characters》。

解决方法

使用正则替换这部分控制字符\x00-\x1F\x7F或替换不可打印字符\x00-\x1F\x7F-\x9F

JavaScript:

'string'.replace(/[\x00-\x1F\x7F]/g, '')

控制字符是 ASCII 范围0-31中特殊的不可见字符。正常情况下这些字符很少用在 JavaScript 中,包含这些字符的正则表达式很可能编写有误,因此部分ESLint规则可能将其视为错误,可将该行设置no-control-regex: "off"

JAVA:

Regex.Replace(xmlStr, "[\x00-\x1F\x7F]","");

总结与额外发现

刚开始遇到这个问题,以为类似MySQL存储字符宽度超过3个字节的UTF8编码的问题。尝试过删除文本中的Emoji表情,但是仍然没能解决问题。但是在探索过程中发现了JS过滤Emoji表情的准确方法。

JavaScript引擎把utf-16的4字节字符,拆分成两个ucs-2的2字节字符。因此4字节utf-16在js中被用两个字符来表示,高位范围为0xD800 - 0xDBFF,低位范围为0xDC00 - 0xDFFF

因此,检测包括Emoji表情在内的utf-16字符可以使用正则表达式/[\ud800-\udbff][\udc00-\udfff]/g进行过滤,即过滤utf8非3字节编码的字符串。

H = char.charCodeAt(0) // 取出高位
L = char.charCodeAt(1) // 取出低位

判断包含Emoji表情的字符串长度,需要使用

Array.from(string).length

来代替string.length

emojiLength.png

本站RSS订阅地址:https://www.wyr.me/rss.xml

打赏
交流区

暂无内容

尚未登陆
发布
  上一篇 (PHP实现Github头像缓存)
下一篇 (玩客云刷OpenWRT)  

评论回复提醒