一个由 Content-Length 与 Content-Type 引发的问题

2018-05-17 jude 更多博文 » 博客 » GitHub »

原文链接 http://judes.me/tech/2018/05/17/content_length_and_content_type.html
注:以下为加速网络访问所做的原文缓存,经过重新格式化,可能存在格式方面的问题,或偶有遗漏信息,请以原文为准。


问题

在之前介绍 fiddler 使用技巧的文章中,我提到伪造 json 返回响应时,要设置正确的 Content-Length 。

规范定义了在大多数情况要设置 Content-Length ,只有少数情况例外。在浏览器实现上,如果设置了比正确数量要少的 Content-Length ,那么内容会被截断,若比正确数量要多,那么会一直处在等待加载更多内容的状态。

之前也提到过,如果伪造的 json 中只有英文和数字,选中它们后,编辑器上显示选中多少字符, Content-Length 就设为多少。如果 json 中还有中文,那么一个中文字符就要当成三个英文字母来计算。

为什么是这样?

答案

首先从规范中摘取 Content-Length 部分定义:

The Content-Length entity-header field indicates the size of the entity-body, in decimal number of OCTETs...

上面的 OCTET 指的是 , 任意连续的八比特数据,可以近似理解为一个字节。

也就是说 Content-Length 指的是响应 body 的字节长度,而不是字符串长度。

同一个字符,在不同的编码规则下,有可能会有不同的字节长度。比如下面展示的大写字母 "A" 的情况:

字符 ASCII UTF-16 UTF-8
A 01000001 00000000 01000001 01000001

正因如此,服务器应该在设置 Content-Length 的同时,也设置字符编码 charset 。根据这里所说,如果不设置,在 HTTP 1.1 中 charset 默认为 ISO-8859-1 。

在响应头的 Content-Type 字段,可以设置 charset ,通用的做法是设置为 UTF-8 。UTF-8 兼容 ASCII 字符集,同时采用变长编码方式,节省网络流量。

在 UTF-8 变长编码方式下,英文和数字用一字节编码,绝大部分汉字用三字节编码。这就是为什么一个中文字符要当成三个英文字母。

工具

如果你很不幸像我一样要经常计算带有中文的 Content-Length ,可以尝试用 javascript 代码帮你计算字符串的字节长度:

//https://stackoverflow.com/questions/5515869/string-length-in-bytes-in-javascript
function byteLength(str) {
  // returns the byte length of an UTF-8 string
  var s = str.length;
  for (var i=str.length-1; i>=0; i--) {
    var code = str.charCodeAt(i);
    if (code > 0x7f && code <= 0x7ff) s++;
    else if (code > 0x7ff && code <= 0xffff) s+=2;
    if (code >= 0xDC00 && code <= 0xDFFF) i--; //trail surrogate
  }
  return s;
}

javascript 用的是 Unicode 字符集,上面的代码用 charCodeAt 获取字符的 Unicode 编码值,然后根据值所在的区间和 Unicode 与 UTF-8 的对应关系,推算字节数。

更多参考