UTF-8, Big5, Unicode 編碼的差異

以下是個人的理解，如果有錯歡迎提出~

之前接觸到了 Windows programming，常常被編碼的問題所困擾，所以做了這篇筆記~

💡 前情提要

1 byte = 8 bits，而每個 bit 可以表示 0 或 1，所以 1 byte 有 256 種組合 (2^8)。

電腦只讀的懂 0 和 1，但為了方便我們通常會將 1 byte 用兩個 16 進位的數字表示。

可以利用這個網站去查詢編碼，可以更快速的了解各編碼的差異

最古老的編碼方式，包含了英文大小寫、標點符號、控制字元(換行)

1 byte 最多只有 256 種組合，對於中文字根本就不夠用，況且世界上有那麼多的國家啊～所以各個國家都有自己的編碼原則，而繁體中文的編碼即為 Big5

為了解決各語言有自己的編碼問題，使用 Unicode 即可以將所有語言的字元給定一個編號

用來實現 Unicode 編號，但有些編碼其實用不到那麼多位元，所以 UTF-8 會基於 Unicode 的編號調整 byte 數量，像是一般的英文字就只需要 1 byte，而中文則花了 3 bytes 來編碼