Java里的Charset类怎么用_Java字符编码处理说明

P粉602998670 2025-12-24 00:00:00 次阅读

Java中Charset类用于标准字符集编解码，应优先使用StandardCharsets常量配合String和IO操作，显式指定编码避免乱码，且不提供自动编码检测功能。

Java里的Charset类用于表示字符集（如UTF-8、GBK、ISO-8859-1），它不直接处理字符串转换，而是为字节与字符之间的编解码提供标准支持。核心用途是配合String构造器、getBytes()方法或InputStreamReader/OutputStreamWriter等I/O类，确保跨平台、跨系统时文本不乱码。

用Charset指定字符串编码和解码

避免使用已废弃的字符串编码名（如"UTF8"），改用Charset实例更安全、可读性更强：

将字符串转为指定编码的字节数组：
byte[] bytes = str.getBytes(StandardCharsets.UTF_8);
用字节数组按指定编码
构造字符串：
String s = new String(bytes, StandardCharsets.UTF_8);
推荐始终使用StandardCharsets中的常量（JDK 7+），它们是预定义、不可变、线程安全的Charset实例，比Charset.forName("UTF-8")更高效且无异常风险。

检查和获取可用字符集

运行时可通过Charset.availableCharsets()查看JVM支持的所有字符集（返回Map）：

例如：Charset.availableCharsets().keySet()能列出所有别名，如"UTF-8"、"GBK"、"ISO-8859-1"等；
注意：不同JDK版本或厂商（如OpenJDK vs. Oracle JDK）支持的字符集可能略有差异；
若需动态加载非标准字符集（如某些旧版IBM字符集），可用Charset.forName("IBM1047")，但要捕获UnsupportedCharsetException。

在IO操作中显式指定Charset

文件读写、网络通信中不指定编码极易导致默认平台编码（如Windows上是GBK）引发乱码：

读文件：Files.readString(path, StandardCharsets.UTF_8)（JDK 11+）；
写文件：Files.writeString(path, content, StandardCharsets.UTF_8)；
传统流方式：new InputStreamReader(inputStream, StandardCharsets.UTF_8) 或 new OutputStreamWriter(outputStream, StandardCharsets.UTF_8)；
切勿依赖new FileReader()或new FileWriter()——它们隐式使用系统默认编码，不可移植。