更新时间:2022-11-01 10:14:46 来源:极悦 浏览1100次
在 Java 中,当我们处理String时,有时需要将字符串编码为特定字符集。编码是一种将数据从一种格式转换为另一种格式的方法。字符串对象使用 UTF-16 编码。UTF-16 的问题在于它不能被修改。只有一种方法可以用来获得不同的编码,即 byte[] 数组。如果我们得到意外的数据,编码的方式是不合适的。在本节中,我们将学习如何在Java中对字符串进行编码。
在继续本节之前,我们必须了解字符编码。让我们快速浏览一下。让我们了解为什么我们需要对字符串进行编码。
字符编码是一种将文本数据转换为二进制数的技术。我们可以为特定字符分配唯一的数值,并将这些数字转换为二进制语言。这些二进制数稍后可以根据它们的值转换回原始字符。
假设我们有德语字符串Tschüss,需要对其进行编码。考虑以下代码片段:
字符串 str = "Tschüss" ;
字节[] bytesOfString = str.getBytes();
String encoded_String = new String(bytesOfString, StandardCharsets.US_ASCII); assertNotEquals(encoded_String, str);
如果我们使用 US_ASCII 对字符串进行编码,它会给出Tsch?ss,因为 US_ASCII 编码不理解非 ASCII 字符 ( ü )。当我们将 ASCII 编码的字符串转换为 UTF-8 时,我们得到相同的字符串。
字符串 str = "再见" ;
字节[] bytesOfString = str.getBytes();
String asciiEncondedEnglishString = new String(bytesOfString, StandardCharsets.US_ASCII);
assertEquals(encoded_String, str);
如果 byte[] 数组包含非 Unicode 文本,我们可以使用String构造函数将文本转换为 Unicode。相反,我们也可以使用String.getBytes()方法将 String 对象转换为非 Unicode 字符的 byte[] 数组。让我们使用getBytes()方法对字符串进行编码。
Java String类提供了getBytes() 方法,用于将字符串编码为 UTF-8。该方法将字符串转换为字节序列并将结果存储到数组中。
句法:
公共字节[] getBytes(String charsetName) 抛出 UnsupportedEncodingException
它将 charsetName 解析为参数并返回字节数组。如果不支持命名字符集,它会抛出UnsupportedEncodingException 。
让我们创建一个将字符串转换为 UTF-8 编码的 Java 程序。
StringEncodingExample.java
公共类 StringEncodingExample
{
公共静态void main(String args[]) 抛出 异常
{
//要编码的字符串
字符串 str = "谷歌云" ;
//调用getBytes()方法并将一个字节数组存入array[]
字节 数组[] = str.getBytes( "UTF8" );
System.out.println( "编码字符串:" );
//增强的循环遍历数组
对于 (字节 x:数组)
{
//打印字节序列
System.out.print(x+ " " );
}
}
}
输出:
编码字符串:
71 111 111 103 108 101 32 67 108 111 117 100
我们还可以使用 StandardCharset 类对字符串进行编码。对字符串进行编码有两个步骤。首先,将字符串解码为字节,然后将其编码为 UTF-8。例如,考虑以下代码:
字符串 str = "Tschüss" ;
ByteBuffer 缓冲区 = StandardCharsets.UTF_8.encode(str);
String encoded_String = StandardCharsets.UTF_8.decode(buffer).toString(); assertEquals(str, encoded_String);
0基础 0学费 15天面授
Java就业班有基础 直达就业
业余时间 高薪转行
Java在职加薪班工作1~3年,加薪神器
工作3~5年,晋升架构
提交申请后,顾问老师会电话与您沟通安排学习