c – ICU字节顺序标记(BOM)

2019-07-30 01:04:36 阅读：281 来源： 互联网

标签：byte-order-mark c unicode endianness icu

我正在使用ICU的ustdio函数将UnicodeString对象写入一系列编码中的文件,但它似乎不会添加BOM.

我的代码：

void write_file(const char* filename, UnicodeString &str) {

    UFILE* f = u_fopen(filename, "w", NULL, "UTF-16 LE");
    u_file_write(str.getTerminatedBuffer(), str.length() + 1, f);
    u_fclose(f);
}

int _tmain(int argc, _TCHAR* argv[])
{
    UnicodeString str(L"ΠαρθένωνΗ");

    write_file("test.txt", str);

    return 0;
}

当我将LE更改为BE时,文件编码会进行交换,但是没有BOM,十六进制编辑器中的输出文件是：

A0 03 B1 03  C1 03 B8 03  AD 03 BD 03  C9 03 BD 03  97 03 00 00

注意：如果我将代码页设置为“UTF-16”,则会有一个BOM,但是一旦我手动指定了字节序,它就会消失.

或者有没有办法将UnicodeString写入带有BOM的文件？

解决方法:

只是猜测,“UTF-16 LE”和“UTF-16 BE”旨在在明确指定字节顺序时使用,并且在使用该文件的上下文中不需要BOM.

您应该能够将自己的BOM character '\ufeff'编写到文件中.

标签：byte-order-mark,c,unicode,endianness,icu
来源： https://codeday.me/bug/20190730/1577088.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

c – ICU字节顺序标记(BOM)