牛津高阶双解第四版光盘数据简单分析和提取2 自造字的转换 牛津高阶双解第四版光盘数据由于使用的是BIG5码,所以文本会有缺字的情况。上次提取数据后,在处理缺字时发现,一些缺字变成了问号,这给还原缺字造成了一些麻烦,因为都成了问号就无法批量按编码还原了。继续对光盘源文件研究,发现这些缺字也是有编码的。BIG5码有三段分区可以让用户自定义字符,这几个分区对应Unicode的私有区,转换后虽然是乱… 2022-8-28 22:05 | 3,205 | 8 | 词典技术 827 字 | 4 分钟