COD9和牛津现代英汉双解词典第九版的差异对比
三年前,我从COD9光盘转制数据制作了COD9英文版的mdx,当时没有公开发布,如今三年期已过,再加上论坛上也有了COD9的双解版,所以还是打算发布出来了。在有双解版存在的情况下,英文原版发布的意义就在于两个文本可以互相对照,补其缺失和不足,互相完善。 下面我列出了批量对比词头找出的差异以及我在使用中发现的双解版的错误: 英文版多出的词条 caut…
|
4,993
|
|
1982 字
|
9 分钟
牛津高阶双解第四版光盘数据简单分析和提取2
自造字的转换 牛津高阶双解第四版光盘数据由于使用的是BIG5码,所以文本会有缺字的情况。上次提取数据后,在处理缺字时发现,一些缺字变成了问号,这给还原缺字造成了一些麻烦,因为都成了问号就无法批量按编码还原了。继续对光盘源文件研究,发现这些缺字也是有编码的。BIG5码有三段分区可以让用户自定义字符,这几个分区对应Unicode的私有区,转换后虽然是乱…
|
3,205
|
|
827 字
|
4 分钟
牛津高阶双解第四版光盘数据简单分析和提取
看到论坛上还有许多人对牛津高阶双解第四版很感兴趣,也有人为了完善此词典而不断修正。然而此词典的数据在不断地转制过程中,失真较多,纵有多个版本相互参照,也不一定能校正过来。昨天有个朋友提起,我又找来原光盘的数据看了看,发现里面的数据基本上是明文存储的,研究了一番,最终基本成功提取。 光盘的数据文件在DATA目录中,比较大的文件有三个:JRDCONV.…
|
2,341
|
|
1201 字
|
9 分钟