分类: 词典技术

5 篇文章

汉语大词典光盘版3.0数据提取
首先声明,汉语大词典光盘版3.0数据的提取现在没什么实际意义,写这篇文章只是出于兴趣以及存个档。 许多年前(2016年),我在论坛上发过一个汉语大词典光盘版3.0的提取工具:汉语大词典光盘版3.0及提取工具 - 词库制作交流区 - Dictionary-Making - 掌上百科 - PDAWIKI - Powered by Discuz!。 这个…
DK牛津英汉双解大词典图片版mdx
整理硬盘,从中翻出了一本DK牛津英汉双解大词典PDF,里面的图片还算清晰,而这本词典文字部分可以算是COD9的再编本,刚好现在有了COD9,想着可以利用其词头做个图片版,于是开始动手。 首先是要整理出每页首字。利用abby fineReader OCR整个pdf,然后保存为每页一个txt文件的形式,主要是便于提取页眉字头。保存为word理论上利用v…
COD9和牛津现代英汉双解词典第九版的差异对比
三年前,我从COD9光盘转制数据制作了COD9英文版的mdx,当时没有公开发布,如今三年期已过,再加上论坛上也有了COD9的双解版,所以还是打算发布出来了。在有双解版存在的情况下,英文原版发布的意义就在于两个文本可以互相对照,补其缺失和不足,互相完善。 下面我列出了批量对比词头找出的差异以及我在使用中发现的双解版的错误: 英文版多出的词条 caut…
牛津高阶双解第四版光盘数据简单分析和提取2
自造字的转换 牛津高阶双解第四版光盘数据由于使用的是BIG5码,所以文本会有缺字的情况。上次提取数据后,在处理缺字时发现,一些缺字变成了问号,这给还原缺字造成了一些麻烦,因为都成了问号就无法批量按编码还原了。继续对光盘源文件研究,发现这些缺字也是有编码的。BIG5码有三段分区可以让用户自定义字符,这几个分区对应Unicode的私有区,转换后虽然是乱…
牛津高阶双解第四版光盘数据简单分析和提取
看到论坛上还有许多人对牛津高阶双解第四版很感兴趣,也有人为了完善此词典而不断修正。然而此词典的数据在不断地转制过程中,失真较多,纵有多个版本相互参照,也不一定能校正过来。昨天有个朋友提起,我又找来原光盘的数据看了看,发现里面的数据基本上是明文存储的,研究了一番,最终基本成功提取。 光盘的数据文件在DATA目录中,比较大的文件有三个:JRDCONV.…