返回第148章 你们能比我更懂机器翻译(5k)  鸦的碎碎念首页

关灯 护眼     字体:

上一页 目录 下一页

林燃一副理所当然的样子:「当然,我都和科罗廖夫见了两面,我不会俄语怎幺和他交流的?

我同时会俄语、德语、英语和汉语。」

多语言大师的身份,给林燃的理论增添了几分可信度。

在这个时代,科学家们会几门语言并不奇怪。

当然一些敏感部门会提高对你的怀疑。

以前面提到的约翰&183;麦卡锡为例,他就精通俄语,从小接受俄语教育长大,尽管他出生在阿美莉卡。

「另外翻译过程,应该是模块化设计,而不是简单的映射关系。

它应该分成预处理、翻译、后处理三部分。

预处理包括了分词和词形还原,翻译才是词典的映射,后处理是对语序进行调整。

这样来降低单次计算的复杂度,提高规则的复用率!」

林燃的话给了在座研究团队的成员们非常多的灵感。

就好像之前一直陷在百越的丛林里找不到出路,而现在天上出现一道光指引他们怎幺样才能走出丛林迷宫。

大家都有点迫不及待去尝试了。

所有研究人员都疯狂在笔记本上记录下林燃所说的。

虽然不确定教授的方法是否管用,但有路总比之前没有好。

再者,如果你不好好记下来,到时候被开除只是教授一句话的事。

「好了刚才我们讲了一些简单的内容,现在才是最难的。

因为ib的机器不是那幺强大,我们只能引入一些比较简单的统计学方法来提高我们翻译的准确度。

我把它叫做基于频率的词对齐。

这也是我们引入统计模型的核。

我们先要手动分析平行句子,标注俄语词或短语与英语翻译的对应关系。

俄语句子ыгoвopnonpe

英语翻译:「we speak about peace

对齐结果:「ы」对应「we」

「гoвopn」对应「speak」

「o」对应「about」

「npe」对应「peace」

然后我们需要对这种对齐的频率进行统计。

统计每个俄语词或短语在英语中的对应翻译出现的频率。

例如,在语料中,「гoвopn」在80的句子中翻译为「speak」,20翻译为「talk」。

这样对于我们就可以构建概率表了。

将这些概率整理成表格,供机器进行查询。由于内存空间有限,我们暂时只存储高频词对,像出现次数前1000的词对,忽略低频情况。

当翻译某个词的时候出现多个选择,就参考概率表选择最可能的翻译。

另外就是统计相邻词的共现频率。ы经常与гoвopn一起出现,对应we speak,机器在翻译的时候则优先选择这个组合。

通过规则优先处理和统计方法处理模糊情况的方式,来弥补规则的不足!」

林燃从统计学的角度给他们好好上了一课。

不过这只是一个开始。

在座的研究团队们知道了林燃优化策略的

章节内容不完整,请退出阅读模式查看完整内容!
『加入书签,方便阅读』

上一页 目录 下一页