甚至有些时候林灰都能直接听懂尹芙·卡莉所表达的内容。
尽管如此,林灰依然没丢掉翻译(黄静)跟尹芙·卡莉沟通。
有些大牛明明自己会英文。
为什么涉及到一些重要场合仍然要带翻译呢?
翻译不完全是为了翻译本身。
更多是为了一定的容错性。
虽然涉及到文本摘要这种东西林灰都是相当熟悉不过的,很少出现错误。
但毕竟两个时空是有些区别的。
林灰不小心表暴露了什么岂不尴尬。
在常人面前如果林灰不小心暴露了什么专业上的马脚可能很难被发现。
如果是直接同尹芙·卡莉交流的话。
面对着一个同行直接交谈的话,林灰并不能保证不会露出马脚。
有翻译在的话,多多少少多了一层缓冲。
尽管如此,林灰说话依旧要慎之又慎。
尹芙·卡莉向林灰着重介绍了这个时空里人们是如何评估文本相似度的。
按照尹芙卡莉的表述,林灰才知道。
原来此时这个时空的人们主要是利用基于知识库的方法来计算语义文本相似度的。
不过这个时空人们主要是利用基于网络知识的方法来计算的。
林灰知道这种方法的。
这类方法是基于知识库计算相似度的一种。
这种方法主要利用网络大型知识库资源,如wk百科和摆渡百科等。
通过网页内容和网页间的超链接进行相似度计算。
随着互联网的快速发展,网络知识愈加丰富。
能够充分利用网络中的资源进行语义文本相似度计算自然是一个不错的思路。
不过基于知识库的方法来计算语义文本相似度可不只是这一种方法。
据林灰所知基于知识库的语义文本相似度计算方法根据知识库的类型其实是可以分为两大类。
除了基于网络知识方法的话。
还有一类是基于本体的方法。
这类方法运用结构化语义词典进行计算。
其基本思想就是运用这些语义词典中包含的概念信息和概念间的层次关系进行语义文本相似度计算。
按理说既然想到了基于知识库的语义文本相似度计算方法的话应该首先想到基于本体的相似度计算方法才对才对啊。
推荐下,追书真的好用,这里下载大家去快可以试试吧。】
为什么没先想到基于本体的方法?
反而先想到了基于网络知识的方法?
回想起尹芙先前的自我介绍,林灰恍然大悟。
尹芙的团队没想到这种方法也可以理解。
毕竟尹芙他们的团队原本是和谷/歌方面深度合作的。
基于网络知识的方法利用网页内容和超链接相似度进行计算的话虽然不容易。
但谷/歌的老本行pagerank算法引入到nlp领域后实现的功能本就跟这个差不多。
这样看来,和谷/歌方面的团队有过深度合作关系的尹芙团队忽视基于本体的方法而直接选择基于网络知识的方法也是可以理解的。
说起来基于网络知识方法计算相似度实现起来并不容易。
毕竟网页中知识颗粒度较粗。
说白了就是网页中有用的东西少。
加之部分网页的知识结构化程度较低。
如果直接对所有的网页链接进行分析,会导致知识含量稀疏、计算困难等问题。
因此必须找网页结构高同时知识内容集中的网页才适合开发基于网络知识评估文本相似度的方法。
什么样的网页具有这一特征呢?
wk百科和摆渡百科。