穿越:2014

第82章 领先一代半的算法


    而此时处在舆论漩涡之中的林灰在干什么呢?
    当然是在废寝忘食地查阅那些跨越时空的“参考资料”。
    这里面有价值的信息太多了。
    很多在后世平平无奇的东西放到眼下这个时空中都是乱杀的存在。
    但林灰没有被激动的情绪所左右。
    因为林灰始终清楚领先半步是先驱,领先一步是先烈。
    技术真领先个一年半载还好说,冷不丁一下子领先别人四五年就出大问题了。
    只有能够契合14年这个时代背景的技术才是林灰寻找的有价值的东西。
    在前世那部thinkpad里几乎没翻找多长时间。
    林灰就找到了他的猎物:
    ——生成\/抽取复合式新闻摘要算法。
    这种算法在前世并不算特别新鲜的玩意。
    林灰之所以看中它是因为这个算法成熟。
    某种程度上成熟就意味着稳定、性能可靠。
    林灰几乎不需要再经过额外的调教就直接拿这种算法开发之前他构想的那个新闻摘要软件。
    当然了,这个算法也只是在前世那个时空不算新鲜而已。
    放到14这个时空里,依旧是领先一年的技术。
    虽然只领先一年,也完全够用了。
    就算是只领先半年,也照样让你绝望!
    你没打破我垄断之前,我各种高价讹诈赚取巨额利润。
    你打破我垄断了,我直接白菜价跟着你一块摆烂。
    气不气?
    别人气不气不知道。
    反正兔子已经气得想咬人了。
    更何况算法这种东西迭代本来就快!
    领先一年时间几乎等同于技术方面领先一代了。
    而生成\/抽取复合式新闻摘要算法更是领先14年这个时空主流新闻摘要算法一代半。
    这可不是林灰夸张。
    事实上,现在的新闻摘要自动生成的方式还是抽取式新闻摘要。
    抽取式顾名思义就是按照一定的权重从新闻原文中寻找跟中心思想最接近的一条或几条句子。
    抽取式摘要还在用着“古老”的text Rank排序算法。
    这种算法大体思想是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001。
    之后再对上述得到的关键语句进行排序,以期能得到想要的摘要。
    客观来说,这种算法虽然也挺高效。
    但问题在于抽取式摘要主要考虑单词词频,并没有考虑过多的语义信息。
    也正因为如此,这种抽取式摘要很难获取复杂新闻的核心内容。
    而且这种摘要方式的一个极其明显的弊端在于。
    抽取式摘要对英文新闻还算能凑合着用。
    但对于中文新闻完全是无所适从的状态。
    总而言之,抽取式的摘要目前虽然已经比较成熟。
    但是抽取质量及内容流畅度均差强人意。
    正因为抽取式摘要的种种不足。
    之后又出现了生成式摘要算法。
    生成式摘要算法得益于深度学习研究的深入。
    这种摘要以一种更接近于人的方式生成摘要。
    这就要求生成式模型有更强的表征、理解、生成文本的能力。
    生成式则是计算机通读原文后,在理解整篇文章意思的基础上,按机器自己的话生成流畅的概括。
    生成式新闻摘要主要依靠深度神经网络结构实现。
    生成式摘要在理解新闻内容方面相比抽取式摘要有着先天优势。
    但这种摘要也不是完全没有弊端。
    这种摘要方式很容易受到原文长度的制约。
    当把一篇很长新闻放在生成式摘要算法前。
    其表现大概率为:(⊙﹏⊙)太长不看!
    而生成\/抽取复合式新闻摘要算法则综合了抽取式摘要算法和生成式摘要算法的优点。
    对于较长的新闻,利用该算法可以实现先抽取核心内容。
    再在核心内容的基础上进行生成。
    总而言之,如果依托生成\/抽取复合式新闻摘要算法开发一款软件的话
    也完全能够吊打尼克·达洛伊西奥开发的软件。
    毕竟尼克开发的软件。
    无论是Summly还是Yahoo News digest(雅虎新闻摘要)
    这些都是基于抽取式算法的。
    生成\/抽取复合式新闻摘要算法在效率方面可以说是吊打抽取式摘要算法。
    不过话说回来这么吊的算法只开发一个软件然后卖出去。
    似乎有点亏。
    怎么说也是领先于时代的技术。
    似乎可以水几篇论文什么的。
    呃,不过高中才毕业就发表论文的话似乎有点过于惊世骇俗了。
    究竟怎么做才能物尽其用呢?