穿越:2014

第100章 谷歌产生浓厚兴趣


    因为时差的原因,中国虽然已经夜晚了,海外却还处于白天。
    也就是说林灰虽然休息了,海外仍然有很多人处于忙碌的工作状态。
    在麻省理工学院自然语言处理研究中心的某办公室里,伊芙·卡莉还在奋战中。
    事实上自从LIN hUI鼓捣的生成式文本摘要算法问世之后。
    伊芙·卡莉不知道已经有多久没合眼了。
    之所以睡不着不是因为嫉妒,而是因为兴奋。
    用兴奋形容似乎不够准确,确切的说是一种异乎寻常的亢奋。
    当然了亢奋也不是全部,亢奋之外还带着一些畏惧。
    而畏惧深处却又是期待。
    虽然心情很是扇形图,但伊芙·卡莉确定她的每一种心情都不是无缘无故的。
    作为科研工作者,能够接触到一种前所未有的解决问题的方式自然是兴奋的。
    而越是深入了解生成式摘要算法,这种兴奋之感就越来越强。
    随着深入了解,伊芙也越是感觉提出算法的人的实力强劲。
    实力上的差距让伊芙·卡莉有点招架不住,不自觉的生出些许畏惧。
    伊芙·卡莉似乎理解了一句话:
    ——越接近对方的水平,就越了解对方的强大,就会越来越畏惧。
    至于期待就更容易理解了,人类对未知的事物本就是好奇的。
    尽管每种感觉都很合理,不过几种心情混杂在一起总是怪怪的。
    尤其是对于伊芙·卡莉这么一个基本上从来没啥情绪波动的人来说。
    这种感觉更是前所未有的陌生。
    呃,虽然不知道该怎么形容那种奇怪的情愫。
    但内心深处伊芙·卡莉是佩服LINhUI这位来自大洋彼岸的天才的。
    什么叫天才呢?虽然伊芙·卡莉25岁就获得了世界顶级计算机研究机构之一麻省理工学院的计算机学院的博士学位。
    但伊芙·卡莉从来不敢自诩为天才,虽然她一路顺风顺水,但付出的艰辛只有她自己知道。
    在她看来天才的重点不在于“才能”,而在于“天分”
    什么“天才是靠99%的汗水和1%的灵感”这样的话语完全就是骗人的鬼话。
    在伊芙·卡莉眼中,历尽千辛万苦努力取得成功的人或许可以算作人才。
    但这绝对不是天才。天才哪里用得到几近于费力的努力?
    或许天才也需要一点点努力,但绝对不需要这种缘木求鱼一般的努力。
    就好像所有人似乎都知道的走出房间要找到门却各种束手无策。
    而天才就是那个在众人茫然眼光之下信步走到门前并轻轻推开门的那个人。
    “历尽千辛”“苦尽甘来”这些词汇只能描述一般人。
    “闲庭信步”、“举重若轻”这才是属于天才应该有的描述。
    而LIN hUI就是绝对意义上的天才。
    在所有人面对着抽取式摘要算法的瓶颈而找不到走出文本摘要这个房间的方法之时。
    LINhUI恰到好处地出现了,在所有人的茫然下信步般推开了一扇被称为是“生成式文本摘要”的崭新的门。
    在伊芙·卡莉心中,LINhUI就是被崇拜的偶像。
    ……
    崇拜归崇拜,技术没有国界,技术人员却有国界。
    伊芙·卡莉所在的小组接到的任务是尽快跟进LINhUI提出来的技术。
    接到的任务倒不是什么更上级的科研管理机构发出的。
    而是由谷\/歌提出的。
    谷\/歌和伊芙所在的自然语言处理项目是深度战略合作伙伴。
    每年谷\/歌赞助该团队过千万美元。
    说白了谷\/歌是伊芙·卡莉所在研究团队的金主爸爸。
    谷\/歌的任务很简单(至少谷\/歌自己以为是这样):
    ——评估LIN hUI提出的算法实现的可行性,并根据实际情况考虑能否短时间实现复现。
    至于谷\/歌为什么回对林灰提出的算法感兴趣?
    这跟谷\/歌的历史有很大的关系。谷\/歌之所以能有今天很大程度是因为pageRank算法。
    在互联网早期,随着网络上的网页逐渐增多,如何从海量网页中检索出我们想要的页面,变得非常的重要。
    当时着名的雅\/虎和其它互联网公司都试图解决这个问题,但都没能有一个很好的解决方案。
    直到1998年前后,两位斯坦福大学的博士生,拉里·佩奇和谢尔盖·布林一起发明了着名的 pageRank 算法,才完美的解决了网页排名的问题。
    正是因为这个算法,诞生了谷\/歌公司。
    pageRank 是一种通过网页之间的超链接来计算网页重要性的技术。
    以谷\/歌创办人 Larry page 之姓来命名,谷\/歌用它命名也体现了该算法的重视程度。
    该算法可以通过计算计算出数值体现网页的相关性和重要性。
    pageRank 通过网络浩瀚的超链接关系来确定一个页面的等级,把从 A 页面到 b 页面的链接解释为 A 页面给 b 页面投票,谷\/歌根据 A 页面(甚至链接到 A的页面)的等级和投票目标的等级来决定 b 的等级。
    简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
    该算法把整个互联网可以看作是一张有向图图,网页是图中的节点,网页之间的链接就是图中的边。
    借助该算法可以衡量不同网页的根搜索关键词的关联程度从而对网页排序。
    在很长一段时间内,当你在谷\/歌键入关键词后得到的搜索信息。
    搜索信息里那一系列网页对应着的网页排列顺序就是依托pageRank算法进行排序的。
    这个算法的重要性可见一斑。
    page Rank算法不止用于搜索引擎领域。
    还跨界进入了自然语言处理(NLp)领域。
    在NLp方面大名鼎鼎的textRank算法就是在pageRank算法之上而来的。
    而textRank算法一向是抽取式摘要算法的核心算法。
    虽然目前textRank算法主要用于自然语言处理方面。
    但并不代表这个算法不能应用于搜索方面。
    毕竟textRank算法和用于搜索的pageRank算法本是同根生。
    而林灰搞得生成式文本摘要算法(GtSA)虽然表面上看是文本处理算法。
    但事实上也有作用于未来搜索领域的潜质。
    相比于pageRank算法对网页超链接抓取排序。
    有了GtSA算法,谷歌可以更进一步直接对pageRank算法下排名靠前的网页内容进行抓取获取相应的信息。
    按照信息和搜索关键词的关键度再进行二次精确排序。
    这无疑可以大大提高谷\/歌搜索的准确度。
    尽管以现在的技术将生成式文本摘要算法嵌套在pageRank算法之下还很难保证搜索高效率。
    但谁能保证未来的服务器以及计算力水平不会突飞猛进呢?
    万一之后技术能够暴涨呢?
    而且就算短时间内谷歌无法将该技术用于搜索领域。
    生成式文本摘要算法表现出的强大的文字处理能力也是很值得谷歌重视的技术。
    反正从谷歌下达的任务的措辞来看。
    对于生成式文本摘要算法,谷歌不仅重视。
    而且急切渴望获得该技术。
    ……
    然而作为具体的执行人员,对于谷歌提出的任务:
    ——评估LIN hUI提出的算法实现的可行性,并根据实际情况考虑能否短时间实现复现
    伊芙·卡莉就很无语。
    或许在那些屁股决定脑袋的人心中。
    清楚技术路线了,技术复现能够实现与否只是时间长短的问题了。
    但事实哪有那么简单。
    反正进行了一晚上尝试的伊芙·卡莉发现想要进行复现很难。
    抛开LINhUI提出的算法技术本身不谈。
    就是LIN hUI在生成式摘要算法专利中顺手牵羊搞定的那个“Lh文本摘要准确度衡量模型”
    其他团队想要从无到有的构建一个同样的模型都有亿点困难。
    说起来Lh文本摘要准确度衡量模型的构建过程思路倒是很清晰:
    第一,运用语言模型来评估算法生成语言的流畅度;
    第二,使用相似度模型评估文本和摘要之间的语义相关性;
    第三,为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。
    然鹅也仅仅是说起来很简单而已。
    说到把大象放进冰箱也很简单同样是三步:
    ——打开冰箱门,放进大象,关上冰箱门。
    知道怎么做没用,关键还是要执行。
    没办法执行的话,步骤再清晰也没用。
    Lh文本摘要准确度衡量模型的构建过程有三步。
    第一步就很复杂。
    该怎么进行语言模型的构建呢?
    语言模型建模过程中,包括词典、语料、模型选择等。
    问题出在语料库上,语料库一词在语言学上意指大量的文本。
    这类文本通常经过整理,具有既定格式与标记。
    涉及到英文语料库的信息还比较容易,毕竟伊芙所在的团队和牛津、哈佛、耶鲁三所大学的语言学方面都是深度合作的关系。
    但涉及到中文以及其他文字预料信息该怎么处理这就完全不好说了。
    巧妇难为无米之炊。
    没有语料库清楚技术路线什么的也没用。
    倒是可以姑且先抛弃对中文以及其他新闻生成式摘要的研究。
    但是这样几乎等同于放弃了一个庞大的市场。
    而且最关键的是LIN hUI提出的算法本身就能兼顾中文新闻摘要以及英文新闻摘要。
    那么之后LIN hUI会不会直接开发个中文新闻处理成英文摘要的功能呢?
    能搞定文本摘要处理算法的人没道理一个翻译算法都搞不定吧??
    伊芙·卡莉越想越觉得这种可能性很大。
    不然为什么一个摘要软件要做成类似于翻译软件那样的交互风格呢?
    在她们还在踌躇不前的时候。
    对手却早已经大步向前挺进了。
    一时之间伊芙不禁有种酣战过后的无力感。
    这就是所谓的一步落后步步落后吧。
    这种情况还评估啥?
    直接建议谷歌方面把LIN hUI的算法买回来就好了!
    虽然LIN hUI是华国人.
    但这种技术又不是什么涉及到国家命脉的重要技术。
    总不至于不卖吧!
    不卖的话谋求专利授权也可以啊!
    总不至于非跟在别人身后造轮子吧。
    伊芙又没受\/虐\/欲。
    ……
    事实上,不止海外在关注林灰折腾出的算法。
    国内也注意到林灰搞出的动静。
    只不过国内目前的目光主要集中在南风App的软件层面而不是算法层面。
    国央大学副校长兼计算机学院的副\/院\/长贺天昌自南风App上架之初就对该软件保持着高度的关注。
    虽然夜已经深了,他仍然在通过第三方数据网关注着南风App软件的下载情况。
    贺天昌在外界并不怎么出名,但此人在软件行业还算是小有名声。
    其在业界薄有名声。倒不是因为其在软件开发上鼓捣出什么名堂来。
    而是因为其资历老啊!各行各业都看资历,软件行业也不能免俗。
    不过贺天昌的资历也经得起看,他和王J民基本是同一时期鼓捣软件(96年)的人了。
    就这份资历全国互联网\/软件行业能和其比肩的大佬也没几位。
    有这种资历就算在软件行业没啥作为也无所谓。
    真想拉投资的话以其资历在互联网圈子随随便便拉个几千万的投资也不过是打几个电话的事情。
    就这么一个原本搞软件的人怎么跑到大学来了?
    故事要从九几年开始说起,在感受到互联网浪潮之后。
    刚从米国加州理工计算机博士毕业的贺天昌放弃了美国优渥的工作。
    回国参与创业,在王茳民鼓捣出杀毒软件的时候,贺天昌也搞了几个软件。
    不过和前者鼓捣的J民杀毒软件不同。
    贺天昌鼓捣的软件,一般都是专业性很强的付费软件。
    虽然这个软件以现在的眼光来看做的还算可圈可点。
    但这样的软件在96年的中国注定是生不逢时。
    不光96年这样的软件生不逢时,在这之后十多年时间也都是免费软件大行其道,付费应用一直是没啥市场。
    (ps:……付费盗版除外,js早期起家史)
    事实也验证了这点,混迹软件行业六七年,贺天昌除了收获了一些早期互联网红利之外别无所成。
    更多的时候反而是在亲历别人的成功之外。
    虽然他赚的钱和同一时期的人相比相形见绌,但其收入依旧足以羡煞普通人了。
    但人的追求不同,贺天昌更想要的是自我实现。
    然而一个人的命运光奋斗是不行的,不符合是时代诉求再折腾也没用。
    折腾了几款专业性极强的软件没收到回报之后,心灰意冷的贺天昌干脆也不瞎折腾了,刚好有朋友引荐他进入国央大学。
    贺天昌综合思量之后,觉得国央大学还行。
    直接经朋友引荐进入了国央大学任教职。
    这之后他倒是混得顺风顺水,一路辗转爬到很多人难以企及的高度。
    虽然身居常人难以企及的高度。
    但贺天昌因为早年的经历,其目光也时刻关注着国内专业软件的市场。
    然鹅一直一来,贺天昌很失望,打着专业名头的软件不少。
    真正专业的软件却一款都没有。
    一个国家的软件业工业软件鼓捣不出来就算了,专业软件也弄不出来?
    贺天昌对此一直耿耿于怀。
    而南风App的问世却打破了他的心结。
    综合了很多方面的因素衡量,这个软件确实具有专业软件所具有的素质。
    而这个软件的专业模式更是符合专业软件该有的全部特征。
    看到国产软件市场有这样的软件问世,贺天昌可以说是大为欣慰。
    不过旋即又担心了起来,即便有优秀的专业软件没有市场不是一样难免夭折的命运吗?
    看着南风App的第三方数据,虽然下载量不错,但是这个专业模式的付费人数增长才两位数。
    这怎么能行,认认真真做专业软件的人却得不到回报?
    这算什么道理,不行,不能让这样优秀的软件开发者重蹈他昔年的悲剧。
    贺天昌决定做点什么,默默拿起手机拨通了一个老友的电话。