全网搜索的未来

写于2017年中的我的一点胡思乱想。两年半后,回头看,这些判断还是正确的。Amazon的胜出不可避免,某司对搜索业务资源投入的减少也显而易见。

全网搜索的商业化模式

  • 搜索广告
  • 导流

问题是,全网搜索用户的动机是什么

  • 购物
  • 调研或获取知识
  • 打发时间

全网搜索的挑战

  • 大部分搜索广告由电商或准电商付费,电商平台的壮大会消除小电商长尾,几家电商平台独大。这种趋势下,用户会直接去电商平台搜索。购物搜索上淘宝,采购搜索上阿里巴巴,吃饭购物线下上点评搜索或地图搜索。搜索引擎被绕开了。
  • 调研或获取知识类,有知乎等社交型知识平台,用户产生的内容更准确广泛。
  • 打发时间更有各种垂直娱乐类服务商。
  • 全网搜索本身的内容来源也有了很大变化,各平台不开放优质信息给全网搜索,小内容提供者提供内容的兴趣在减缓甚至直接提供到了封闭的渠道(比如微信公众号)。网上留下来的公共内容没那么有价值和丰富了。

全网搜索的未来

全网搜索是个利润率很低的事情,需要动用大量服务器去爬取各种各样的内容并进行分析。全网搜索的优势是更广阔的知识库。我想这也是为什么Google收购JG并整合出Knowlege Graph的原因吧。

中短期内看全网搜索的价值所呈现的形式:数据。

长期来看,全网搜索只有一条路:知识,即智能化问答。王小川也有同样的观点。我想这也是为什么谷歌和百度都制定以AI为先的战略。

相对应的,全网搜索公司也许以后会有很大一块筹码放在教育上。人生大事,生老病死,房产教育。

知识类技术 虽然翻译技术取得较好的效果,然而seq2seq的模式,其实机器并不理解待翻译的内容。语义分析理解目前仍然没有大的突破。

这里列举搜狗的汪仔一些技术细节。 汪仔语音识别的声学模型使用了 CLDNN(CNN+LSTM+DNN)+CTC 的端到端模型结构,特别是为了降低识别延迟,LSTM 使用了单向 LSTM,特征尽量少的使用下文特征,降低时延,为后续答题模块抢答流出足够时间。同时考虑到一站到底题库中专有名词、命名实体等类型词汇较多,在训练汪仔语音识别的语言模型时,除了基于搜狗搜索和输入法的海量文本数据之外,还重点结合了知乎、搜狗百科等领域相关数据,最终完成了 Ngram+RNNLM 的模型训练。

最后,我忽然明白理解了Ray Kurzweil老人家近5年的动态。老人家虽然算法科研方面没有DNN几个巨头那么夺目,但是他也许是人类第一号的AI产品经理,看问题如此准确。姜还是老的辣。

Contents