全网搜索的未来

2017-07-12

写于2017年中的我的一点胡思乱想。两年半后，回头看，这些判断还是正确的。Amazon的胜出不可避免，某司对搜索业务资源投入的减少也显而易见。

全网搜索的商业化模式

搜索广告
导流

问题是，全网搜索用户的动机是什么

购物
调研或获取知识
打发时间

全网搜索的挑战

大部分搜索广告由电商或准电商付费，电商平台的壮大会消除小电商长尾，几家电商平台独大。这种趋势下，用户会直接去电商平台搜索。购物搜索上淘宝，采购搜索上阿里巴巴，吃饭购物线下上点评搜索或地图搜索。搜索引擎被绕开了。
调研或获取知识类，有知乎等社交型知识平台，用户产生的内容更准确广泛。
打发时间更有各种垂直娱乐类服务商。
全网搜索本身的内容来源也有了很大变化，各平台不开放优质信息给全网搜索，小内容提供者提供内容的兴趣在减缓甚至直接提供到了封闭的渠道（比如微信公众号）。网上留下来的公共内容没那么有价值和丰富了。

全网搜索的未来

全网搜索是个利润率很低的事情，需要动用大量服务器去爬取各种各样的内容并进行分析。全网搜索的优势是更广阔的知识库。我想这也是为什么Google收购JG并整合出Knowlege Graph的原因吧。

中短期内看全网搜索的价值所呈现的形式：数据。

长期来看，全网搜索只有一条路：知识，即智能化问答。王小川也有同样的观点。我想这也是为什么谷歌和百度都制定以AI为先的战略。

相对应的，全网搜索公司也许以后会有很大一块筹码放在教育上。人生大事，生老病死，房产教育。

知识类技术 虽然翻译技术取得较好的效果，然而seq2seq的模式，其实机器并不理解待翻译的内容。语义分析理解目前仍然没有大的突破。

这里列举搜狗的汪仔一些技术细节。汪仔语音识别的声学模型使用了 CLDNN（CNN+LSTM+DNN）+CTC 的端到端模型结构，特别是为了降低识别延迟，LSTM 使用了单向 LSTM，特征尽量少的使用下文特征，降低时延，为后续答题模块抢答流出足够时间。同时考虑到一站到底题库中专有名词、命名实体等类型词汇较多，在训练汪仔语音识别的语言模型时，除了基于搜狗搜索和输入法的海量文本数据之外，还重点结合了知乎、搜狗百科等领域相关数据，最终完成了 Ngram+RNNLM 的模型训练。

最后，我忽然明白理解了Ray Kurzweil老人家近5年的动态。老人家虽然算法科研方面没有DNN几个巨头那么夺目，但是他也许是人类第一号的AI产品经理，看问题如此准确。姜还是老的辣。

Contents