全网搜索的未来

写于2017年中的我的一点胡思乱想。两年半后,回头看,这些判断还是正确的。Amazon的胜出不可避免,某司对搜索业务资源投入的减少也显而易见。

Read More

Expander: Google基于图的机器学习平台

最近(2016年10月),机器学习取得了重大进展,使计算机系统能够解决复杂的现实问题。 这些进步之一是Google的研究部门构建的大型基于图的机器学习平台Expender。许多Google产品和功能的技术背后,都在使用Expender。如Inbox中的提醒,Allo中的智能消息回复,与深层神经网络结合为Google Photos中的最新图像识别系统提供动力。

Read More

随机森林和GBDT

  • 随机森林是一个用随机方式建立的,包含多个决策树的集成分类器。其输出的类别由各个树投票而定(如果是回归树则取平均)。
  • GBDT是以决策树为基学习器的迭代算法,注意GBDT里的决策树都是回归树而不是分类树。Boost是”提升”的意思,一般Boosting算法都是一个迭代的过程,每一次新的训练都是为了改进上一次的结果。

Read More

分布式系统:分布式事务

分布式系统的一致性主要考虑的是读写和服务器端的复制。本文主要针对分布式事务。

大型互联网平台往往是由一系列分布式系统构成的,开发语言平台和技术栈也相对比较杂,尤其是在SOA和微服务架构盛行的今天,一个看起来简单的功能,内部可能需要调用多个“服务”并操作多个数据库或分片来实现,情况往往会复杂很多。单一的技术手段和解决方案,已经无法应对和满足这些复杂的场景了。

Read More

分布式系统:一致性协议

在分布式系统中有个CAP理论。对于P(分区容忍性)而言,实际存在无法避免的。只能尽量地在C 和 A 之间寻求平衡。对于数据存储而言,为了提高可用性(Availability),采用了副本备份。当需要修改数据时,就需要更新所有的副本数据,这样才能保证数据的一致性(Consistency)。因此,就需要在 C(Consistency) 和 A(Availability) 之间权衡。

Read More

大话逻辑回归

如果只能学习一个算法的话,我选择逻辑回归。

讲个笑话,逻辑回归既不讲逻辑,也不是回归。

本文目的是以大白话的方式介绍逻辑回归。我们先简要以公式的方式回顾什么是逻辑回归,如何训练。然后,我们用大白话的方式重新解释一次逻辑回归。最后,我们介绍逻辑回归和大脑的关系。

Read More