曾经一度以为,微软会像摩托罗拉、柯达一样,日薄西山,没想到在第三任CEO纳德拉的带领下竟然获得重生,他做了什么,促使这头大象翩翩起舞?带着这个问题,最近几天阅读了他的第一部著作《刷新》(英文名《Hit Refresh》)。

Read More

如果多个etcd集群的键值不重复,能否将数据合并?能否像数据库一样,将数据从旧库导出,然后在新库插入就万事大吉呢?答案是不能,etcd并没有提供类似功能,倒是有个备份功能,但是多个集群的备份数据却无法直接合并到一起。难道只能写个循环,将老集群的数据遍历出来,然后再插入新集群吗?这样也太土了吧,于是开始在网上找各种资料,可总是无功而返,看来只能老老实实看etcd官方资料了。功夫不负有心人,终于找到一条类似命令make-mirror,这条命令可以实时将一个集群的数据备份到其他集群,感觉跟我上面的想法一致,那么它可以用来做数据合并吗?请看接下来的实验吧!

Read More

聚类是机器学习中一种重要的无监督算法,它试图将数据集中的样本划分为若干个通常不相交的子集,每个子集成为一个“簇”(cluster),理论上来说,每一簇对应一个潜在的概念,但这个概念事先并不知道,需要使用者来把握。本文是常见聚类算法的综述,为了加深理解,大部分算法配有动图。

Read More

最近在将自研算法集成到pyspark生态中,为了降低用户学习成本,计划将接口、最终生成模型都按照pyspark要求来实现,但是在互联网上并没有找到官方的开发指南,所以只能自己一步一步的琢磨,今天就先来看下pyspark最终保存的模型长什么样,后面再全面总结如何融入生态。

Read More