聚类算法综述
聚类是机器学习中一种重要的无监督算法,它试图将数据集中的样本划分为若干个通常不相交的子集,每个子集成为一个“簇”(cluster),理论上来说,每一簇对应一个潜在的概念,但这个概念事先并不知道,需要使用者来把握。本文是常见聚类算法的综述,为了加深理解,大部分算法配有动图。
聚类是机器学习中一种重要的无监督算法,它试图将数据集中的样本划分为若干个通常不相交的子集,每个子集成为一个“簇”(cluster),理论上来说,每一簇对应一个潜在的概念,但这个概念事先并不知道,需要使用者来把握。本文是常见聚类算法的综述,为了加深理解,大部分算法配有动图。
最近在将自研算法集成到pyspark生态中,为了降低用户学习成本,计划将接口、最终生成模型都按照pyspark要求来实现,但是在互联网上并没有找到官方的开发指南,所以只能自己一步一步的琢磨,今天就先来看下pyspark最终保存的模型长什么样,后面再全面总结如何融入生态。
在Python中,获取调用者信息对于调试、打印日志等非常有帮助,本文将介绍获取调用者信息的两种方法。
vi/vim是各Linux发行版默认安装的文本编辑工具,熟练使用它对文本操作效率的提升有很大帮助。但掌握vim并非易事,尤其是数不胜数的快捷键有时会令人抓狂。还好有大牛将快捷键在键盘中的位置标记出来了,生成了一张“键盘图”(类似学习五笔打字时的字根图),我们可以将其打印出来贴在电脑旁边或者设置为桌面,忘记了就瞄一眼,时间长了定能孰能生巧。
通常情况下,我们访问Linux服务器时会使用Putty或者Xshell等SSH客户端工具,但这些工具均需要安装后才能使用,在安全要求不高(如局域网)或者只是开放服务器给其他人体验某种功能时,客户端这种方式略显繁琐。本文将介绍一款开源神器shellinabox,只需要浏览器就可以进行远程访问,相信用过它后,定会爱不释手。