上图分别是使用t-SNE和Sammon mapping可视化MNIST数据集后的效果图。从中可以看出t-SNE图中,数据更成团状,可视化效果更好。
t-SNE的不足主要有四个:
主要用于可视化,很难用于其他目的。比如测试集合降维,因为他没有显式的预估部分,不能在测试集合直接降维;比如降维到10维,因为t分布偏重长尾,1个自由度的t分布很难保存好局部特征,可能需要设置成更高的自由度。
t-SNE倾向于保存局部特征,对于本征维数(intrinsic dimensionality)本身就很高的数据集,是不可能完整的映射到2-3维的空间
t-SNE没有唯一最优解,且没有预估部分。如果想要做预估,可以考虑降维之后,再构建一个回归方程之类的模型去做。但是要注意,t-sne中距离本身是没有意义,都是概率分布问题。
训练太慢。有很多基于树的算法在t-sne上做一些改进。
该工具包提供了两种快速实现tSNE的方法:
Barnes-hut tsne:源于Multicore tSNE,适用于小规模数据集,时间复杂度为O(nlogn)。
Fit-SNE:源于Fit-SNE的C++实现方法,适用于样本量在10,000以上的大规模数据集,时间复杂度为O(n)。
代码:
https://github.com/pavlin-policar/fastTSNE
https://www.zhihu.com/question/52022955
t-sne数据可视化算法的作用是啥?为了降维还是认识数据?
https://mp.weixin.qq.com/s/Rs9ri6Xs5R-yitrda8pJMg
详解可视化利器t-SNE算法:数无形时少直觉
https://mp.weixin.qq.com/s/_DXMlNZHVKm2jMnLGQFM_Q
还在用PCA降维?快学学大牛最爱的t-SNE算法吧
http://www.datakit.cn/blog/2017/02/05/t_sne_full.html
t-SNE完整笔记
https://yq.aliyun.com/articles/70733
比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南
https://mp.weixin.qq.com/s/7Vy7l1YyBT7rMYW2i1AsuA
线性判别分析(LDA)原理详解
https://mp.weixin.qq.com/s/cnzQ7XepftDOZXslCf1MUA
你真的会用t-SNE么?有关t-SNE的小技巧
https://mp.weixin.qq.com/s/lbpe2NO1m8S38wpnp47BEg
通过可视化隐藏表示,更好地理解神经网络
https://mp.weixin.qq.com/s/F08aOjKsVdRInN6GPNJ7cA
t-SNE:最好的降维方法之一
https://mp.weixin.qq.com/s/qHOmUJgalvxwEBCBiiR7ig
t-SNE
https://mp.weixin.qq.com/s/EaeVywxcQX3goW7WqYiOBA
探究Softmax的替代品:exp(x)的偶次泰勒展开式总是正的
https://mp.weixin.qq.com/s/GEagy8-BwWcuWgzG9e8XbA
t-SNE:可视化效果最好的降维算法
原文:
https://mp.weixin.qq.com/s/HapJwwmN3-dbQvzp2jzt1w
一文看懂机器学习的算法体系
https://mp.weixin.qq.com/s/6KRNawRE1i8de3ctgv6aVg
机器学习词汇表:纵览机器学习基本词汇与概念
https://mp.weixin.qq.com/s/AtImcIBaRIJVXpOP2hruBQ
Google发布机器学习术语表 (包括简体中文)
https://www.zhihu.com/question/469612040
刚进算法团队,大牛们讨论高深的cv术语和算法,如何才能听懂?
从大的分类来说,机器学习的算法可分为两类:
1.定义一个模型,用训练数据训练模型的参数,然后用训练好的模型进行预测。这种方法的缺点在于,预测效果和模型与样本的匹配程度有关。比如对非线性样本采用线性模型,其预测效果通常不会太好。但是增加模型的复杂度,又会导致过拟合。
2.定义一个函数分布,赋予每一种可能的函数一个先验概率,可能性越大的函数,其先验概率越大。但是可能的函数往往为一个不可数集,即有无限个可能的函数,随之引入一个新的问题:如何在有限的时间内对这些无限的函数进行选择?一种有效解决方法就是高斯过程回归(Gaussian process regression,GPR)。
Radford M. Neal,1956年生,加拿大科学家。多伦多大学博士(1995)和教授。贝叶斯神经网络的发明人。导师为Geoffrey Hinton。
个人主页:http://www.cs.toronto.edu/~radford/
Danie G. Krige,1919~2013,南非矿业工程师和统计学家,威特沃特斯兰德大学教授。地理统计学早期的代表人物之一。
http://www.cnblogs.com/hxsyl/p/5229746.html
浅谈高斯过程回归
https://mqshen.gitbooks.io/prml/content/Chapter6/gaussian/gaussian_processes_regression.html
Gaussian Processes Regression
http://www.gaussianprocess.org/gpml/chapters/RW.pdf
Gaussian Processes for Machine Learning
http://people.cs.umass.edu/~wallach/talks/gp_intro.pdf
Introduction to Gaussian Process Regression
http://wenku.baidu.com/view/72f80113915f804d2b16c173.html
高斯过程回归方法综述
https://mp.weixin.qq.com/s/ZE_Chzlgy_7wl9E9q1ckOA
AlphaGo Zero用它来调参?“高斯过程”到底有何过人之处?
https://mp.weixin.qq.com/s/VzN02XW3yN2peqTD6q-4Cg
从数学到实现,全面回顾高斯过程中的函数最优化
https://zhuanlan.zhihu.com/gpml2016
高斯世界下的Machine Learning
https://mp.weixin.qq.com/s/FJAgpbBgRA2Zk3BuiEwjdw
看得见的高斯过程:这是一份直观的入门解读
https://zhuanlan.zhihu.com/p/58987388
多元高斯分布完全解析
https://zhuanlan.zhihu.com/p/73832253
通俗理解高斯过程及其应用
https://zhuanlan.zhihu.com/p/75072046
Gaussian process classification初介绍——回归与分类点点滴滴
https://zhuanlan.zhihu.com/p/75589452
高斯过程Gaussian Processes原理、可视化及代码实现
https://mp.weixin.qq.com/s/Bw0vD9EEQijjE1gaIAetHw
如何推导高斯过程回归以及深层高斯过程详解
https://mp.weixin.qq.com/s/1HggYumIF2pAomCtA-eu6g
如何知道一个变量的分布是否为高斯分布?
https://www.zhihu.com/question/20184666
推荐系统中用到的热传导算法和物质扩散是怎么用的?
http://tis.hrbeu.edu.cn/oa/pdfdow.aspx?Sid=20160307
基于影响力控制的热传导算法
http://www.doc88.com/p-7082821463697.html
改进的热传导和物质扩散混合推荐算法
假设我们需要估计选举中每个候选人的平均票数。现假设该国有3个城镇:
A镇有100万工人,B镇有200万工人,以及C镇有300万退休人员。
如果我们选择从A、B和C镇分别抽取10、20和30个随机样本,那么我们可以在总样本一定的情况下,产生较小的估计误差。
采样过程:集合中总元素个数为n,随机选取k个元素。
step1:首先将前k个元素全部选取。
step2:对于第i个元素(i>k),以概率k/i来决定是否保留该元素,如果保留该元素的话,则随机丢弃掉原有的k个元素中的一个(即原来某个元素被丢掉的概率是1/k)。
结果:每个元素被最终被选取的概率都是k/n。
在这个算法中,我们最终从Tomek Links中删除了大多数元素,这为分类器提供了一个更好的决策边界。
在现有元素附近合并少数类的元素。
参考:
https://mp.weixin.qq.com/s/d3bpfnx-JGY7whqnHwAmWw
机器学习中不得不知的5种采样方法,分层、水塘等!
https://mp.weixin.qq.com/s/OZ-HfxBgFSvqeH8AEjGluQ
采样算法哪家强?一个针对主流采样算法的比较
早在于谦当政时,就将锦衣卫的权限刑狱之权给“阉割”了。那就是锦衣卫不能随意抓人和办案,要抓人和办案必须有刑部给事中用印,内阁用印,司礼监用印的“三印法帖”,简称“驾帖”。如果没有驾帖,锦衣卫无权办案拿人。。。
锦衣卫从此“阉割”,至于东厂,那就是司礼监的秉笔太监兼的一个差事,锦衣卫都草鸡了,东厂还监督什么???而且驾帖也必须是司礼监用印啊,所以锦衣卫就从此几乎在司礼监面前根本抬不起头了。因为东厂的存在就是监察锦衣卫,而实际上在于谦改制后,锦衣卫实际上就成了内阁的走狗了。。。
西厂成立的第一个月,汪直就办了一件大案,震惊朝野。
洪熙朝和宣德朝三杨之一——工部尚书兼谨身殿大学士杨荣,被他抄家了。杨荣的孙子杨泰被砍头,杨荣的曾孙杨晔直接干掉在锦衣卫诏狱。
杨荣是明代内阁制度的创立者之一,是文官的代表人物。此案一出,内阁直接和宪宗翻脸,导致成立了仅四个月的西厂被迫关门。。。
您的打赏,是对我的鼓励