机器学习的具体算法(1)--数据可视化

数据可视化

  数据可视化是大数据领域非常倚重的一项技术,但由于业内浮躁的大环境影响,这项技术的地位渐渐有些尴尬。尤其是在诸如态势感知、威胁情报等应用中,简陋的可视化效果太丑,过于华丽的可视化效果只能忽悠忽悠外行,而给内行的感觉就是刻意为之、华而不实。
  曾几何时,可视化技术不过是一种数据分析的手段罢了。惭愧的说就是我们的算法还不够智能,必须依靠人类的智慧介入分析。所以,需要通过可视化技术把高维空间中的数据以二维或三维的形式展示给我们这样的低维生物看,展示的效果如何也就直接决定着我们分析的难度。

从SNE到t-SNE再到LargeVis的总结

  抛开浮躁的大环境,在数据可视化领域还是有人踏踏实实做研究的,比如深度学习大牛Hinton(SNE)、Maaten(t-SNE)还有唐建大神(LargeVis,新鲜出炉,WWW’16最佳论文提名)。
  SNE奠定了一个非常牢靠的基础,却遗留了一个棘手的拥挤问题;
  t-SNE用t分布巧妙的解决了拥挤问题,并采用了多种树算法改进算法效率;
  LargeVis在t-SNE改进算法的基础上,参考了近年来较为新颖的优化技巧,如随机投影树、负采样、边采样(实质也是负采样)等,直接将训练的时间复杂度降至线性级。
  在表示学习和深度学习如此火热的年代,任何一种经典的模型或方法都有可能在其他领域发挥不可思议的妙用。word2vec中的Skip-gram模型和负采样优化技术在LargeVis中的应用就是很好的证明。

  值得一提的是,Maaten提出t-SNE的时间是2008年,进一步改进t-SNE的时间是2014年,唐建提出LINE和LargeVis的时间分别是2015年和2016年。从这个角度看,t-SNE还是一个非常经典的算法,毕竟傲视群雄了这么多年……不过从另一个角度看,科研之路漫漫,一项值得称道的技术或改进不是一蹴而就的,是要经过长时间积累和沉淀的。

参考资料:
http://bindog.github.io/blog/2016/06/04/from-sne-to-tsne-to-largevis/

猜你喜欢

转载自blog.csdn.net/wydbyxr/article/details/81262157
今日推荐