并行机器学习算法
并行机器学习技术因其作为解决大数据挖掘和学习的重要手段,得到各级政府部门和国内外IT厂商的高度重视。
目前,多核技术和计算机集群技术的实现,使得单个任务在成百上千,甚至数万个计算单元上同时运行变得可行。虽然单个计算单元运算能力的提高已经逐步陷入停滞状态,尤其在PC机的处理器上,纳米级的颗粒度已经难以逾越。
成果和流行趋势
并行机器学习算法的研究在以下一些方面取得了重要的成果。
1)并行化编程技术的研究。
目前比较流行的研究是通过MapReduce、MPI、CUDA、OpenMP等并行编程模型对传统的机器学习技术进行并行化的改造和拓展。例如:09年提出了适用于大数据聚类的多节点并行K均值算法PKMeans,给出了基于Hadoop云平台的并行聚类算法的具体并行方法和详细策略。
2)学习数据的并行化处理研究。
分布式计算智能优化方法与并行机器学习技术进行有机结合,将是并行机器学习技术未来重要发展方向之一。