时间:2017-06-01 类别:
其它资讯 |
最近几年谈到大规模机器学习的框架,经常被提起的是Parameter Sever,它是为了解决超大规模、超大维度吸收数据的机器学习的问题。因为它很简单,就分成了Parameter Sever和worker两组的节点。Parameter Sever可以把模型分布式在各个节点上,每个Work去进行算法的局部训练,然后同步地去跟Parameter Sever来更新模型或者获取**的模型。这种模式,如果是稠密数据,比如有亿维度数据是密的,肯定是不可行的。为什么呢?因为中间的通信会变得非常庞大。幸运的是超大规模机器学习的问题一般是稀疏的,所以目前Parameter Sever解决大规模机器学习最关注的一个方向。
市面上开源的大规模机器学习的框架并不是特别多或特别成熟。比如基于Hadoop Map Reduce Mahout,有很大的问题,效率很低。我曾经跑过一个算法,在几百台机器上花了50分钟,数据是100+G,找了大内存机器去跑,自己写了一个算法5分钟就跑完了。实际上,基于Hadoop来做机器学习的效率非常低。后来Spark出现了,各种机制、调度比Hadoop更加优化一点。所以MLLib里面算法的效率是大大高于基于Hadoop的算法的效率。Graph-Basc有一个项目是Graphlab,后来基于Graphlab成立了一个公司叫Dato, 前几个月刚改名Turi,刚刚被苹果收购了。Parameter Sever开源的有ps-Lite,这个项目我们也做过一些调研,发现它总体来说是比较轻量级的框架,但是对于实际应用上来说,可能还不够完善。另外一个是Petuum,在机器学习界很多人应该也知道它,我们现在也在跟他们在谈一些合作,看看怎么把Petuum真正带到实际应用中来。
我们现在要反思一下,我们看到前面的大规模机器学习解决的路径是什么?基本上是在考虑如何能够更好地并行,提高并行的效率。然后通过增加机器,计算能力和内存资源来解决计算的瓶颈。 但是大规模机器学习的计算瓶颈是算法本身造成的问题,一个是计算量跟数据量的超线性增长带来的,一个是多次迭代带来的。如果我们的算法能够解决这两个问题,在进行大规模机器学习的时候,对系统的压力会减轻很多。我们的理想算法是什么样子的?是线性算法,而且**是迭代一次就能够收敛并且取得很好的效果。
本文来源:http://www.chinapex.com.cn/news/company-news
智能数据运算时间也是有很大的优势
在这一块,我们也做了很多的研究工作。之前我在IBM做机器学习研究的时候,看到了一个很有意思的算法,就是范伟博士在2003年提出来的随机决策树的算法。这个算法跟一般的决策树或随机决策树有很大的不同,每一颗树的构建过程是完全随机的,随机构建空树以后,把数据灌进去,然后统计每个节点的分布。预测的时候,每个树给出一个正常的预测过程,给出一个预测的概率,然后把多颗树的结果做平均就可以了。我在2010年对算法的复杂度做过一些分析,应该说这是一个线性的算法,计算了跟数据量增长呈线性关系。
而且通常在单机上测的话比决策树速度要快两个数量级以上,通常跑的更精准,而且更不容易over fitting,算是比较好的base line算法。但是也有一个问题,因为树结构的算法,并行化是比较困难,单机上比较好实现。怎么在构建的过程中同步树的状态,其实是非常麻烦的事情。
我们后来基于对随机决策树理论的研究,发现其实随机决策树起作用的不是因为用了决策树这个结构。其实随机决策树起到的作用,仅仅是把数据随机打散,每一个数据是不同的打散方式。我们想着用局部敏感哈希来代替树的功能,就提出了随机决策哈希的算法。这个文章发表在了2015年KDD的Bigmine Workshop上面。我们看看这两个算法的精度跟传统的算法的精度,后面三个分别是决策树, SVM和Logistc Regression我们可以看到精度上面,这两个都有比较大的优势。而且和传统的算法相比,运算时间也是有很大的优势。
本文来源:http://www.chinapex.com.cn/news/company-news
资讯来源:http://www.chinapex.com.cn/news/company-news
|
友情提示:
信息由用户自行发布,采用请谨慎,我们鼓励您当面交易。如有不符合法规或造成侵权,请及时通知本站更正或删除,具体联系方式见页面底部联系我们。名站在线只为传递信息,我们不做任何双方证明,也不承担任何法律责任。 信息转载,请标明来源于www.fwol.cn ,谢谢。
|
20吨燃气蒸汽锅炉的常见压力是多少?最近随着国家环保政策的推行和人们环保意识的提高,越来越多的客户选择燃气锅炉。燃气锅炉以其清洁环保性、价格便宜、方便使用,迅速占领了如今锅炉的市常而1.25mpa的燃气蒸汽锅炉更是人们普遍采用的燃气蒸汽锅炉。
在国内比较知名的燃气锅炉厂家也不少,在这当中小编要推荐一位资质比较长久的,那就是郑锅锅炉股份有限公司,原机械部定点制造企业,中西部**的锅炉生产基地,拥有河南**A级锅炉制造许可证。郑锅70多年的锅炉生...冷水机**秘诀把控产品品质提升服务质量冷水机**的秘诀把控产品品质提升服务质量
无论哪个行业,要想持续发展,都有必要条件,那就是严格保证产品质量以及服务力度。东跃进制冷也一样,要想冷水机畅销,必须狠抓产品质量,通过更加专业的服务,赢得客户的信任和青睐。
扎实做好产品,严格把控品质,提升服务质量
冷水机行业门槛低,为了节省成本,获得**的利润回报,导致一些不良厂家采用假冒伪劣的配件,使得产品质量根本无法保证。另外,各地人力成本、原材料上涨...饭后吃什么水果** 5种水果效果**1.草莓
草莓不仅外形惹人喜爱,同时其中所含有的营养价值更受到大家的,再加上特有的酸酸甜甜口干,更加让我们爱不释手。在研究中发现,草莓中的营养价值很高,除了含有大量丰富的蛋白质之外,同时还含有糖类、有机酸和果胶等营养物质,这些营养物质都有利于我们****。尤其是草莓中所含有的维生素C,这种营养物质能够很好的促消化作用,以此来达到****的目的。
不仅如此,在草莓中还含有大量丰富的维生素B群和大量的纤维...Haier客服苏州平江区海尔液晶电视售后苏州平江区海尔液晶电视售后维修电话0512-6583-0219“至诚奉献、以致求信”
苏州平江区海尔液晶电视售后维修我们承诺以优惠的价格提供**质的服务。苏州平江区海尔液晶电视售后维修-24小时工作随叫随到,您满意是我们的服务宗旨。
苏州平江区海尔液晶电视售后海尔维修-是我市以维修产品为主体发展起来的**企业之一,经多年来在维修行业中的磨砺,不断吸收海尔企业管理的先进经验。在技术上对应维修的每个分类均具有**技术人才...Skyworth客服苏州平江区创维液晶电视售后苏州平江区创维液晶电视售后维修电话0512-6583-0219≤坚守品质铸就品牌≥
苏州平江区创维液晶电视售后维修我们承诺以优惠的价格提供**质的服务。苏州平江区创维液晶电视售后维修-24小时工作随叫随到,您满意是我们的服务宗旨。
苏州平江区创维液晶电视售后创维维修-是我市以维修产品为主体发展起来的**企业之一,经多年来在维修行业中的磨砺,不断吸收创维企业管理的先进经验。在技术上对应维修的每个分类均具有**技术人才,有...
|
|