文件大小 | 18.9M | 更新时间 | 2017年06月19日 | |||
授权方式 | 免费软件 | 软件语言 | 简体中文 | |||
当前版本 | v1.0 | 系统要求 | WinXP/Win7/winAll | |||
开发商 | 0 | 官方网站 | 暂无 |
腾讯angel是一款由腾讯大数据部门推出的第三代计算平台,软件采用 java 和 scala 语言开发,针对机器学习而打造高性能分布式计算框架,采用参数服务器架构,扩展性更强大,支持数据并行,模型并行,十亿级别的模型训练。功能介绍
angel 是一个基于参数服务器(parameter server)理念开发的高性能分布式机器学习平台,它基于腾讯内部的海量数据进行了反复的调优,并具有广泛的适用性和稳定性,模型维度越高,优势越明显。angel 由腾讯和北京大学联合开发,兼顾了工业界的高可用性和学术界的创新性。
angel 的核心设计理念围绕模型。它将高维度的大模型合理切分到多个参数服务器节点,并通过高效的模型更新接口和运算函数,以及灵活的同步协议,轻松实现各种高效的机器学习算法。
angel 基于 java 和 scala 开发,能在社区的 yarn 上直接调度运行,并基于 ps service,支持 spark on angel,未来将会支持图计算和深度学习框架集成。
版本特性
angel 1.0.0 新特性:
1.parameterserver 功能
基于 matrix/vector 的模型自动切分和管理,兼顾稀疏和稠密两种格式
支持对 model 进行 push 和 pull 操作,可以自定义复杂的 psfunc
提供多种同步控制机制(bsp/ssp/asp)
2. 开发运行
语言支持:系统基于 scala 和 java 开发,用户也可以自由选择
部署方便:可以直接在 yarn 社区版本中运行,也支持本地调试模式
数据切分: 自动切分读取训练数据,默认兼容了 hadoop fs 接口
增量训练:训练过程中会自动 checkpoint,而且支持加载模型后,增量训练
3.ps service
只启动 psserver 和 psangent,为其他分布式计算平台提供 ps 服务
基于 ps-service,不需要修改 spark 核心代码,直接开发 spark-on-angel 算法,该模式无缝支持 breeze 数值运算库
4. 算法库
集成 logistic regression,svm,kmeans,lda,mf,gbdt 等机器学习算法
多种优化方法,包括 admm,owlqn,lbfgs 和 gd
支持多种损失函数、评估指标,包含 l1、l2 正则项
5. 算法优化
lda 采用了 f+lda 算法用于加速采样的速度,同时利用流式参数获取的方法减少网络参数获取的延迟
gbdt 使用两阶段树分裂算法,将部分计算转移到 ps,减少网络传输,提升速度