• 使用云OTS分布式存储系统,无需担心空间不够 • 统一名称空间,双服务和多飞天集群对用户透明
– 社交网络(来往,微博),物流信息(菜鸟物流) – 电商关系:类目/商品/买家/卖家,交易/浏览
– 支持类似Pregel的Java编程接口,面向迭代类型的作业 – 磁盘IO→内存网络,换来更快的性能
• 多租户共享集群 • 基于ACL和Policy的认证授权机制 • 基于project的业务划分 • 基于配额的管理 • 基于历史的优化 • 多种类型计算作业共享集群
• 常驻服务,预先申请好worker - 减少调度开销 • Shuffle数据不落地,直接写网络 • 假设作业规模m*r,要求r个reduce先起,接收map写的
• 支持多种计算模式:SQL,MR,算法库,图计算(Pregel) • 采用伏羲作业,支持DAG,支持基于CPU/MEM的资源调度
• 使用盘古分布式文件系统 • Master-Slave结构 • 基于Paxos的多Master,故障恢复小于一分钟 • 文件分块(Chunk),每块存三份,分布在不同机架
• 表数据采用统一文件格式:CFile,基于列存储的压缩文件格式 • 提供数据上传和下载服务,支持PB/天的吞吐量
➢ User/Role,用于管理用户对Project内实体的访问控制和授权
– 关系密切业务的project放在同一个集群 – 每个project对应一个默认集群,作业总是跑在默认集群上
• 数据存储和计算如何划分 • 数据动态变化,需要保证数据读取正确性 • 跨机房带宽如何使用 • 对用户透明
逻辑回归、随机森林、贝叶斯、k-means、协同过滤、关联 规则、SVD分解等
– 支持海量数据的离线存储和计算 – 以RESTful API的方式提供服务 – 基于飞天分布式平台 – 支持跨集群(机房)数据共享 – 支持SQL、MapReduce、MPI、图计算等编程框架 – 支持常用的矩阵运算和数据挖掘算法 – 支持多租户和基于ACL/Policy的权限控制
• 计算能力 • 水平扩展 • 丰富的处理手段 • 服务化 • 安全机制 • 可运维、可管理 • 稳定性博亚 博亚体育 APP博亚 博亚体育 APP