电信行业解决方案与实践
去年12月17日,中国电信发布白皮书《英伟达GPU加速中国电信Spark数据处理》。其建有统一的大数据处理平台。大数据平台包含数据接入、数据处理、数据输出、数据监测四个主要组成部分。如下图所示:
三台服务器,在404GB的模拟数据上,执行SQL数据查询操作(SQL算子主要包含sum、partition、max、left join、group by等运算),CPU上的执行时间为11.33分钟,GPU为2.03分钟。CPU花费的时间为GPU的5.58倍。一台GPU服务器的处理能力相当于5台以上的CPU服务器。
Spark和Deep Learning框架结合
存在的问题是:1)集群交互会有比较大的延迟。2)还需要部署两套环境。所以目前有将Spark和Deep Learning 框架结合的解决方案,旨在打造统一的BigData+AI的平台。例如:Yahooh TensorflowOnSpark、Intel Analytics-Zoo,都是这种出发点。