Python GPU2:GPU加速Spark大数据分析处理

Python GPU2:GPU加速Spark大数据分析处理

Spark从社区3.0 版本开始,加入了对GPU的支持,Spark将计算密集型的操作和处理交由GPU来执行,从而加速了端到端的处理速度。
鉴于许多数据处理任务的并行性质, GPU的大规模并行架构自然应能执Spark数据处理查询,并能像 GPU 加快人工智能 (AI) 领域的深度学习 (DL) 那样来加快查 询速度。因此, NVIDIA® 已与 Spark 社区合作,共同致力在 Spark 3.x 中实现GPU加速。
虽然 Spark 是以分区的形式将计算布在各个节点上,但每内向来是在CPU核心上执行的。但 Spark 中引入 GPU 加速,可带来诸多优势。其一减少所 需的服务器数量,降低基础架构成本。而且查询速度提升后用户可在更短时间就获得结果。此外,由于 GPU 加速是透明的, Spark 上构建的应用无需任何改变,即可获得 GPU 加速的好处。
notion image
中国电信建有统一的大数据处理平台。大数据平台包含数据接入、数据处理、数据输出、数据监测四个主要组成部分。如下图所示。
notion image