内存应用邮攀垃圾收受接收
控制批处理时光距离内的数据量
Spark Streaming会把批处理时光距离内获取到的所稀有据存放在Spark内部可用的内存中。是以必须确保在当前节点上SparkStreaming可用的内存容量至少能容下一?批处理时光距离内所有的数据。比如一个批处理时光距离是1秒,然则1秒产生了1GB的数据,那么要确保当前的节点上至少有可供SparkStreaming应用的1GB内存。
及时清理不再应用的数据
对于内存中处理过的、不再须要的数据应及时清理,以确保Spark Streaming可以或许拥有足够的内存空间可以应用。一种办法是可以经由过程设置合理的spark.cleaner.ttl时长来及时清理超时的无用数据,但该办法应慎重应用,以免后续数据在须要时被缺点清理。另一种办法是将spark.streaming.unpersist设置为true,体系将主动清理已经不须要的RDD。该办法能明显削减RDD对内存的须要,同时潜在地进步GC的机能。此外用户还可以经由过程设备参数streamingContext.remember为数据设置更长的保存时光。
削减序列化与反序列化的包袱
【编辑推荐】
- Spark Streaming 数据清理机制
- Spark Streaming场景应用- Spark Streaming计算模型及监控
- Spark Streaming vs. Kafka Stream 哪个更合适你
- Spark入门:Spark Streaming 概览
- 若何基于Spark Streaming构建及时E?娼台
推荐阅读
实现了功能虚拟化的收集可以或许使通信办事供给商快速供给办事、分析和主动化的收集,加快新办事投向市场的周期,并有效应用数据中间的通用平台。收集功能虚拟化旨在赞助电信行业加快立异>>>详细阅读
本文标题:大数据分析技术与实战之Spark Streaming
地址:http://www.17bianji.com/lsqh/37783.html
1/2 1