Spark自定义累加器的使用实例详解_服务器知识

累加器（accumulator）是Spark中提供的一种分布式的变量机制，其原理类似于mapreduce，即分布式的改变，然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。

累加器简单使用

Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例，在这个例子中我们在过滤掉RDD中奇数的同时进行计数，最后计算剩下整数的和。

									val sparkConf = new SparkConf().setAppName("Test").setMaster("local[2]") 

									val sc = new SparkContext(sparkConf) 

									val accum = sc.longAccumulator("longAccum") //统计奇数的个数 

									val sum = sc.parallelize(Array(1,2,3,4,5,6,7,8,9),2).filter(n=>{ 

									 if(n%2!=0) accum.add(1L)  

									 n%2==0

									}).reduce(_+_) 

									println("sum: "+sum) 

									println("accum: "+accum.value) 

									sc.stop()

结果为：

sum: 20
accum: 5

这是结果正常的情况，但是在使用累加器的过程中如果对于spark的执行过程理解的不够深入就会遇到两类典型的错误：少加（或者没加）、多加。

自定义累加器

自定义累加器类型的功能在1.X版本中就已经提供了，但是使用起来比较麻烦，在2.0版本后，累加器的易用性有了较大的改进，而且官方还提供了一个新的抽象类：AccumulatorV2来提供更加友好的自定义类型累加器的实现方式。官方同时给出了一个实现的示例：CollectionAccumulator类，这个类允许以集合的形式收集spark应用执行过程中的一些信息。例如，我们可以用这个类收集Spark处理数据时的一些细节，当然，由于累加器的值最终要汇聚到driver端，为了避免 driver端的outofmemory问题，需要对收集的信息的规模要加以控制，不宜过大。

继承AccumulatorV2类，并复写它的所有方法

100

101

102

103

104

105

106

107

108

109

110

111

112

									package spark

									import constant.Constant

									import org.apache.spark.util.AccumulatorV2

									import util.getFieldFromConcatString

									import util.setFieldFromConcatString

									open class SessionAccmulator : AccumulatorV2<String, String>() {

									  private var result = Constant.SESSION_COUNT + "=0|"+

									      Constant.TIME_PERIOD_1s_3s + "=0|"+

									      Constant.TIME_PERIOD_4s_6s + "=0|"+

									      Constant.TIME_PERIOD_7s_9s + "=0|"+

									      Constant.TIME_PERIOD_10s_30s + "=0|"+

									      Constant.TIME_PERIOD_30s_60s + "=0|"+

									      Constant.TIME_PERIOD_1m_3m + "=0|"+

									      Constant.TIME_PERIOD_3m_10m + "=0|"+

									      Constant.TIME_PERIOD_10m_30m + "=0|"+

									      Constant.TIME_PERIOD_30m + "=0|"+

									      Constant.STEP_PERIOD_1_3 + "=0|"+

									      Constant.STEP_PERIOD_4_6 + "=0|"+

									      Constant.STEP_PERIOD_7_9 + "=0|"+

									      Constant.STEP_PERIOD_10_30 + "=0|"+

									      Constant.STEP_PERIOD_30_60 + "=0|"+

									      Constant.STEP_PERIOD_60 + "=0"

									  override fun value(): String {

									    return this.result

									  }

									  /**

									   * 合并数据

									   */

									  override fun merge(other: AccumulatorV2<String, String>?) {

									    if (other == null) return else {

									      if (other is SessionAccmulator) {

									        var newResult = ""

									        val resultArray = arrayOf(Constant.SESSION_COUNT,Constant.TIME_PERIOD_1s_3s, Constant.TIME_PERIOD_4s_6s, Constant.TIME_PERIOD_7s_9s,

									            Constant.TIME_PERIOD_10s_30s, Constant.TIME_PERIOD_30s_60s, Constant.TIME_PERIOD_1m_3m,

									            Constant.TIME_PERIOD_3m_10m, Constant.TIME_PERIOD_10m_30m, Constant.TIME_PERIOD_30m,

									            Constant.STEP_PERIOD_1_3, Constant.STEP_PERIOD_4_6, Constant.STEP_PERIOD_7_9,

									            Constant.STEP_PERIOD_10_30, Constant.STEP_PERIOD_30_60, Constant.STEP_PERIOD_60)

									        resultArray.forEach {

									          val oldValue = other.result.getFieldFromConcatString("|", it)

									          if (oldValue.isNotEmpty()) {

									            val newValue = oldValue.toInt() + 1

									            //找到原因，一直在循环赋予值,debug30分钟 很烦

									            if (newResult.isEmpty()){

									              newResult = result.setFieldFromConcatString("|", it, newValue.toString())

									            }

									            //问题就在于这里，自定义没有写错，合并错了

									            newResult = newResult.setFieldFromConcatString("|", it, newValue.toString())

									          }

									        }

									        result = newResult

									      }

									    }

									  }

									  override fun copy(): AccumulatorV2<String, String> {

									    val sessionAccmulator = SessionAccmulator()

									    sessionAccmulator.result = this.result

									    return sessionAccmulator

									  }

									  override fun add(p0: String?) {

									    val v1 = this.result

									    val v2 = p0

									    if (v2.isNullOrEmpty()){

									      return

									    }else{

									      var newResult = ""

									      val oldValue = v1.getFieldFromConcatString("|", v2!!)

									      if (oldValue.isNotEmpty()){

									        val newValue = oldValue.toInt() + 1

									        newResult = result.setFieldFromConcatString("|", v2, newValue.toString())

									      }

									      result = newResult

									    }

									  }

									  override fun reset() {

									    val newResult = Constant.SESSION_COUNT + "=0|"+

									        Constant.TIME_PERIOD_1s_3s + "=0|"+

									        Constant.TIME_PERIOD_4s_6s + "=0|"+

									        Constant.TIME_PERIOD_7s_9s + "=0|"+

									        Constant.TIME_PERIOD_10s_30s + "=0|"+

									        Constant.TIME_PERIOD_30s_60s + "=0|"+

									        Constant.TIME_PERIOD_1m_3m + "=0|"+

									        Constant.TIME_PERIOD_3m_10m + "=0|"+

									        Constant.TIME_PERIOD_10m_30m + "=0|"+

									        Constant.TIME_PERIOD_30m + "=0|"+

									        Constant.STEP_PERIOD_1_3 + "=0|"+

									        Constant.STEP_PERIOD_4_6 + "=0|"+

									        Constant.STEP_PERIOD_7_9 + "=0|"+

									        Constant.STEP_PERIOD_10_30 + "=0|"+

									        Constant.STEP_PERIOD_30_60 + "=0|"+

									        Constant.STEP_PERIOD_60 + "=0"

									    result = newResult

									  }

									  override fun isZero(): Boolean {

									    val newResult = Constant.SESSION_COUNT + "=0|"+

									        Constant.TIME_PERIOD_1s_3s + "=0|"+

									        Constant.TIME_PERIOD_4s_6s + "=0|"+

									        Constant.TIME_PERIOD_7s_9s + "=0|"+

									        Constant.TIME_PERIOD_10s_30s + "=0|"+

									        Constant.TIME_PERIOD_30s_60s + "=0|"+

									        Constant.TIME_PERIOD_1m_3m + "=0|"+

									        Constant.TIME_PERIOD_3m_10m + "=0|"+

									        Constant.TIME_PERIOD_10m_30m + "=0|"+

									        Constant.TIME_PERIOD_30m + "=0|"+

									        Constant.STEP_PERIOD_1_3 + "=0|"+

									        Constant.STEP_PERIOD_4_6 + "=0|"+

									        Constant.STEP_PERIOD_7_9 + "=0|"+

									        Constant.STEP_PERIOD_10_30 + "=0|"+

									        Constant.STEP_PERIOD_30_60 + "=0|"+

									        Constant.STEP_PERIOD_60 + "=0"

									    return this.result == newResult

									  }

									}