频道导航

scala – 如何获取写入的记录数(使用DataFrameWriter的保存操作)？

2020-10-27 Scala 前端之家

前端之家收集整理的这篇文章主要介绍了scala – 如何获取写入的记录数(使用DataFrameWriter的保存操作)？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

@H_404_2@

使用spark保存记录时,有没有办法获取写入的记录数？虽然我知道目前不符合规范,但我希望能够做到这样的事情：

val count = df.write.csv(path)

或者,能够进行步骤结果的内联计数(优选地不使用标准累加器)将(几乎)同样有效.即：

dataset.countTo(count_var).filter({function}).countTo(filtered_count_var).collect()

有任何想法吗？

解决方法

我使用 SparkListener可以拦截可用于访问任务指标的onTaskEnd或onStageCompleted事件.

任务指标为您提供Spark用于在sql选项卡中显示指标的累加器(在查询的详细信息中).

例如,以下查询：

spark.
  read.
  option("header",true).
  csv("../datasets/people.csv").
  limit(10).
  write.
  csv("people")

给出了10个输出行,因此Spark知道它(你也可以).

您还可以探索Spark sql的QueryExecutionListener：

The interface of query execution listener that can be used to analyze execution metrics.

您可以使用可用作spark.listenerManager的ExecutionListenerManager注册QueryExecutionListener.

scala> :type spark.listenerManager
org.apache.spark.sql.util.ExecutionListenerManager

scala> spark.listenerManager.
clear   clone   register   unregister

我认为它更接近“裸机”,但之前没有使用过.

@D3V(在评论部分中)提到使用结构化查询的QueryExecution访问numOutputRows sql指标.值得考虑的事情.

scala> :type q
org.apache.spark.sql.DataFrame

scala> :type q.queryExecution.executedPlan.metrics
Map[String,org.apache.spark.sql.execution.metric.sqlMetric]

q.queryExecution.executedPlan.metrics("numOutputRows").value

@H_404_2@

上一篇：scala – 无界表是火花结构流下一篇：如何在scalaz中堆叠ReaderT和Write

猜你在找的Scala相关文章

Scala的存在类型

Scala的存在类型存在类型也叫existential type，是对类型做抽象的一种方法。可以在你不知...

作者：前端之家时间：2020-12-21

Scala教程之:Option-Some-None

文章目录Option和SomeOption和NoneOption和模式匹配在java 8中，为了避免NullPointerExce...

作者：前端之家时间：2020-12-21

Scala教程之:静态类型

文章目录泛类型型变协变逆变不变类型上界类型下界内部类抽象类型复合类型自类型隐式参数隐...

作者：前端之家时间：2020-12-21

Scala的自定义类型标记

Scala的自定义类型标记 Scala中有很多千奇百怪的符号标记，看起来是那么的独特，就像是一杯...

作者：前端之家时间：2020-12-21

Scala教程之:面向对象的scala

文章目录面向对象的scalaUnified TypesClassesTraits 面向对象的scala 我们知道Scala是一种...

作者：前端之家时间：2020-12-21

Scala教程之:Enumeration

Enumeration应该算是程序语言里面比较通用的一个类型，在scala中也存在这样的类型，我们看...

作者：前端之家时间：2020-12-21

scala教程之:可见性规则

文章目录publicProtectedprivatescoped private 和 scoped protected 和java很类似，scala...

作者：前端之家时间：2020-12-21

Scala教程之:Either

在之前的文章中我们提到了Option，scala中Option表示存在0或者1个元素，如果在处理异常的时...

作者：前端之家时间：2020-12-21

Scala教程之:函数式的Scala

文章目录高阶函数强制转换方法为函数方法嵌套多参数列表样例类比较拷贝模式匹配密封类单例...

作者：前端之家时间：2020-12-21

Scala教程之:可扩展的scala

文章目录隐式类限制条件字符串插值s 字符串插值器f 插值器raw 插值器自定义插值器 Scala是...

作者：前端之家时间：2020-12-21

编程分类

Linux Windows CentOS Ubuntu Nginx WebService Scala Memcache Apache Redis Docker Bash Azure Tomcat LNMP Shell 数据结构服务器运维网络安全

最新文章