首页 > 数据库> 文章详细

DataFrame操作数据的两种方式(SQL和DSL)

2022-08-29 21:00:43 阅读：214 来源： 互联网

标签：val 展示 DataFrame ----------------------- DSL dataFrame SQL println -------------

SQL方式

需要将DataFrame注册成为一张临时表，并给临时表起名字，通过SQL语句查询分析DataFrame中数据

局部临时表、全局临时表
[注意]：
--1 如果我们注册的是全局表，查询全局表的时候，必须在表名前加上一个数据库的名字global_temp
val frame = session.sql("select sex, count(*) as num from global_temp.student group by sex")
--2 每次SQL操作完成都会返回一个新的DataFrame，这个DataFrame中就是我们处理分析完成的数据
--3 如果我们DataFrame是从Hive中读取的数据，也可以使用这种方式去操作
区别

	局部临时表	全局临时表
方法字段	createTempView`dataFrame.createTempView("student")`	createOrReplaceGlobalTempView`dataFrame.createOrReplaceGlobalTempView("student")`
作用域	作用于某个Spark应用程序的所有SparkSession会话	作用于某个特定的SparkSession会话如果同一个应用中不同的session需要重用一个临时表，那么不妨将该临时表注册为全局临时表，可以避免多余的IO，提高系统的执行效率，但是如果只是在某个session中使用，只需要注册局部临时表，可以避免不必要的内存占用
使用场景	局部临时表是和SparkSession挂钩的，SparkSession一旦停止，临时表就无法使用了	全局临时表是和Spark Application(SparkContext)挂钩的，只有当Spark应用程序停止了，全局表才无法访问

DSL方式

展示dataFrame的结构
dataFrame.printSchema()
数据展示

println("-----------------------数据展示1开始-------------------------")
dataFrame.show()
println("-----------------------数据展示1结束-------------------------")

println("-----------------------数据展示2开始-------------------------")
val dataFrame1 = dataFrame.groupBy("sex").agg(Map("sex" -> "count")).select("*")
dataFrame1.show()
println("-----------------------数据展示2结束-------------------------")

println("-----------------------数据展示3开始-------------------------")
val dataFrame2 = dataFrame.groupBy("name", "age", "sex").agg(Map("age" -> "max", "age" -> "min", "age" -> "avg", "*" -> "count")).select("*")
dataFrame2.show()
println("-----------------------数据展示3结束-------------------------")

完整代码

package SparkSQL.DataFreamCreate.optdataframe

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}
import scala.beans.BeanProperty

object DSLOper {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("dataFrameCreate").setMaster("local[*]")
    val sparkSession = SparkSession.builder().config(conf).getOrCreate()

    val seq:Seq[Student] = Array(Student("zs",20,"男"),Student("ls",21,"女"),Student("ww",22,"男"))
    val rdd:RDD[Student] = sparkSession.sparkContext.makeRDD(seq)
    val dataFrame:DataFrame = sparkSession.createDataFrame(rdd,classOf[Student])

    println("-----------------------展示结构开始-------------------------")
    dataFrame.printSchema()
    println("-----------------------展示结构结束-------------------------")
    println("-----------------------数据展示1开始-------------------------")
    dataFrame.show()
    println("-----------------------数据展示1结束-------------------------")

    println("-----------------------数据展示2开始-------------------------")
    val dataFrame1 = dataFrame.groupBy("sex").agg(Map("sex" -> "count")).select("*")
    dataFrame1.show()
    println("-----------------------数据展示2结束-------------------------")

    println("-----------------------数据展示3开始-------------------------")
    val dataFrame2 = dataFrame.groupBy("name", "age", "sex").agg(Map("age" -> "max", "age" -> "min", "age" -> "avg", "*" -> "count")).select("*")
    dataFrame2.show()
    println("-----------------------数据展示3结束-------------------------")
//    session.sparkContext.makeRDD(dataFrame)


  }
}
case class Student(@BeanProperty var name:String,@BeanProperty var age:Int,@BeanProperty var sex:String)

标签：val,展示,DataFrame,-----------------------,DSL,dataFrame,SQL,println,-------------
来源： https://www.cnblogs.com/jsqup/p/16637273.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

DataFrame操作数据的两种方式(SQL和DSL)

SQL方式

DSL方式