TEXTFILE

hive存储格式2022-06-07 20:02:53

格式类型 Hive支持的存储数据的格式主要有：TEXTFILE 文本格式文件（行式存储）、 SEQUENCEFILE 二进制序列化文件(行式存储)、ORC（列式存储）、PARQUET（列式存储）等。 hive的存储格式通常是：textfile 、 sequencefile 、 rcfile 、 orc 、自定义 set hive.default.fileformat=TextFile; 默认
A9 【大数据笔记】- Spark Shell2021-12-21 11:30:46

一.基础环境：本文默认了你已经有了hadoop+Spark环境，且有一台linux客户机，配置好了各种环境变量，可执行Spark命令的。以上环境有没完成的，自行去百度完成。二.Spark Shell 交互 1.准备一个分析文件 word_test.txt（内容随意，我放的是英文诗），上传到hdfs，/tmp/hubg/目录下 hadoop fs -put
Prometheus监控实战系列九：主机监控2021-11-30 21:30:37

前面我们介绍了Prometheus的基础概念，包括数据格式、PromQL语法等，本节我们将讲解如何通过Prometheus实现主机的监控。 Prometheus使用各种Exporter来监控资源。Exporter可以看成是监控的agent端，它负责收集对应资源的指标，并提供接口给到Prometheus读取。不同资源的监控对应不同
IO - 文件的读写2021-10-14 23:00:37

package test; import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.io.PrintWriter; import java.util.ArrayList; import java.util.Arrays; import java.util.TreeSet; public class TextFile ext
RDD编程2021-07-11 18:52:26

RDD编程 1.RDD编程概述—-整个spark的核心 2.pari RDD 3.共享变量【重要】 4.数据读写 5.WordCount程序解析 1.RDD编程概述 1.RDD创建， 01.Spark采用textFile()方法从文件系统中加载数据创建RDD 该方法把文件的URI作为参数，这个URI可以是： 001.本文件系统的地址； 002.或者是分布式文
大数据001——数仓搭建相关2021-06-12 14:58:38

一。这里用的是hadoop生态的hive进行存储，首先说hive的表大致分为内部表和外部表，又分为分区表(PARQUET)和桶表。 hive文件存储格式包括以下几类： 1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE(0.11以后出现) 5、PARQUET 总结：相比TEXTFILE和SEQUENCEFILE，RCFILE由于列式存储方
pyspark读取数据2021-04-09 18:33:51

本地文件系统的数据读写因为Spark采用了惰性机制，在执行转换操作的时候，即使输入了错误的语句，spark-shell也不会马上报错（假设word.txt不存在）从文件中读取数据创建RDD ll /root/spark-2.4.3-bin-hadoop2.7/word.txt-rw-r--r--. 1 root root 45 Apr 9 13:34 /root/spark-2.4.3-bin-
hive添加txt文件转oec表2021-01-16 19:01:30

1.数据格式 1 2 x2 2 x3 2 x4 2 x 2.创建表创建TEXTFILE格式的表 CREATE TABLE test_txt(id int,num int,txt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE; 指定分隔符为\tROW FORMAT DELIMITED FIELDS TE
spark RDD textFile算子分区数量详解2020-11-25 00:00:23

进入textFile原码发现分区数量调用 hadoopFile中的TextInputFormat类,传入参数Key为LongWritable即偏移量,value为Text, 由此得知是通过这个类来读取继续进入TextInputFormat类中发现有个是否可以切分的判断,可以知道一些不可拆分的文件由此过滤掉,可以切片拆分的文件继
官网阅读——走近Spark之QuickStart2020-06-16 19:10:33

首先，官网表明了Spark2.0之后，RDD被DataSet替代了，虽然Spark2.0仍然支持RDD的接口，但是官方强烈推荐使用DataSet。安全 Spark的安全机制默认是被关闭的，所以有可能会受到攻击，但实际生产过程中，Spark集群更多的是搭建在公司内网中，不对外暴露，个人认为不开启安全机制并不影响。 Spark Shel
Spark文档阅读之二：Programming Guides - Quick Start2020-06-15 20:06:46

Quick Start: https://spark.apache.org/docs/latest/quick-start.html 在Spark 2.0之前，Spark的编程接口为RDD (Resilient Distributed Dataset)。而在2.0之后，RDDs被Dataset替代。Dataset很像RDD，但是有更多优化。RDD仍然支持，不过强烈建议切换到Dataset，以获得更好的性能。 RDD
Spark深入解析（六）：SparkCore之Spark代码编写WordCount2020-04-26 21:37:56

学习目标WordCount思路WordCount代码实现 WordCount思路准备数据将数据放在以下目录中 1.txt Hello World Hello Scala 2.txt Hello Spark 图解分析说明： 1、本地读取两个文件 2、两个文件内的数据 3、将文件内的数据进行扁平化 4、将相同单词进行分组 5、
Python+Spark2.0+hadoop学习笔记——pyspark基础2020-03-31 10:57:58

在历经千辛万苦后，终于把所有的东西都配置好了。下面开始介绍pyspark的一些基础内容，以字数统计为例。 1）在本地运行pyspark程序读取本地文件 textFile=sc.textFile("file:/usr/local/spark/README.md") textFile.count() 读取HDFS文件 textFile=sc.textFile('hdfs://master:9000/u
寒假记录52020-02-05 13:04:39

今天完成了实验任务三，主要学习了其中的Spark读取文件系统的数据。在 spark-shell 中读取HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数； scala>val textFile=sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt") scala>textFil
Spark开发实例（编程实践）2019-06-15 20:47:51

本节将介绍如何实际动手进行 RDD 的转换与操作，以及如何编写、编译、打包和运行 Spark 应用程序。启动 Spark Shell Spark 的交互式脚本是一种学习 API 的简单途径，也是分析数据集交互的有力工具。Spark 包含多种运行模式，可使用单机模式，也可以使用分布式模式。为简单起见，本节采
[大数据之Spark]——快速入门2019-05-19 22:53:56

为了良好的阅读下面的文档，最好是结合实际的练习。首先需要下载spark,然后安装hdfs，可以下载任意版本的hdfs。 Spark Shell 交互基本操作 Spark Shell提供给用户一个简单的学习API的方式以及快速分析数据的工具。在shell中，既可以使用scala（运行在java虚拟机，因此可以使用java库
Spark4-RDD使用2019-05-06 17:54:37

如何创建RDD 1.创建方式 1.parallelizing an existing collection in your driver program 通过并行化存在的一个集合,将集合转换成RDD 2.referencing a dataset in an external storage system, such as a shared filesystem, HDFS, HBase, or any data source offering
快速开始使用spark2019-04-20 16:39:41

1、版本说明在spark2.0版本以前，spakr编程接口是RDD(Resilient Distributed Dataset,弹性分布式数据集)，spark2.0版本即以上，RDD被Dataset取代，Dataset比RDD更为强大，在底层得到了许多优化了。当然2.0+版本仍然支持RDD，但官方建议使用Dataset。 2、安全 spark的安全模式默认是关闭的，这

ICode9

hive存储格式2022-06-07 20:02:53

A9 【大数据笔记】- Spark Shell2021-12-21 11:30:46

Prometheus监控实战系列九：主机监控2021-11-30 21:30:37

IO - 文件的读写2021-10-14 23:00:37

RDD编程2021-07-11 18:52:26

大数据001——数仓搭建相关2021-06-12 14:58:38

pyspark读取数据2021-04-09 18:33:51

hive添加txt文件转oec表2021-01-16 19:01:30

spark RDD textFile算子 分区数量详解2020-11-25 00:00:23

官网阅读——走近Spark之QuickStart2020-06-16 19:10:33

Spark文档阅读之二：Programming Guides - Quick Start2020-06-15 20:06:46

Spark深入解析（六）：SparkCore之Spark代码编写WordCount2020-04-26 21:37:56

Python+Spark2.0+hadoop学习笔记——pyspark基础2020-03-31 10:57:58

寒假记录52020-02-05 13:04:39

Spark开发实例（编程实践）2019-06-15 20:47:51

[大数据之Spark]——快速入门2019-05-19 22:53:56

Spark4-RDD使用2019-05-06 17:54:37

快速开始使用spark2019-04-20 16:39:41

spark RDD textFile算子分区数量详解2020-11-25 00:00:23