spark创建dataframe（spark创建临时表）

by intanet.cn ca 大数据 on 2024-05-29

## Spark 创建 DataFrame

简介

Apache Spark DataFrame 是一个分布式数据集，它提供了一种类似于 Pandas DataFrame 的结构化数据操作。它可以通过多种方式创建，包括从文件、数据库和 RDD（弹性分布式数据集）。### 从文件创建 DataFrame

CSV 文件

```scala val df = spark.read.csv("path/to/file.csv") ```

JSON 文件

```scala val df = spark.read.json("path/to/file.json") ```

Parquet 文件

```scala val df = spark.read.parquet("path/to/file.parquet") ```### 从数据库创建 DataFrame

JDBC

```scala val df = spark.read.format("jdbc").option("url", "jdbc:postgresql://localhost:5432/database").option("dbtable", "table_name").option("user", "username").option("password", "password").load() ```

Hive

```scala val df = spark.read.format("hive").option("table", "table_name").load() ```### 从 RDD 创建 DataFrame```scala val rdd = spark.sparkContext.parallelize(Seq(("name", "John"), ("age", 30))) val df = spark.createDataFrame(rdd).toDF("name", "age") ```### DataFrame 的属性-

元数据：

包含表的架构信息，例如列名、数据类型和分区信息。 -

分区：

将数据拆分为更小的块，以提高并行处理效率。 -

模式：

指定DataFrame中列的名称和类型。 -

数据：

实际的数据值。### DataFrame 的操作创建 DataFrame 后，可以使用多种操作对其进行操作，包括：-

选择：

过滤和选择DataFrame中的行和列。 -

聚合：

在数据上执行聚合操作（例如计数、求和、平均值）。 -

连接：

将两个或多个DataFrame连接起来。 -

转换：

转换DataFrame的结构或数据类型。 -

写入：

将DataFrame写入文件、数据库或其他数据源。

人工智能是人工智能吗（人工智能就是人造智能吗）关于雪佛兰2010年的信息

spark创建dataframe（spark创建临时表）

最近发表

文章归档

标签列表

spark创建dataframe（spark创建临时表）

相关阅读

人工智能中国（人工智能中国和美国差距）

scratch属于人工智能吗（scratch与人工智能）

kylin官网（Kylin官网登录入口）

为什么要做数据挖掘（为什么要制定数据挖掘标准?）

数据安全中的数据是指哪些（数据安全包括几个方面的安全）

落实网络安全责任（落实网络安全责任进出人员登记）

最近发表

文章归档

标签列表