文章目录

1. [依赖jar包的查找地址 Maven Repository仓库](https://mvnrepository.com/)
2. scala中的项目管理工具sbt

2.1.软件安装和配置
2.2. [sbt官网案例](https://www.scala-sbt.org/1.x/docs/sbt-by-example.html)

3. sbt进阶

3.1. 操作符
3.2. task，里面可以定义task，task可以是执行外部的命令
3.3. 待完善

4. spark之rdd小案例（`sbt构建`）

4.1. PV计算
4.2. UV计算
4.3. TOPN

5. 所有命运赠送的礼物，早已在暗中标着价格。

1. 依赖jar包的查找地址 Maven Repository仓库

2. scala中的项目管理工具sbt

sbt是类似ANT、MAVEN的构建工具，全称为Simple build tool，是Scala事实上的标准构建工具

2.1.软件安装和配置

sbt官网
Scala sbt的下载及安装
Linux安装sbt,修改镜像参照windows平台的方法
windows下安装配置sbt (重要)
- 安装软件到位置：D:\dev\sbt
- sbt安装目录下的conf目录中添加了一个repo.properties文件
```
[repositories]
  local
  aliyun: https://maven.aliyun.com/nexus/content/groups/public/
  oschina: https://maven.oschina.net/content/groups/public/
  jcenter: https://jcenter.bintray.com/
  maven-central: https://repo1.maven.org/maven2/
  typesafe: https://repo.typesafe.com/typesafe/ivy-releases/, [organization]/[module]/(scala_[scalaVersion]/)(sbt_[sbtVersion]/)[revision]/[type]s/[artifact](-[classifier]).[ext], bootOnly
```
- sbtconfig.txt配置
```
  ```
    -Dsbt.ivy.home=d:/dev/sbt/.ivy2
    -Dsbt.global.base=d:/dev/sbt/.sbt
    -Dsbt.repository.config=d:/dev/sbt/conf/repo.properties
    -Dsbt.boot.directory=d:/dev/sbt/.sbt/boot/
  ```
```
- IDEA当中的配置
- IDEA中创建maven工程后没有scala文件
- 注意1：第一次输入sbt的时候需要准备一些东西，所以下载比较慢，主要下载内容已经放到了我的百度云盘：windows10平台，.ivy2和.sbt默认在c盘用的家目录下面，建议配置到自己的安装目录下面，方便管理
- 注意2：遇到了一个错误There may be incompatibilities among your library dependencies; run 'evicted
  - 解决：需要把C:\Users\59404\AppData\Local\Temp目录下的内容清理一下，由于安装了多个版本导致。
- .ivy2和.sbt百度云链接；提取码 dxoj

2.2. sbt官网案例

3. sbt进阶

3.1. 操作符

:= 是给key分配一个初始表达式，覆盖原来的任何配置
+= 是追加一个值到key
++= 是追加一个队列，队列中放值，将值追加到key

3.2. task，里面可以定义task，task可以是执行外部的命令

案例一

// 定义了task的类型为Unit，Key值叫helloTask
val helloTask = taskKey[Unit]("say hello")

helloTask := {
  print("hello task!")
}

在这里插入图片描述

案例二（task之间没有依赖关系）

val helloTask = taskKey[String]("say hello")
val hiTask = taskKey[String]("say hi")
val byeTask = taskKey[String]("say bye")

val runAllTask = taskKey[Unit]("run all")

runAllTask := {
  println(helloTask.value)
  println(hiTask.value)
  println(byeTask.value)
}

helloTask := {
  val hello = "hello"
  println(s"hello task run: $hello")
  Thread sleep 2000
  hello
}

hiTask := {
  val hi = "hi"
  println(s"hi task run: $hi")
  Thread sleep 2000
  hi
}

byeTask := {
  val bye = "bye"
  println(s"bye task run: $bye")
  Thread sleep 2000
  bye
}

在这里插入图片描述

案例三（有依赖关系）

val helloTask = taskKey[String]("say hello")
val hiTask = taskKey[String]("say hi")
val byeTask = taskKey[String]("say bye")

val runAllTask = taskKey[Unit]("run all")

runAllTask := {
  println(helloTask.value)
  println(hiTask.value)
  println(byeTask.value)
}

helloTask := {
  val hello = "hello"
  println(s"hello task run: $hello")
  Thread sleep 2000
  hello
}

hiTask := {
  val hi = "hi"
  println(s"hi task run: $hi")
  Thread sleep 2000
  hi
}

byeTask := {
  val hi = hiTask.value
  val bye = "bye"
  println(s"hi task run: $hi")
  println(s"bye task run: $bye")
  Thread sleep 2000
  bye
}

在这里插入图片描述

结论
- 在没有依赖关系的时候是并行，但有依赖关系就是串行，如果我们再设置hi依赖hello，那么就是6s
- 如果互相依赖可能造成死锁，比如a依赖b的value，b里面又依赖a的value，那么就是鸡生蛋和蛋生鸡的问题了
详细链接

3.3. 待完善

4. spark之rdd小案例（`sbt构建`）

4.1. PV计算

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object PV {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("pv").setMaster("local[2]")
    val sc = new SparkContext(conf)

    val result: RDD[(String, Int)] = sc.textFile("D:\\access.log").map(x => ("pv", 1)).reduceByKey(_ + _)
    result.foreach(println)

  }
}

4.2. UV计算

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object UV {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("pv").setMaster("local[2]")
    val sc = new SparkContext(conf)

    val result: RDD[(String, Int)] = sc.textFile("D:\\access.log").map(_.split(" ")).map(x => x(0)).distinct().map(x => ("uv", 1)).reduceByKey(_+_)
    result.foreach(println)

  }
}

4.3. TOPN

数据格式

import org.apache.spark.{SparkConf, SparkContext}

object TopN {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("pv").setMaster("local[2]")
    val sc = new SparkContext(conf)

    val result: Array[(String, Int)] = sc.textFile("access.log").map(_.split(" ")).map(x => x(10)).map((_, 1)).reduceByKey(_ + _).sortBy(_._2, false).take(3)
    println(result)
  }
}

5. 所有命运赠送的礼物，早已在暗中标着价格。

越奋斗，越幸运

发布了85 篇原创文章 · 获赞 12 · 访问量 3727

私信关注

10. spark学习之旅之sbt（四）

文章目录

1. 依赖jar包的查找地址 Maven Repository仓库

2. scala中的项目管理工具sbt

2.1.软件安装和配置

2.2. sbt官网案例

3. sbt进阶

3.1. 操作符

3.2. task，里面可以定义task，task可以是执行外部的命令

3.3. 待完善

4. spark之rdd小案例（`sbt构建`）

4.1. PV计算

4.2. UV计算

4.3. TOPN

5. 所有命运赠送的礼物，早已在暗中标着价格。

猜你喜欢

10. spark学习之旅之sbt（四）

文章目录

1. 依赖jar包的查找地址 Maven Repository仓库

2. scala中的项目管理工具sbt

2.1.软件安装和配置

2.2. sbt官网案例

3. sbt进阶

3.1. 操作符

3.2. task，里面可以定义task，task可以是执行外部的命令

3.3. 待完善

4. spark之rdd小案例（sbt构建）

4.1. PV计算

4.2. UV计算

4.3. TOPN

5. 所有命运赠送的礼物，早已在暗中标着价格。

猜你喜欢

4. spark之rdd小案例（`sbt构建`）