推广 热搜： 行业设备金系统参数经纪杯教师机械中国

Spark从入门到精通19：Spark实战案例之统计网站访问量

日期：2024-11-09 作者：n19v1 caijiyuan 评论：0 移动：http://mip.xhstdz.com/news/643.html

核心提示：本节来介绍Spark实战案例：通过分析网站的访问日志，来求出网站中访问量最高的两个页面。access_log.txt 提取码：xxjc本节用到的

本节来介绍Spark实战案例：通过分析网站的访问日志，来求出网站中访问量最高的两个页面。

Spark从入门到精通19：Spark实战案例之统计网站访问量

access_log.txt 提取码：xxjc

本节用到的日志文件格式如下所示：

192.168.88.1 - - [30/Jul/2017:12:54:52 +0800] "GET /MyDemoWeb/hadoop.jsp HTTP/1.1" 200 242 192.168.88.1 - - [30/Jul/2017:12:54:53 +0800] "GET /MyDemoWeb/oracle.jsp HTTP/1.1" 200 242 192.168.88.1 - - [30/Jul/2017:12:54:54 +0800] "GET /MyDemoWeb/mysql.jsp HTTP/1.1" 200 241

使用WinSCP工具将$SPARK_HOME/jars目录下的所有Jar包下载到本地目录如E:/sparklib中。

打开IDEA开发工具，选择“Create New Project”，选择Scala下面的sbt工程，Next
工程名字：WebAccessCount，选择一个保存位置，比如：E:/WebAccessCount，Java版本和Scala版本需要和Spark集群环境中的保持一致，sbt版本保持默认，Finish
在WebAccessCount工程上右键单击，New，Directory，输入目录名：lib，OK
将刚才下载好的所有Jar包，复制粘贴到lib文件夹，在弹出的确认对话框中单击OK
选中lib目录下的所有的Jar包，右键，选中“Add as Libirary”，在弹出的对话框中输入库的名字，比如：spark_jars，OK

注意：IDEA构建工程的过程比较慢，请耐心等待。只有等工程构建完成后，工程的结构才会完整，写代码时才会有智能提示。可以通过更改sbt源的方式来提高构建速度，这里不作介绍。

在WebAccessCount工程下的src/main/scala目录上右键，New，Package：demo，OK
在demo下面New，Scala Class：WebAccessCount.scala，种类选择：Object，OK
编写WebAccessCount.scala代码如下：

本文地址：http://sjzytwl.xhstdz.com/news/643.html 物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新文章

0 条相关评论

文章列表

相关文章

李开复：DeepSeek 的成功证明闭源是“死路”，开源才有更大发展

最新动态

推荐图文

最新文章

点击排行

• Real Moto 2(真实摩托2游戏手机版)摩托手机「Re	• 家居“新物种”：行业新革命！叶盛明珠发热岩板
• 如何连接usbusb怎么连接手机「如何连接usb」	• 售17.98万起！北京BJ40增程版上市！双电机四
• 新增20+项新功能提供高阶智驾选装领克EM-P超	• 凯立德车载导航最新版本凯立德手机导航「凯立德
• vivo Y300 Pro+／Y300t发布，更实惠的千元手机	• Canvalr手机版「Canva」
• Nothing 2025 放大招：Phone（3）手机领衔，里	• 心有千千结｜手机危害七宗罪&手机脸手机脸「