计算机毕业设计基于python的外卖大数据分析系统

日期：2024-11-10 移动：http://mip.xhstdz.com/quote/66074.html

文末获取资源，收藏关注不迷路

最近几年，互联网技术得到了很大的发展，互联网已经从最初的一个获得资讯的工具，慢慢地进入到了我们的生活中，变成了我们的日常。我们饥饿的时候，会想到“美团”，旅行的时候，会想到“滴滴”，旅行的时候，会想到“去哪儿”，可以说，互联网已经成为了人们交流信息的主要渠道。如何快速、高效、准确地获取互联网上的资讯，已是一个亟待解决的课题。现在，不管是政府，还是企业，对大数据的收集、分析和发布，都给予了极大的支持。但是，如果是人工采集的话，速度会很慢，费用也会很高。在这样的背景和要求之下，在对信息采集技术的工作原理，以及常见的爬虫框架、采集算法进行了深入的学习和研究，在对信息网站的结构特征进行了深刻的分析之后，结合采集对象的特征，将两种算法相结合，设计出了四种采集程序，并基于Soapy框架，采用了中间件技术，开发了动态浏览器标识和代理池。利用MySQL数据库和云平台虚拟化技术，构建了一套可靠性和可行性极高的分布式收集集群，提高了数据收集效率，利用PYQT5实现跨平台的信息发布程序，利用Selenium自动化工具，解决了网站登陆、网站查询以及模拟人工进行数据收集。利用FLASK技术实现了资料收集与管理系统及大屏幕的显示功能。另外，在数据清洗的基础上，通过数据清洗，格式转换，移除和增加对象，以达到数据的一致性。本文以Python为基础，对外卖数据进行了分析，从而极大地降低了有关产业的资讯工作者的工作强度，为更快、更好、更方便地获得发布资讯，提供了技术支撑。到现在为止，这个系统已经从最初的收集对象，到最近的几百个国际和国内的站点，已经有一年多的时间了，收集到了395万条的数据。

由于因特网技术的不断进步，因特网上的各种应用越来越多，因特网已成为人们获取资讯的重要途径。要想充分、快速、准确地获取网络上的信息，通常都会有各种信息收集方式。过去，依靠手工的收集方式不仅成本高，而且时间也很差，而信息采集技术的诞生，就可以将数据收集方面存在的问题给解决掉。该资讯收集系统也可称作网络爬行器资讯收集系统。现有的信息收集程序可以划分为：通用型信息收集、主题型信息收集、增量型信息收集和在以上程序基础上进行的分布式应用。对于一般类型的数据获取，有两种常用的获取方法：一种是深度优先获取方法，另一种是宽度优先获取方法。尽管一般的数据收集软件与话题不相关，但对于像百度这样的搜索引擎来说，它具有巨大的应用价值。主题型的收集程序是收集有兴趣的网页的信息，例如，获得一个通用网站的信息，可以仅获得这个信息的细节页面URL，并通过页面结构提取固定的内容。一般类型和专题类型都可以解决数据搜集的问题，但在再次搜集时，由于没有对照资料，所以搜集的资料又被搜集了一遍。一些更新速度较慢的站点，很可能会产生大量的信息，从而导致电脑资源和网络带宽的损失。而增加式数据收集项目的产生，则为以上问题提供了有效的解决方案。这个递增收集器是按照站点的更新来收集的，而不是已经收集到的。话题型信息收集指的是通过类别标签来收集指定的网页，然后从中提取出主题信息。通常情况下，还可以对这些信息进行更深入的数据挖掘，从而达到数据价值的目的。

收集程序可以被配置在单个的服务器上，完成单个的工作，但是这种方式不仅不稳定，而且收集的速度和范围都会受到影响。同时，该软件还能在单个伺服器上进行多个工作。这种方法能极大的增加收集的范围，但收集的速度却慢了很多。通常来说，收集系统都是采取分散的方式。在多个伺服器上配置收集程式，完成多个工作收集。这不仅能够增加收集程序的稳定性，可用性，还能够增加收集的范围和速度。通常情况下，分布式数据收集计划有两种：主从式和点对式。在该体系结构中，主要由主机端进行数据的收集和数据的分配；NodeServer主要是用于收集URL中指向的信息。通常，主机会使用记忆型的资料库（例如：Redis），来进行URL资讯的储存与分布。这样的分散结构，固然能够提高收集的效率，可是也有一个缺点，那就是如果主控端发生了错误，或是主控端的程序发生了BUG，那么就会让整个系统瘫痪。在此基础上，提出了一种可行的灾难恢复计划。对等分配架构使用了某种智慧，或是人为的规则，在每个服务器上，收集程序会对这个网站或这个URL链接的内容进行判定，如果是就进行收集，否则就会被跳过。现在是一个资讯大爆发的年代，所需资料分散在网路上，仅靠搜寻引擎收集资料并不是件容易的事情。其次，因特网上各有各的站点，各有各的发展语言，仅靠一种收集工具很难实现，因此，有必要研究一种智能的收集技术。本文的目的是，充分地运用Python开发的灵活性和多样化技术，来构建一种智能信息分析系统，它能够为非计算机专业人员开展信息分析工作提供便利，进而从网络信息的海洋中获得所需要的行业资讯。

环境需要 1.运行环境：python3.7/python3.8。 2.IDE环境：pycharm+mysql5.7; 3.数据库工具：Navicat11 4.硬件环境：windows 7/8/10 1G内存以上；或者 Mac OS； 5.数据库：MySql 5.7版本；技术栈后端：python+django 前端：vue+CSS+Javascript+jQuery+elementui

使用说明使用Navicat或者其它工具，在mysql中创建对应名称的数据库，并导入项目的sql文件；使用PyCharm 导入项目，修改配置，运行项目；将项目中config.ini配置文件中的数据库配置改为自己的配置，然后运行；运行成功后，在浏览器中输入：http://localhost:8080/项目名

在这里插入图片描述