推广 热搜: 行业  机械  设备    系统  教师    参数  经纪  蒸汽 

【深度学习、工程实践】深度学习进行情感分析(1)--数据预处理

   日期:2025-01-02     移动:http://sjzytwl.xhstdz.com/mobile/quote/86658.html

目录

前言

一、读入所需的工具库

二、读取数据并查看

1.读入数据

2.查看数据

 3.缩放label

三.数据处理

1.去除重复数据

2.去除无用字符

3.使用jieba分词 

 4.去除停用词

 5.去除低频词

6. 将数据信息保存

四.查看保存好的数据

五.精简数据

六.数据可视化

1.统计评分的分布

2.生成评分-数量直方图

 3.统计单词的个数来得到每个句子的长度

4.生成长度统计图


数据链接:https://pan.baidu.com/s/1WHJMObw6kXTdhkWTFW4igg
提取码:wcwe

停用词链接:阿里云盘分享


 
 

        通过pd.read_csv函数读取数据,该函数是用来读取csv格式的文件,将表格数据转化成dataframe格式。dataframe格式的数据在操作时极为方便,由于我们仅需要评论和评分这两列,所以通过索引取出对应的数据。

 

        数据详情如下所示

        校查数据是否有乱码、重复的现象;查看标签是否符合要求。

 
 
 
 

        由于原始label的范围是[1-5],需要将label缩放到[0-4]之间。

 
 
 

        查看数据后发现,数据的“评论”中存在重复现象,所以需要将“评论”一列进行去重处理。去除重复的评论后,由于重复评论的一整行都会被删除,所以会出现列序号索引混乱,需要对索引进行重新排序。

 
 
 
 
 
 
 
 
 

        载入停用词表,并将停用词去除。

 
 
 

        通过pandas索引循环comment列,将所有词合并到一个列表里。然后通过Counter统计词频数,并将词频小于10的词去除。

 
 
 
 
 
 
 
 

        目前data数据中存在["评论"]、["评分"]、["label"]、["comment_processed"]四列,我们最终需要的数据为["label"]、["comment_processed"]两列,所以需要将["评论"]、["评分"]两列中间变量删掉。

 
 
 
 
 
 
 
 
 
 
 
 
本文地址:http://sjzytwl.xhstdz.com/quote/86658.html    物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号