相关动态
【深度学习、工程实践】深度学习进行情感分析(1)--数据预处理
2025-01-02 16:47

目录

前言

一、读入所需的工具库

二、读取数据并查看

1.读入数据

2.查看数据

 3.缩放label

三.数据处理

1.去除重复数据

2.去除无用字符

3.使用jieba分词 

 4.去除停用词

 5.去除低频词

6. 将数据信息保存

四.查看保存好的数据

五.精简数据

六.数据可视化

1.统计评分的分布

2.生成评分-数量直方图

 3.统计单词的个数来得到每个句子的长度

4.生成长度统计图


数据链接:https://pan.baidu.com/s/1WHJMObw6kXTdhkWTFW4igg
提取码:wcwe

停用词链接:阿里云盘分享


 
 

        通过pd.read_csv函数读取数据,该函数是用来读取csv格式的文件,将表格数据转化成dataframe格式。dataframe格式的数据在操作时极为方便,由于我们仅需要评论和评分这两列,所以通过索引取出对应的数据。

 

        数据详情如下所示

        校查数据是否有乱码、重复的现象;查看标签是否符合要求。

 
 
 
 

        由于原始label的范围是[1-5],需要将label缩放到[0-4]之间。

 
 
 

        查看数据后发现,数据的“评论”中存在重复现象,所以需要将“评论”一列进行去重处理。去除重复的评论后,由于重复评论的一整行都会被删除,所以会出现列序号索引混乱,需要对索引进行重新排序。

 
 
 
 
 
 
 
 
 

        载入停用词表,并将停用词去除。

 
 
 

        通过pandas索引循环comment列,将所有词合并到一个列表里。然后通过Counter统计词频数,并将词频小于10的词去除。

 
 
 
 
 
 
 
 

        目前data数据中存在["评论"]、["评分"]、["label"]、["comment_processed"]四列,我们最终需要的数据为["label"]、["comment_processed"]两列,所以需要将["评论"]、["评分"]两列中间变量删掉。

 
 
 
 
 
 
 
 
 
 
 
 

    以上就是本篇文章【【深度学习、工程实践】深度学习进行情感分析(1)--数据预处理】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/quote/86658.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://sjzytwl.xhstdz.com/mobile/ , 查看更多   
发表评论
0评