目录
前言
一、读入所需的工具库
二、读取数据并查看
1.读入数据
2.查看数据
3.缩放label
三.数据处理
1.去除重复数据
2.去除无用字符
3.使用jieba分词
4.去除停用词
5.去除低频词
6. 将数据信息保存
四.查看保存好的数据
五.精简数据
六.数据可视化
1.统计评分的分布
2.生成评分-数量直方图
3.统计单词的个数来得到每个句子的长度
4.生成长度统计图
数据链接:https://pan.baidu.com/s/1WHJMObw6kXTdhkWTFW4igg
提取码:wcwe
停用词链接:阿里云盘分享
通过pd.read_csv函数读取数据,该函数是用来读取csv格式的文件,将表格数据转化成dataframe格式。dataframe格式的数据在操作时极为方便,由于我们仅需要评论和评分这两列,所以通过索引取出对应的数据。
数据详情如下所示:
校查数据是否有乱码、重复的现象;查看标签是否符合要求。
由于原始label的范围是[1-5],需要将label缩放到[0-4]之间。
查看数据后发现,数据的“评论”中存在重复现象,所以需要将“评论”一列进行去重处理。去除重复的评论后,由于重复评论的一整行都会被删除,所以会出现列序号索引混乱,需要对索引进行重新排序。
载入停用词表,并将停用词去除。
通过pandas索引循环comment列,将所有词合并到一个列表里。然后通过Counter统计词频数,并将词频小于10的词去除。
目前data数据中存在["评论"]、["评分"]、["label"]、["comment_processed"]四列,我们最终需要的数据为["label"]、["comment_processed"]两列,所以需要将["评论"]、["评分"]两列中间变量删掉。