【深度学习、工程实践】深度学习进行情感分析（1）--数据预处理

日期：2025-01-02 移动：http://mip.xhstdz.com/quote/86658.html

前言

一、读入所需的工具库

二、读取数据并查看

1.读入数据

2.查看数据

3.缩放label

三.数据处理

1.去除重复数据

2.去除无用字符

3.使用jieba分词

4.去除停用词

5.去除低频词

6. 将数据信息保存

四.查看保存好的数据

五.精简数据

六.数据可视化

1.统计评分的分布

2.生成评分-数量直方图

3.统计单词的个数来得到每个句子的长度

4.生成长度统计图

数据链接：https://pan.baidu.com/s/1WHJMObw6kXTdhkWTFW4igg
提取码：wcwe

停用词链接:阿里云盘分享

通过pd.read_csv函数读取数据，该函数是用来读取csv格式的文件，将表格数据转化成dataframe格式。dataframe格式的数据在操作时极为方便，由于我们仅需要评论和评分这两列，所以通过索引取出对应的数据。

数据详情如下所示：

校查数据是否有乱码、重复的现象；查看标签是否符合要求。

由于原始label的范围是[1-5]，需要将label缩放到[0-4]之间。

查看数据后发现，数据的“评论”中存在重复现象，所以需要将“评论”一列进行去重处理。去除重复的评论后，由于重复评论的一整行都会被删除，所以会出现列序号索引混乱，需要对索引进行重新排序。

载入停用词表，并将停用词去除。

通过pandas索引循环comment列，将所有词合并到一个列表里。然后通过Counter统计词频数，并将词频小于10的词去除。

目前data数据中存在["评论"]、["评分"]、["label"]、["comment_processed"]四列，我们最终需要的数据为["label"]、["comment_processed"]两列，所以需要将["评论"]、["评分"]两列中间变量删掉。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行