推广 热搜： 行业机械设备杯系统教师金参数经纪蒸汽

《机器学习》文本数据分析之关键词提取、TF-IDF、项目实现＜上＞

日期：2024-11-10 移动：http://sjzytwl.xhstdz.com/mobile/quote/64461.html

一、如何进行关键词提取

1、关键词提取步骤

1）数据收集

2）数据准备

3）模型建立

4）模型结果统计

5）TF-IDF分析

2、什么是语料库

3、如何进行中文分词

1）导包

2）导入分词库

3）导入停用词库

4）使用jieba库分词

5）代码实例

二、核心算法

1、TF-IDF分析

2、TF-IDF算法公式

1）TF词频公式

2）IDF逆文档频率公式

3）TF-IDF公式

4）举例

3、案例

运行结果：

三、处理红楼梦词库

1、导入红楼梦词库

用法示例：

2、对整篇红楼梦文章进行拆分

完整代码：

运行结果：

1、关键词提取步骤

1）数据收集

收集研究需要的数据，建立相应的语料库

2）数据准备

导入分词库和通用词库

3）模型建立

使用 jieba 库，对语料库进行分词处理

4）模型结果统计

根据分类结果，进行词频统计，并绘制词云图

5）TF-IDF分析

得到加权后分词结果

2、什么是语料库

语料库是指用于训练和评估模型的文本数据集。语料库通常包含大量的自然语言文本，例如新闻文章、书籍、网页内容等。

语料库中存放的是在语言的实际使用中真实出现过的语言材料。

3、如何进行中文分词

1）导包

2）导入分词库

固定词组，jieba库没有内置的词组

3）导入停用词库

没有意义的词

4）使用jieba库分词

将文章完全分词即可

5）代码实例

此时的运行结果为：

上述如果没有使用固定词组则会有下列运行结果：

1、TF-IDF分析

TF-IDF是一种用来评估一个词在文档中的重要性的统计方法。

TF指的是某一个给定的词语在该文件中出现的次数，这个数字通常会被归一化(一般是词频除以文章总词数)，以防止它偏向长的文件。

IDF指的是逆文档频率。IDF的主要思想是：如果包含词条 t 的文档越少，IDF越大，则说明词条具有很好的类别区分能力。

TF-IDF倾向于过滤掉常见的词语，保留重要的词语，它的值等于一个词的TF乘以它的IDF值，其大小用于衡量一个词在一个文档中的重要性，相当于加权

2、TF-IDF算法公式

1）TF词频公式

2）IDF逆文档频率公式

3）TF-IDF公式

4）举例

以《中国的蜜蜂养殖》为例，假定该文长度为1000个词，“中国"、"蜜蜂”、养殖"各出现20次，则这三个词的"词频"(TF)都为0.02。然后，搜索Google发现，包含"的"字的网页共有250亿张，假定这就是中文网页总数。包含"中国"的网页共有62.3亿张，包含”蜜蜂”的网页为0.484亿张，包含“养殖”的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF如下:

“中国”、 “密封”、“养殖”的TF值 = 20/1000 = 0.02

“中国” IDF值 = log(250/62.3+1) = 0.603

“中国” TF-IDF值 = TF * IDF = 0.0121

同理即可得到剩余词组的TF-IDF值

3、案例

文档内容：（五行代表五篇文章）

运行结果：

1、导入红楼梦词库

词库内有如下内容：

用法示例：

运行结果为：

2、对整篇红楼梦文章进行拆分

红楼梦.txt 文件内容：（其中包含整篇文章）

现需将其中的每一卷内容保存为一个新的文本文件，并且文件命名也是相应卷名

完整代码：

运行结果：

共120卷

本文地址：http://sjzytwl.xhstdz.com/quote/64461.html 物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行

《机器学习》文本数据分析之关键词提取、TF-IDF、项目实现 ＜上＞

1、关键词提取步骤

1）数据收集

2）数据准备

3）模型建立

4）模型结果统计

5）TF-IDF分析

2、什么是语料库

3、如何进行中文分词

1）导包

2）导入分词库

3）导入停用词库

4）使用jieba库分词

5）代码实例

1、TF-IDF分析

2、TF-IDF算法公式

1）TF词频公式

2）IDF逆文档频率公式

3）TF-IDF公式

4）举例

3、案例

运行结果：

1、导入红楼梦词库

用法示例：

2、对整篇红楼梦文章进行拆分

完整代码：

运行结果：

《机器学习》文本数据分析之关键词提取、TF-IDF、项目实现＜上＞