推广 热搜： 行业设备金系统参数经纪杯教师机械中国

Python NLTK 入门教程

日期：2024-11-10 作者：n19v1 caijiyuan 评论：0 移动：http://mip.xhstdz.com/news/5123.html

核心提示：NLTK 入门(详细使用见官网：http://www.nltk.org/) 选择需要的包安装，建议默认路径下载，全部包安装大概需要

NLTK 入门(详细使用见官网：http://www.nltk.org/)

Python NLTK 入门教程

选择需要的包安装，建议默认路径下载，全部包安装大概需要 2G 内存

测试安装是否成功

1.文本切分成语句

2.文本切分成语句（大批量句子切分、特定语言句子切分）

3. 分词方法

方法1：TreebankWordTokenizer 依据 Penn Treebank 语料库的约定，通过分离缩略词来实现切分

方法2：PunktWordTokenizer 通过分离标点来实现切分的，每一个单词都会被保留

其他分词方法：RegexpTokenizer、WhitespaceTokenizer、BlanklineTokenizer 等

4. 频率分布 nltk.probability.FreqDist

函数解释fdist = FreqDist(samples)创建包含给定样本的频率分布，参数为词的列表fdist.inc(sample)增加样本fdist[‘monstrous’]计数给定样本出现的次数fdist.freq(‘monstrous’)给定样本的频率fdist.N()样本总数fdist.keys()以频率递减顺序排序的样本链表for sample in fdist:以频率递减的顺序遍历样本fdist.max()数值最大的样本fdist.tabulate()绘制频率分布表fdist.plot()绘制频率分布图fdist.plot(cumulative=True)绘制累积频率分布图fdist1 < fdist2测试样本在 fdist1 中出现的频率是否小于 fdist2

5. 条件频率分布 nltk.probability.ConditionalFreqDist

函数解释cfdist = ConditionalFreqDist(pairs)从配对链表中创建条件频率分布cfdist.conditions()将条件按字母排序cfdist[condition]此条件下的频率分布cfdist[condition][sample]此条件下给定样本的频率cfdist.tabulate()为条件频率分布制表cfdist.tabulate(samples, conditions) 指定样本和条件限制下制表cfdist.plot()为条件频率分布绘图cfdist.plot(samples, conditions) 指定样本和条件限制下绘图cfdist1 < cfdist2测试样本在 cfdist1 中出现次数是否小于在 cfdist2中出现次数

6.nltk.text.Text()类用于对文本进行初级的统计与分析

函数解释Text(words)对象构造,参数为词的列表concordance(word, width, lines)显示 word 出现的上下文common_contexts(words)显示 words 出现的相同模式similar(word)显示 word 的相似词collocations(num, window_size)显示最常见的二词搭配count(word)word 出现的词数dispersion_plot(words)绘制 words 中文档中出现的位置图vocab()返回文章去重的词典

7. nltk.corpus 自带语料库

函数解释gutenberg大约有 36000 本免费电子图书，多是古典作品webtext网络小说、论坛、网络广告等内容nps_chat有上万条聊天消息语料库，即时聊天消息为主brown一个百万词级别的英语电子语料库，这个语料库包含 500 个不同来源的文本，按文体分类有新闻、社论等reuters路透社语料库，上万篇新闻方档，约有 1 百万字，分 90 个主题，并分为训练集和测试集两组inaugural演讲语料库，几十个文本，都是总统演说

8. 语料库操作

函数解释fileids()返回语料库中文件名列表fileids[categories]返回指定类别的文件名列表raw(fid=[c1,c2])返回指定文件名的文本字符串raw(catergories=[])返回指定分类的原始文本sents(fid=[c1,c2])返回指定文件名的语句列表sents(catergories=[c1,c2])按分类返回语句列表words(filename)返回指定文件名的单词列表words(catogories=[])返回指定分类的单词列表

9. 提取词干

提取词干：词干提取可以被定义为一个通过去除单词中的词缀以获取词干的过程。

以单词 raining 为例，词干提取器通过从 raining 中去除词缀来返回其词根或词干 rain。为了提高信息检索的准确性，搜索引擎大多会使用词干提取来获取词干并将其存储为索引词。

方法 1：在 NLTK 中使用 PorterStemmer 类进行词干

方法 2：LancasterStemmer 类在 NLTK 中用于实现 Lancaster 词干提取算法

n 方法 3：在 NLTK 中，我们通过使用 RegexpStemmer 类也可以构建属于我们自己的词干提取器。它的工作原理是通过接收一个字符串，并在找到其匹配的单词时删除该单词的前缀或后缀

10. 词性标注

词性标注：词性标注是一个对句中的每个标识符分配词类（例如名词、动词、形容词等）标记的过程。在 NLTK 中，词性标注器存在于 nltk.tag 包中并被 TaggerIbase 类所继承

1.消除标点符号（中英文）

2. 文本的大小写转换

3.处理停止词（英文）

本文地址：http://sjzytwl.xhstdz.com/news/5123.html 物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新文章

0 条相关评论

文章列表

相关文章

李开复：DeepSeek 的成功证明闭源是“死路”，开源才有更大发展

最新动态

推荐图文

最新文章

点击排行

• 电信卡怎么异地销户销户流程是什么手机卡停机	• 梦金园去年净利同比降17.8%至1.89亿元海外增7
• 怎么找回qq密码qq密码忘记了手机号也换了怎么办	• 大屏智能千元机酷派5860价格欲破1100元酷派586
• 计步器怎么删掉手机自动计步器「计步器怎么删掉	• 三星今天上午宣布Note7爆炸原因已导致损失超10
• CBA八强出炉！下半区比上半区惨烈，9-12最终排	• 财知道｜爆卖上百万件！巴掌大的小东西，是年
• Z趋势：4G高速时代机会与挑战并存4g手机价格「	• 华为手机工程模式怎么进入(华为手机工程模式怎