相关动态
Python NLTK 入门教程
2024-11-10 18:19

NLTK 入门(详细使用见官网:http://www.nltk.org/)

Python NLTK 入门教程

 

图片1

选择需要的包安装,建议默认路径下载,全部包安装大概需要 2G 内存

测试安装是否成功

 

1.文本切分成语句

 

2.文本切分成语句(大批量句子切分、特定语言句子切分

 

3. 分词方法

  • 方法1:TreebankWordTokenizer 依据 Penn Treebank 语料库的约定,通过分离缩略词来实现切分
 
  • 方法2:PunktWordTokenizer 通过分离标点来实现切分的,每一个单词都会被保留
 
  • 其他分词方法 :RegexpTokenizer、WhitespaceTokenizer、BlanklineTokenizer 等

4. 频率分布 nltk.probability.FreqDist

函数解释fdist = FreqDist(samples)创建包含给定样本的频率分布,参数为词的列表fdist.inc(sample)增加样本fdist[‘monstrous’]计数给定样本出现的次数fdist.freq(‘monstrous’)给定样本的频率fdist.N()样本总数fdist.keys()以频率递减顺序排序的样本链表for sample in fdist:以频率递减的顺序遍历样本fdist.max()数值最大的样本fdist.tabulate()绘制频率分布表fdist.plot()绘制频率分布图fdist.plot(cumulative=True)绘制累积频率分布图fdist1 < fdist2测试样本在 fdist1 中出现的频率是否小于 fdist2

5. 条件频率分布 nltk.probability.ConditionalFreqDist

函数解释cfdist = ConditionalFreqDist(pairs)从配对链表中创建条件频率分布cfdist.conditions()将条件按字母排序cfdist[condition]此条件下的频率分布cfdist[condition][sample]此条件下给定样本的频率cfdist.tabulate()为条件频率分布制表cfdist.tabulate(samples, conditions) 指定样本和条件限制下制表cfdist.plot()为条件频率分布绘图cfdist.plot(samples, conditions) 指定样本和条件限制下绘图cfdist1 < cfdist2测试样本在 cfdist1 中出现次数是否小于在 cfdist2中出现次数

6.nltk.text.Text()类用于对文本进行初级的统计与分析

函数解释Text(words)对象构造,参数为词的列表concordance(word, width, lines)显示 word 出现的上下文common_contexts(words)显示 words 出现的相同模式similar(word)显示 word 的相似词collocations(num, window_size)显示最常见的二词搭配count(word)word 出现的词数dispersion_plot(words)绘制 words 中文档中出现的位置图vocab()返回文章去重的词典

7. nltk.corpus 自带语料库

函数解释gutenberg大约有 36000 本免费电子图书,多是古典作品webtext网络小说、论坛、网络广告等内容nps_chat有上万条聊天消息语料库,即时聊天消息为主brown一个百万词级别的英语电子语料库,这个语料库包含 500 个不同来源的文本,按文体分类有新闻、社论等reuters路透社语料库,上万篇新闻方档,约有 1 百万字,分 90 个主题,并分为训练集和测试集两组inaugural演讲语料库,几十个文本,都是总统演说

8. 语料库操作

函数解释fileids()返回语料库中文件名列表fileids[categories]返回指定类别的文件名列表raw(fid=[c1,c2])返回指定文件名的文本字符串raw(catergories=[])返回指定分类的原始文本sents(fid=[c1,c2])返回指定文件名的语句列表sents(catergories=[c1,c2])按分类返回语句列表words(filename)返回指定文件名的单词列表words(catogories=[])返回指定分类的单词列表

9. 提取词干

提取词干:词干提取可以被定义为一个通过去除单词中的词缀以获取词干的过程。

以单词 raining 为例,词干提取器通过从 raining 中去除词缀来返回其词根或词干 rain。为了提高信息检索的准确性,搜索引擎大多会使用词干提取来获取词干并将其存储为索引词。

  • 方法 1:在 NLTK 中使用 PorterStemmer 类进行词干
 
  • 方法 2:LancasterStemmer 类在 NLTK 中用于实现 Lancaster 词干提取算法
 
  • n 方法 3:在 NLTK 中,我们通过使用 RegexpStemmer 类也可以构建属于我们自己的词干提取器。它的工作原理是通过接收一个字符串,并在找到其匹配的单词时删除该单词的前缀或后缀

10. 词性标注

词性标注:词性标注是一个对句中的每个标识符分配词类(例如名词、动词、形容词等)标记的过程。在 NLTK 中,词性标注器存在于 nltk.tag 包中并被 TaggerIbase 类所继承

 

1.消除标点符号(中英文

 

2. 文本的大小写转换

 

3.处理停止词(英文

    以上就是本篇文章【Python NLTK 入门教程】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/5123.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://sjzytwl.xhstdz.com/mobile/ , 查看更多   
最新文章
苹果手机可以一边通话一边录音吗(苹果手机可以一边通话一边录音吗?)苹果手机怎么边打电话边录音「苹果手机可以一边通话一边录音吗(苹果手机可以一边通话一边录音吗?)」
苹果手机可以一边通话一边录音吗(苹果手机可以一边通话一边录音吗?): 文章标题:苹果手机可以一边通话一边录音吗(苹果手机可以
新年购机攻略:OPPO手机优惠活动全解析oppo手机全部型号「新年购机攻略:OPPO手机优惠活动全解析」
更值得一提的是,OPPO在其手机中积极运用人工智能技术,提升用户体验。例如,AI算法可以智能识别场景,自动调整摄影参数,让用户
模块化设计手机重出江湖:复古配置与创新体验的结合模块化手机「模块化设计手机重出江湖:复古配置与创新体验的结合」
在科技飞速发展的今天,手机市场竞争愈发激烈,各大厂商不断推出创新产品以吸引消费者的目光。近日,HMD在IFA2024上正式发布了其
DIY手机红外遥控器手机DIY「DIY手机红外遥控器」
点击上方“机械电子工程技术”关注我们想要自己的手机支持红外功能其实很简单,只要动动手DIY一个红外装置就可以了。下面开始发
如何在苹果手机上关闭屏幕旋转功能的详细步骤苹果手机自动旋转屏幕设置在哪「如何在苹果手机上关闭屏幕旋转功能的详细步骤」
苹果手机怎么关闭屏幕旋转 (How to Disable Screen Rotation on iPhone)在现代智能手机中,屏幕旋转功能为用户提供了更为灵活的
佛教中的“补处佛”,你知道是谁吗?佛手机「佛教中的“补处佛”,你知道是谁吗?」
在佛门里,我们听说释迦牟尼佛、阿弥陀佛、药师佛、弥勒佛等等,但是却少有人听说过“补处佛”,但其实“补处佛”的地位不可小觑
南京全面取消商品住房限售
新华社南京3月31日电(记者沈汝发)自3月31日起,南京全市范围内取消商品住房限售。这是南京市在31日举行的进一步促进南京房地产
海信电视怎么看直播电视台节目?安装一个美家市场就行!海信电视怎么手机投屏「海信电视怎么看直播电视台节目?安装一个美家市场就行!」
海信电视这个牌子大家应该都有听过,国内比较有名的电视品牌了,接下来就来给大家解答一下“海信电视怎么看直播电视台节目”这个
7家值得收藏的手机配件源头工厂店铺手机配件店「7家值得收藏的手机配件源头工厂店铺」
创作立场声明:胡侃侃原创,首发在【侃侃而谈】系列。这篇文章是提供一些1688上面手机配件的源头工厂店铺,欢迎收藏, 点赞, 关
OPPO Find X8最新曝光:强大性能无人能敌!x8手机「OPPO Find X8最新曝光:强大性能无人能敌!」
文|机sir早在6月初,OPPO就在伦敦举行了一场活动,在活动上OPPO承诺将会在2024年底之前将生成式AI带给全球5000万用户,并确认下

loading