相关动态
Python NLTK 入门教程
2024-11-10 18:19

NLTK 入门(详细使用见官网:http://www.nltk.org/)

Python NLTK 入门教程

 

图片1

选择需要的包安装,建议默认路径下载,全部包安装大概需要 2G 内存

测试安装是否成功

 

1.文本切分成语句

 

2.文本切分成语句(大批量句子切分、特定语言句子切分

 

3. 分词方法

  • 方法1:TreebankWordTokenizer 依据 Penn Treebank 语料库的约定,通过分离缩略词来实现切分
 
  • 方法2:PunktWordTokenizer 通过分离标点来实现切分的,每一个单词都会被保留
 
  • 其他分词方法 :RegexpTokenizer、WhitespaceTokenizer、BlanklineTokenizer 等

4. 频率分布 nltk.probability.FreqDist

函数解释fdist = FreqDist(samples)创建包含给定样本的频率分布,参数为词的列表fdist.inc(sample)增加样本fdist[‘monstrous’]计数给定样本出现的次数fdist.freq(‘monstrous’)给定样本的频率fdist.N()样本总数fdist.keys()以频率递减顺序排序的样本链表for sample in fdist:以频率递减的顺序遍历样本fdist.max()数值最大的样本fdist.tabulate()绘制频率分布表fdist.plot()绘制频率分布图fdist.plot(cumulative=True)绘制累积频率分布图fdist1 < fdist2测试样本在 fdist1 中出现的频率是否小于 fdist2

5. 条件频率分布 nltk.probability.ConditionalFreqDist

函数解释cfdist = ConditionalFreqDist(pairs)从配对链表中创建条件频率分布cfdist.conditions()将条件按字母排序cfdist[condition]此条件下的频率分布cfdist[condition][sample]此条件下给定样本的频率cfdist.tabulate()为条件频率分布制表cfdist.tabulate(samples, conditions) 指定样本和条件限制下制表cfdist.plot()为条件频率分布绘图cfdist.plot(samples, conditions) 指定样本和条件限制下绘图cfdist1 < cfdist2测试样本在 cfdist1 中出现次数是否小于在 cfdist2中出现次数

6.nltk.text.Text()类用于对文本进行初级的统计与分析

函数解释Text(words)对象构造,参数为词的列表concordance(word, width, lines)显示 word 出现的上下文common_contexts(words)显示 words 出现的相同模式similar(word)显示 word 的相似词collocations(num, window_size)显示最常见的二词搭配count(word)word 出现的词数dispersion_plot(words)绘制 words 中文档中出现的位置图vocab()返回文章去重的词典

7. nltk.corpus 自带语料库

函数解释gutenberg大约有 36000 本免费电子图书,多是古典作品webtext网络小说、论坛、网络广告等内容nps_chat有上万条聊天消息语料库,即时聊天消息为主brown一个百万词级别的英语电子语料库,这个语料库包含 500 个不同来源的文本,按文体分类有新闻、社论等reuters路透社语料库,上万篇新闻方档,约有 1 百万字,分 90 个主题,并分为训练集和测试集两组inaugural演讲语料库,几十个文本,都是总统演说

8. 语料库操作

函数解释fileids()返回语料库中文件名列表fileids[categories]返回指定类别的文件名列表raw(fid=[c1,c2])返回指定文件名的文本字符串raw(catergories=[])返回指定分类的原始文本sents(fid=[c1,c2])返回指定文件名的语句列表sents(catergories=[c1,c2])按分类返回语句列表words(filename)返回指定文件名的单词列表words(catogories=[])返回指定分类的单词列表

9. 提取词干

提取词干:词干提取可以被定义为一个通过去除单词中的词缀以获取词干的过程。

以单词 raining 为例,词干提取器通过从 raining 中去除词缀来返回其词根或词干 rain。为了提高信息检索的准确性,搜索引擎大多会使用词干提取来获取词干并将其存储为索引词。

  • 方法 1:在 NLTK 中使用 PorterStemmer 类进行词干
 
  • 方法 2:LancasterStemmer 类在 NLTK 中用于实现 Lancaster 词干提取算法
 
  • n 方法 3:在 NLTK 中,我们通过使用 RegexpStemmer 类也可以构建属于我们自己的词干提取器。它的工作原理是通过接收一个字符串,并在找到其匹配的单词时删除该单词的前缀或后缀

10. 词性标注

词性标注:词性标注是一个对句中的每个标识符分配词类(例如名词、动词、形容词等)标记的过程。在 NLTK 中,词性标注器存在于 nltk.tag 包中并被 TaggerIbase 类所继承

 

1.消除标点符号(中英文

 

2. 文本的大小写转换

 

3.处理停止词(英文

    以上就是本篇文章【Python NLTK 入门教程】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/5123.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://sjzytwl.xhstdz.com/mobile/ , 查看更多   
最新文章
苹果手机怎么恢复备份?详细攻略为你整理好了!云备份怎么恢复到手机「苹果手机怎么恢复备份?详细攻略为你整理好了!」
随着智能手机和互联网的普及,手机中存储的个人信息、照片、视频、聊天记录等数据会变得越来越多。一旦手机丢失、损坏或系统出现
李亚鹏正式息影 投资50亿丽江当老板金立手机老板「李亚鹏正式息影 投资50亿丽江当老板」
  华西都市报4月28日讯 昨日,李亚鹏打造的“云南省文化产业试验园”项目北京签约“我每年只选一部戏来拍,这已经严格遵循了10
怎样采用比特币挖矿?手机挖矿「怎样采用比特币挖矿?」
好吧,废话不多说了,其实比特币 - Bitcoin 出现时间已经很久了,不过对于新手来说,还是需要讲解一下的。关于比特币。FORECE 在
定了!苹果 2022 秋季发布会定档,9月8日见iPhone 14 来了?苹果手机发布会「定了!苹果 2022 秋季发布会定档,9月8日见iPhone 14 来了?」
又是九月,丰收的季节,今年的苹果又该熟了.......正如此前传闻那样,今晚苹果正式向外界发送了邀请函,宣布将于当地时间 9月7日
苹果手机微信闪退怎么回事苹果手机闪退是什么原因「苹果手机微信闪退怎么回事」
  品牌型号:iPhone12  系统版本:IOS14  苹果手机如果出现微信闪退的状况,首先我们得寻找原因,接下来小编就带着你们来
ZArchiver手机解压缩工具chm文件手机怎么打开「ZArchiver手机解压缩工具」
ZArchiver是一款功能强大的解压缩工具APP,可用于解压文件或压缩文件,软件支持多种文件格式的压缩和解压缩,包括ZIP、RAR、7Z、
【原】一部手机最长能用几年?主要有三个因素,决定了手机的寿命什么手机寿命最长「【原】一部手机最长能用几年?主要有三个因素,决定了手机的寿命」
一部手机最长能用几年?主要取决于以下这几个重要因素,才能决定手机的使用寿命。在当今社会,智能手机已经成为我们生活中不可或
iQOO 3评测:旗舰机还能在哪提升?这部手机给了答案机械手机「iQOO 3评测:旗舰机还能在哪提升?这部手机给了答案」
  文/晓光 于泽 瑞豪 视频/贾乾 图/苏航  从去年成立至今,iQOO这品牌发布了不到十款产品,并成功在互联网渠道占据了自己的
2013-4-7发布华为模拟器eNSP月度更新版(V2.0)支持全系列AR路由器模拟华为手机模拟器「2013-4-7发布华为模拟器eNSP月度更新版(V2.0)支持全系列AR路由器模拟」
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.ne
ADB驱动源码深度解析,从原理探究到实践应用android手机驱动「ADB驱动源码深度解析,从原理探究到实践应用」
摘要:,,本文深入解析ADB(Android Debug Bridge)驱动源码,从原理到实践全面阐述。文章首先介绍了ADB的基本原理和主要功能,
相关文章