相关动态
自然语言处理中文数据集入口整理
2024-11-10 17:36

1 github 链接 

自然语言处理中文数据集入口整理

    https://github.com/SophonPlus/ChineseNlpCorpus          包括情感分类,推荐,问答

   https://github.com/CLUEbenchmark/CLUEDatasetSearch       NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集

    https://github.com/brightmart/nlp_chinese_corpus            Large Scale Chinese Corpus for NLP

    https://github.com/crownpku/Awesome-Chinese-NLP#corpus-中文语料   中文语料

    https://github.com/InsaneLife/ChineseNLPCorpus                  中文自然语言处理数据集

2 新闻分类

  • 今日头条中文新闻(短文本)分类数据集:https://github.com/fateleak/toutiao-text-classfication-datase
  • 清华新闻分类语料

    • http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

    • rnn和cnn实验:https://github.com/

      gaussic/text-classification-cnn-rnn

  • 中科大新闻分类语料库:http://www.nlpir.org/?action-viewnews-itemid-145

3 实体识别&词性标注

  • 微博实体识别 https://github.com/hltcoe/golden-horse
  • boson数据。https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson

  • 1988年人民日报   https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

  • MSRA微软亚洲研究院数据集。https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

  • SIGHAN Bakeoff 2005:一共有四个数据集,包含繁体中文和简体中文,下面是简体中文分词数据。

    • MSR: http://sighan.cs.uchicago.edu/bakeoff2005/

    • PKU :http://sighan.cs.uchicago.edu/bakeoff2005/

 4 搜索

  • OPPO手机搜索排序   https://pan.baidu.com/s/1Obm8oRVZEIh76-cpPc0qZw
  • 网页搜索结果评价(SogouE)用户查询及相关URL列表       https://www.sogou.com/labs/resource/e.php

5 百科

  • 维基百科 https://dumps.wikimedia.org/zhwiki/               https://dumps.wikimedia.org/
  • 百度百科,只能自己爬,爬取得链接:https://pan.baidu.com/share/init?surl=i3wvfil提取码 neqs 。
  • 最全中华古诗词数据集,下载地址:https://github.com/chinese-poetry/chinese-poetry

  • 保险行业语料库 下载地址:https://github.com/Samurais/insuranceqa-corpus-zh

6 指代消歧

  • ConLL 2012 :http://conll.cemantix.org/2012/data.html

7 预训练(词向量or模型

  • BERT     开源代码:https://github.com/google-research/bert
  • ELMO           开源代码:https://github.com/allenai/bilm-tf             预训练的模型:https://allennlp.org/elmo
  • 腾讯词向量  下载地址:https://ai.tencent.com/ailab/nlp/embedding.html
  • 上百种预训练中文词向量       下载地址:https://github.com/Embedding/Chinese-Word-Vectors

8 中文完形填空数据集         下载地址:https://github.com/ymcui/Chinese-RC-Dataset

9 中文数据集平台

  • 搜狗实验室提供了一些高质量的中文文本数据集,时间比较早,多为2012年以前的数据。https://www.sogou.com/labs/resource/list_pingce.php
  • 中科大自然语言处理与信息检索共享平台

    http://www.nlpir.org/?action-category-catid-28

  • 中文语料小数据   包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。

         https://github.com/crownpku/Small-Chinese-Corpus

10  中文 NLP 数据集搜索:https://www.cluebenchmarks.com/dataSet_search.html

11 中文翻译nmt数据集

系列数据

(国际口语研讨会)数据集

           总数据集下载: https://github.com/pengr/iwslt15/blob/master/en-de.tgz: A Large English-Chinese Parallel Corpus 中葡翻译语料

:大规模中英平行语料

            例如以下数据集      

AI challenger (英中翻译 规模最大的口语领域英中双语对照数据集

https://github.com/didi/ChineseNLP/blob/master/docs/machine_translation.md

GitHub - brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

THULAC:https://github.com/thunlp/THULAC :包括中文分词、词性标注功能。

HanLP:https://github.com/hankcs/HanLP

哈工大LTP: https://github.com/HIT-SCIR/ltp

NLPIR :https://github.com/NLPIR-team/NLPIR

jieba :https://github.com/yanyiwu/cppjieba

    以上就是本篇文章【自然语言处理中文数据集入口整理】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/2984.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://sjzytwl.xhstdz.com/mobile/ , 查看更多   
最新文章
苹果手机怎么恢复备份?详细攻略为你整理好了!云备份怎么恢复到手机「苹果手机怎么恢复备份?详细攻略为你整理好了!」
随着智能手机和互联网的普及,手机中存储的个人信息、照片、视频、聊天记录等数据会变得越来越多。一旦手机丢失、损坏或系统出现
李亚鹏正式息影 投资50亿丽江当老板金立手机老板「李亚鹏正式息影 投资50亿丽江当老板」
  华西都市报4月28日讯 昨日,李亚鹏打造的“云南省文化产业试验园”项目北京签约“我每年只选一部戏来拍,这已经严格遵循了10
怎样采用比特币挖矿?手机挖矿「怎样采用比特币挖矿?」
好吧,废话不多说了,其实比特币 - Bitcoin 出现时间已经很久了,不过对于新手来说,还是需要讲解一下的。关于比特币。FORECE 在
定了!苹果 2022 秋季发布会定档,9月8日见iPhone 14 来了?苹果手机发布会「定了!苹果 2022 秋季发布会定档,9月8日见iPhone 14 来了?」
又是九月,丰收的季节,今年的苹果又该熟了.......正如此前传闻那样,今晚苹果正式向外界发送了邀请函,宣布将于当地时间 9月7日
苹果手机微信闪退怎么回事苹果手机闪退是什么原因「苹果手机微信闪退怎么回事」
  品牌型号:iPhone12  系统版本:IOS14  苹果手机如果出现微信闪退的状况,首先我们得寻找原因,接下来小编就带着你们来
ZArchiver手机解压缩工具chm文件手机怎么打开「ZArchiver手机解压缩工具」
ZArchiver是一款功能强大的解压缩工具APP,可用于解压文件或压缩文件,软件支持多种文件格式的压缩和解压缩,包括ZIP、RAR、7Z、
【原】一部手机最长能用几年?主要有三个因素,决定了手机的寿命什么手机寿命最长「【原】一部手机最长能用几年?主要有三个因素,决定了手机的寿命」
一部手机最长能用几年?主要取决于以下这几个重要因素,才能决定手机的使用寿命。在当今社会,智能手机已经成为我们生活中不可或
iQOO 3评测:旗舰机还能在哪提升?这部手机给了答案机械手机「iQOO 3评测:旗舰机还能在哪提升?这部手机给了答案」
  文/晓光 于泽 瑞豪 视频/贾乾 图/苏航  从去年成立至今,iQOO这品牌发布了不到十款产品,并成功在互联网渠道占据了自己的
2013-4-7发布华为模拟器eNSP月度更新版(V2.0)支持全系列AR路由器模拟华为手机模拟器「2013-4-7发布华为模拟器eNSP月度更新版(V2.0)支持全系列AR路由器模拟」
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.ne
ADB驱动源码深度解析,从原理探究到实践应用android手机驱动「ADB驱动源码深度解析,从原理探究到实践应用」
摘要:,,本文深入解析ADB(Android Debug Bridge)驱动源码,从原理到实践全面阐述。文章首先介绍了ADB的基本原理和主要功能,
相关文章