1 github 链接
https://github.com/SophonPlus/ChineseNlpCorpus 包括:情感分类,推荐,问答
https://github.com/CLUEbenchmark/CLUEDatasetSearch NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集
https://github.com/brightmart/nlp_chinese_corpus Large Scale Chinese Corpus for NLP
https://github.com/crownpku/Awesome-Chinese-NLP#corpus-中文语料 中文语料
https://github.com/InsaneLife/ChineseNLPCorpus 中文自然语言处理数据集
2 新闻分类
- 今日头条中文新闻(短文本)分类数据集:https://github.com/fateleak/toutiao-text-classfication-datase
-
清华新闻分类语料:
-
http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5
-
rnn和cnn实验:https://github.com/
gaussic/text-classification-cnn-rnn
-
-
中科大新闻分类语料库:http://www.nlpir.org/?action-viewnews-itemid-145
3 实体识别&词性标注
- 微博实体识别 https://github.com/hltcoe/golden-horse
-
boson数据。https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson
-
1988年人民日报 https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao
-
MSRA微软亚洲研究院数据集。https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA
-
SIGHAN Bakeoff 2005:一共有四个数据集,包含繁体中文和简体中文,下面是简体中文分词数据。
-
MSR: http://sighan.cs.uchicago.edu/bakeoff2005/
-
PKU :http://sighan.cs.uchicago.edu/bakeoff2005/
-
4 搜索
- OPPO手机搜索排序 https://pan.baidu.com/s/1Obm8oRVZEIh76-cpPc0qZw
- 网页搜索结果评价(SogouE)用户查询及相关URL列表 https://www.sogou.com/labs/resource/e.php
5 百科
- 维基百科 https://dumps.wikimedia.org/zhwiki/ https://dumps.wikimedia.org/
- 百度百科,只能自己爬,爬取得链接:https://pan.baidu.com/share/init?surl=i3wvfil提取码 neqs 。
-
最全中华古诗词数据集,下载地址:https://github.com/chinese-poetry/chinese-poetry
-
保险行业语料库 下载地址:https://github.com/Samurais/insuranceqa-corpus-zh
6 指代消歧
- ConLL 2012 :http://conll.cemantix.org/2012/data.html
7 预训练:(词向量or模型)
- BERT 开源代码:https://github.com/google-research/bert
- ELMO 开源代码:https://github.com/allenai/bilm-tf 预训练的模型:https://allennlp.org/elmo
- 腾讯词向量 下载地址:https://ai.tencent.com/ailab/nlp/embedding.html
- 上百种预训练中文词向量 下载地址:https://github.com/Embedding/Chinese-Word-Vectors
8 中文完形填空数据集 下载地址:https://github.com/ymcui/Chinese-RC-Dataset
9 中文数据集平台
- 搜狗实验室提供了一些高质量的中文文本数据集,时间比较早,多为2012年以前的数据。https://www.sogou.com/labs/resource/list_pingce.php
-
中科大自然语言处理与信息检索共享平台
http://www.nlpir.org/?action-category-catid-28
-
中文语料小数据 包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。
https://github.com/crownpku/Small-Chinese-Corpus
10 中文 NLP 数据集搜索:https://www.cluebenchmarks.com/dataSet_search.html
11 中文翻译nmt数据集
系列数据
(国际口语研讨会)数据集:
总数据集下载: https://github.com/pengr/iwslt15/blob/master/en-de.tgz: A Large English-Chinese Parallel Corpus 中葡翻译语料
:大规模中英平行语料
例如以下数据集
AI challenger (英中翻译 规模最大的口语领域英中双语对照数据集)
https://github.com/didi/ChineseNLP/blob/master/docs/machine_translation.md
GitHub - brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
THULAC:https://github.com/thunlp/THULAC :包括中文分词、词性标注功能。
HanLP:https://github.com/hankcs/HanLP
哈工大LTP: https://github.com/HIT-SCIR/ltp
NLPIR :https://github.com/NLPIR-team/NLPIR
jieba :https://github.com/yanyiwu/cppjieba