近日,在论坛发帖介绍自己的语料库。
第一个版本的帖子内容如下:
http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html
提供语料库下载链接
第二个版本的帖子内容如下:
我自己整理的一个中午新闻分类语料库,已经上传提供给和我一样对NLP狂热的业余爱好者下载。详情见http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html
这个语料库和搜狗分类新闻语料库比起来,确实谈不上标准,但是可以做些小实验玩玩之类的。
第三个版本:
中文新闻文本分类语料库资源已经上传到博客园,网友可以自由下载。
希望这批语料能够作为搜狗开放语料库的补充,仅供网友学习研究交流使用,禁止任何商业用途。
说明:此语料库共有新闻39247篇,和搜狗语料库新闻相比,该语料库的新闻以长新闻为主。
此语料库储存在MSSQL2000数据库中,标题和新闻正文占有不同的字段。分为 历史,军事,文化,读书,教育,IT,娱乐,社会与法 八个类别。新闻来源于 凤凰,网易,新浪,腾讯的若干个版面。下载地址及免责声明,语料库内部格式等详细说明见http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html
感悟: 第一版,仿佛是广告贴,一般人不会点进去;第二版,虽然对语料库有了些介绍,但是介绍语言不过专业,介绍的也不够具体,没有涉及到这个语料库的潜在使用者所关心的问题。
本文地址:http://sjzytwl.xhstdz.com/quote/64368.html 物流园资讯网 http://sjzytwl.xhstdz.com/ , 查看更多