1234567891011121314151617181920212223242526272829303132333435363738394041 |
- Words-240测试集(类似于英文的WordSimilarity-353测试集)包含240对中文词汇和人工对这些词对之间的语义相关度的评测值,
- 此测试集可以用于测试或者训练中文语义相关度算法。我们以组为单位安排人员进行测试,共分为12组,每组包含20对词。每一组
- 词汇都有20人分别对其相关性进行量化评测,共有240余人参与了测试。词汇之间相关性的度量值介于0到10之间(0表示这两个词
- 之间毫不相关,10表示这两个词是同义词),我们将这20个人对某词对的评测结果的平均值作为最终结果。每个人的评价结果请参
- 见“测试集统计结果.xls”。如果您有什么问题或者评论,请您发邮件和我们联系,邮件地址是:xiangwangcn@gmail.com。
- 此测试集是我们为了测试中文词汇之间的语义相关度算法而构造的,详情请参见我们的论文《基于中文维基百科链接结构与分类体系
- 的语义相关度计算》(作者:汪祥,贾焰,周斌,丁兆云,梁政)。论文尚未发表,发表后您将可以看到。
- 下面内容是给测试者的说明:
- 我们很高兴您帮助我们进行这个语言学的实验,本次试验的目的在于量化评估汉语中部分词语之间的语义相关性,量化评估的结果将
- 用于自然语言处理算法的测试和训练。这个测试集将在网络上按照开源思想免费发布,希望能在一定程度上促进中文自然语言处理的
- 发展。如果您不吝在问卷上留下自己的个人信息,我们将在致谢信中予以署名致谢!谢谢您的合作!
- 说明:
- 1. 对于下面表中的每一对词语,请给出它们之间的一个相关性的度量值,这个值介于0到10之间(0表示这两个词之间毫无联系,
- 10表示这两个词是同义词),当然您也可以填上0-10之间的小数。如“中国”和“中华人民共和国”这两个词就可以给10分,
- 而“教授”和“白菜”这两个词很难联系在一起,您可以给一个很小的值,甚至给0分。
- 2. 如果这两个词之间是反义的关系,请也给出很高的分数,判断的标准主要是您从第一个词联想到第二个词的容易程度,越容易联
- 想到则其分数越高,相反则分数越低。
- 3. 请独立完成测试,不要和周围的同学或朋友交流彼此给出的分值。独立性对这次试验非常重要。如果您不理解下表中给出的某个
- 词汇的意思,您可以查阅词典字典或者上网搜索,也可以请教他人。
- 谢谢你们的参与!
- Words-240测试集得到了国防科技大学613教研室的大力支持,感谢贾焰老师、周斌老师等的指导和帮助。在构造测试集中,著名英
- 文词汇语义相似度的测试集WordSimilarity-353的创立者Lev Finkelstein在如何选择测试集Words-240中词对的问题上进行了
- 热心的指导,在此表示诚挚的感谢。在构造测试集的过程中,湖南师范大学的彭丹同学、湖南大学的陈军同学和国防科技大学的李虎
- 给予了大力协助,在此表示衷心的感谢。国防科技大学、湖南师范大学和湖南大学的240余名同学无偿参与了测试,他们的无私奉献
- 精神直接促使了本测试集的诞生,
- 参加测试的同学有:万芬芬,李大财,吴章彬,尹晋文,邱口,黄江勇,蔡强,王刚,张伟,周晓锋,刘时,徐浩,胡燕,左文豪,
- 吴勇,刘念松,尹波,姚鑫,张右良,周晟,王佳静,何佳,袁功彪,李晋国,谢小红,叶光辉,林建,钟勇才,杨海兵,陈聪,陈超,
- 童国雄,周新云,邹垒,肖天赐,尹邦浩,刘伟,何花,李欢妮,焦丙丰,刘乾,张翠,艾达,伍浩,孙浩然,钟方敬,赵浒,刘哲,
- 龚秀娟,李琦,杨瑞丽,何珂,甘玲,许念,胡蛟,孔梦娟,罗浩,刘芳,廖璨,李冬嫦,白露,皮之云,袁园,潘剑珍,杨厅,徐征,
- 匡牧宇,王薇薇,祁曦婕,宇岳,游凤英,王昕,曹璇,吕性,张志世,杨贵芸,杨雪梅,李腾飞,廖娟,陈娅琦,彭燕,崔文秀,
- 路俊雅,刘雅玲,曾状林,范仁娇,陈玲佳,詹会,孙梦迪,毛本,徐汇,刘婷,黎明阳,刘雨薇,王晓秀,祁美丹,程怡欣,吴之瑶,
- 马超玲,蒋丽娟,刘娜,张芬,阮晓婷,马璞玉,刘贤霖,李西,李小芳,余立,曾惠奇,晓歪,张艳翔,曾田田,张卫,付渔,伍新
- 春,胡朱,苏兴恺,马党,张祥洪,段丽,李文韶,黄红君,陈超,伍月,侯丽华,陆金梅,谢璐璐,谭娜娜,胡海姣,裴晓强、刘建
- 峰,王海波等(由于隐私保护等原因,很多同学的姓名等未在此处列出),在此对他们表示感谢。
|