首页 / 成果中心
一种基于方差的文档分类方法
成果登记时间:
成果登记号:
完成单位:
研究开始及结束时间:
所属高新技术领域:其他
咨询
详细信息
成果属性 国内技术二次开发 成果体现形式 新技术
转让范围 限国内转让 课题立项名称
所处阶段 中期阶段 研究形式 独立研究
课题来源 成果水平 国内先进
官方链接
研发单位信息
专利情况
应用前景
详细介绍

本发明的基于方差的文档分类方法,包括:a).采集足够数量的、已明确类别的科技文献、小说和散文,作为训练样本;b).采用现有的分词方法进行分词,并计算词频;c).对词频做归一化处理;d).计算每篇文档词频的方差;e).归纳词频方差区间;f).待分类文档的处理;g).判断方差的落入区间;h).根据落入的区间获取文档分类。本发明的基于方差的文档分类方法,根据科技文献、小说和散文的用词特点所造成的词频方差的不同,可将待分类文档合理、科学地自动区分开来,在保证了分类准确率的同时,具有很高的效率,为对现有文献进行科技文献、小说和散文分类奠定了理论基础,并提供了完整、科学的理论方法。

机构名称:山东省科学院情报研究所
所属行业:研究机构>通信/电信/网络设备,学术/科研

联系方式

联系人 : 办公室
手   机 : 13200000000
固   话 : 0531-82605362
传   真 : 0531-82605362
地   址 : 山东济南科院19号
值班QQ 在线留言