详细信息 | |||
---|---|---|---|
成果属性 | 国内技术二次开发 | 成果体现形式 | 新技术 |
转让范围 | 限国内转让 | 课题立项名称 | |
所处阶段 | 中期阶段 | 研究形式 | 独立研究 |
课题来源 | 成果水平 | 国内先进 | |
官方链接 |
本发明的基于方差的文档分类方法,包括:a).采集足够数量的、已明确类别的科技文献、小说和散文,作为训练样本;b).采用现有的分词方法进行分词,并计算词频;c).对词频做归一化处理;d).计算每篇文档词频的方差;e).归纳词频方差区间;f).待分类文档的处理;g).判断方差的落入区间;h).根据落入的区间获取文档分类。本发明的基于方差的文档分类方法,根据科技文献、小说和散文的用词特点所造成的词频方差的不同,可将待分类文档合理、科学地自动区分开来,在保证了分类准确率的同时,具有很高的效率,为对现有文献进行科技文献、小说和散文分类奠定了理论基础,并提供了完整、科学的理论方法。