详细信息 | |||
---|---|---|---|
成果属性 | 国内技术二次开发 | 成果体现形式 | 新技术 |
转让范围 | 限国内转让 | 课题立项名称 | |
所处阶段 | 中期阶段 | 研究形式 | 独立研究 |
课题来源 | 成果水平 | 国内先进 | |
官方链接 |
本发明的基于网络度量指标的文档分类方法,包括样本训练阶段和文档分类阶段,样本训练阶包括:a).样本采集;b).文本分词;c).词性分析;d).去除虚词和人名;e).统计词频;f).构建特征集合;g).构建特征网络的顶点;h).构建特征网络的边;i).计算平均度;j).计算聚类系数;k).计算特征路径长度;l).获取网络度量指标的取值区间;文档分类包括:m).待分类文档处理;n).文档分类的判断。本发明的文档分类方法,分类准确、效率高,解决了现有分类方法无法将科技文献、小说和散文区分开来的问题,为文档在这三类中的自动区分提出了科学的分类方法、奠定了理论基础。