摘要:改進索引術語質量的衡量方法可以有效提高IR系統(tǒng)的檢索效率,但術語的固有屬性易受文檔長度影響,難以全面衡量術語質量。對此,本文從術語內在的區(qū)分性出發(fā),借鑒詞袋模型的基本思想,提出了術語區(qū)分能力(term discriminative capacity,TDC)這一理論及3種不同的計算方法。本文還采集了Web of Science的3個子數據庫中包含4個著錄項的900條記錄作為實驗數據,來實現TDC的大規(guī)模計算,并觀察3種算法在實踐中的差異。經過實驗分析得出,計算術語區(qū)分能力的最佳方法為TDC-T,該算法在多個方面表現穩(wěn)定,且不受DF值的影響,可以作為衡量術語質量的全新指標,記為TDC。但是本研究所選取的A&HCI數據庫的記錄較少,這或許會造成另兩個領域計算結果的失衡。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社