摘要:目前,獲取林業(yè)文本關(guān)鍵信息存在2個(gè)問(wèn)題:關(guān)鍵信息獲取主要從關(guān)鍵詞角度考慮,,忽略了詞語(yǔ)的信息類型,;網(wǎng)絡(luò)上的林業(yè)文本沒(méi)有統(tǒng)一的記述結(jié)構(gòu),詞語(yǔ)信息類型提取困難,。為此,,本文提出了基于改進(jìn)TextRank和簇過(guò)濾的林業(yè)文本關(guān)鍵信息抽取方法,以“關(guān)鍵詞+信息類型”兩部分表示文本關(guān)鍵信息,。首先,,抽取關(guān)鍵詞并進(jìn)行Word2Vec向量化,然后通過(guò)構(gòu)建融合詞語(yǔ)特征值,、邊權(quán)值的圖模型對(duì)TextRank進(jìn)行改進(jìn),,對(duì)經(jīng)迭代收斂得到的穩(wěn)定圖進(jìn)行歸并聚類形成簇;然后,,設(shè)計(jì)簇品質(zhì)評(píng)價(jià)公式進(jìn)行簇過(guò)濾,,再次應(yīng)用TextRank形成最終簇集合;最后,,對(duì)簇進(jìn)行信息類型標(biāo)注,。對(duì)于測(cè)試文本,通過(guò)比較關(guān)鍵詞向量和簇心向量的距離獲得詞語(yǔ)的信息類型,,將信息類型與關(guān)鍵詞結(jié)合得到文本的關(guān)鍵信息,。基于2000篇與林業(yè)政策新聞相關(guān)的林業(yè)文本進(jìn)行實(shí)驗(yàn),,最終簇集合的緊密度為0.9680,間隔度為0.0572,,綜合評(píng)價(jià)指標(biāo)為0.8871,;對(duì)其中400篇文本進(jìn)行關(guān)鍵詞人工標(biāo)注,,將本文關(guān)鍵詞抽取方法與TextRank、TF-IDF等6種算法進(jìn)行比較,,結(jié)果表明,,本文方法在MRR、Bpref,、準(zhǔn)確率和綜合評(píng)價(jià)指標(biāo)上均獲得了較好的效果,,說(shuō)明本文方法在提取林業(yè)文本關(guān)鍵詞方面具有優(yōu)勢(shì)。