!!!Python + mecab *投稿者: みゅ *カテゴリ: Python *優先度: 普通 *状態: 完了 *日時: 2010年01月07日 22時11分15秒 //{{bugstate}} !!内容 *メモ !!インストール *リインストールすると、新しいバージョンのpythonにも、mecabをインストールしてくれる emerge -v mecab-python !!おまじない *import import MeCab *MeCabを取得 mc = MeCab.Tagger('-l1') kaigyo = re.compile('\n') *形態素解析 sp = mc.parseNBest(2, text) sp = mc.parse(text) **結果がテキストで入ってくる *改行でスプリット sp1 = kaigyo.split(sp) *EOSを削除する while 'EOS' in sp1: sp1.remove('EOS') *原型だけを取得するなど sp2 = [] for mm in sp1: mm1 = tabStr.split(mm) # tabで分割 if len(mm1)==2: mm2 = commaStr.split(mm1[1]) #カンマで分割 if (mm2[0] in tgtHinshi) and mm2[6]!='*' and mm2[6]!='!!' and mm2[6]!='Category' and mm2[6]!='する' and mm2[6]!='ある' and mm2[6]!='いる' and mm2[6]!='こと' and mm2[6]!='なる' and mm2[6]!='れる': sp2.append(mm2[6]) *ちなみに取得した各単語をカウントする sp3 = [(x, sp2.count(x)) for x in Set(sp2)] !!コメント //{{comment}}