トップ 差分 一覧 ソース 検索 ヘルプ RSS ログイン

BugTrack-その他のメモ/13

R備忘録 /状態空間モデリング/donlp2/その他のメモ

Python + mecab

  • 投稿者: みゅ
  • カテゴリ: Python
  • 優先度: 普通
  • 状態: 完了
  • 日時: 2010年01月07日 22時11分15秒

内容

  • メモ

インストール

  • リインストールすると、新しいバージョンのpythonにも、mecabをインストールしてくれる
emerge -v mecab-python

おまじない

  • import
import MeCab
  • MeCabを取得
mc = MeCab.Tagger('-l1')
kaigyo = re.compile('\n')
  • 形態素解析
sp = mc.parseNBest(2, text)
sp = mc.parse(text)
    • 結果がテキストで入ってくる
  • 改行でスプリット
sp1 = kaigyo.split(sp)
  • EOSを削除する
while 'EOS' in sp1:
        sp1.remove('EOS')
  • 原型だけを取得するなど
sp2 = []
for mm in sp1:
    mm1 = tabStr.split(mm) # tabで分割
    if len(mm1)==2:
        mm2 = commaStr.split(mm1[1]) #カンマで分割
        if (mm2[0] in tgtHinshi) and mm2[6]!='*' and mm2[6]!='!!' and mm2[6]!='Category' 
            and mm2[6]!='する' and mm2[6]!='ある' and mm2[6]!='いる' 
            and mm2[6]!='こと' and mm2[6]!='なる' and mm2[6]!='れる':
            sp2.append(mm2[6])
  • ちなみに取得した各単語をカウントする
sp3 = [(x, sp2.count(x)) for x in Set(sp2)]

コメント