!!!構文解析 *投稿者: みゅ *カテゴリ: Python *優先度: 普通 *状態: 完了 *日時: 2010年03月16日 18時37分53秒 //{{bugstate}} !!内容 *メモ *パースでぐぐると、XMLとか出てきてしまう.構文解析がよさげ. *[Universal Feed Parser|http://www.feedparser.org/] !!リンク *[spark|http://pages.cpsc.ucalgary.ca/~aycock/spark/] *[魅力的なPython: Sparkモジュールを使った構文解析|http://www.ibm.com/developerworks/jp/linux/library/l-spark/index.html] *[魅力的なPython: SimpleParse モジュールを使った構文解析|http://www.ibm.com/developerworks/jp/linux/library/l-simple/] *漢字 **[すべての漢字を取り出す正規表現|http://d.hatena.ne.jp/Isoparametric/20070719/1184822069] **[すべての漢字を取り出す正規表現|http://d.hatena.ne.jp/toton/20051102/1130971334] **[「すべての漢字を取り出す正規表現」の続き|http://d.hatena.ne.jp/toton/20051105] **[4. 日本語の扱いに関して|http://kakurasan.ehoh.net/software/pygtkrefs/doc/japanese.html] **[Unihan Database Lookup|http://www.unicode.org/charts/unihan.html] *URLのBNF記法 **[BNF for specific URL schemes|http://www.w3.org/Addressing/URL/5_BNF.html] !!wordscanner.py での、日本語対応 *1行目に「# -*- encoding: utf-8 -*-」追加 def t_jpnchar(self, s): r" [一-龠]+ | [ぁ-ゞ]+ | [ァ-ヾ]+ | [ヲ-ン]+ " self.rv.append(Token('jpnchar', s)) [一-龠。、々「…」⇒←→『』―‐θ]|[ぁ-ゞ]|[ァ-ヾ]|[!-゚] !!コメント //{{comment}}