Javascript で扱う文字列の文字コードは全て Unicode (UTF-16) ですが、 \w が日本語にヒットしなかったりして不便なことこの上ありません。
また、記号を除いた文字だけ取り出したい、といった場合、ほかの環境では Unicode で定められている文字クラス (Character Class) で指定することで簡単に記述できますが、ECMA-262 5th にも含まれていないため Javascript では@[\uxxxx-\uxxxx]@という泥臭い指定をする羽目になってしまいます。
そこで使えそうなのがこのJSライブラリ。
これ単独でも、名前付きキャプチャーが使えたりして便利です。
そして、プラグインを入れると文字クラスも使えます。
テーブルを含んでいるだけに若干サイズがでかいのが気になりますが、細かいことは気にしない!自分で書いてバグるよりマシ!
ちなみに、ここを見て知りました。最近StackOverflowばっかり見てる。
regex - Javascript + Unicode - Stack Overflow
以上、XRegExpの紹介でした。
余談:
Twitter の本家で日本語ハッシュタグのリンクの処理部分を見たら、fromCharCode で文字コード範囲の文字を全て含む Array を作っていた。
これって超積極的に定数伝播するインタープリタだとコンパイルタイムにテーブル作れるのかな?と思った。
