Javascript で Unicode の文字クラスを使う

Javascript で扱う文字列の文字コードは全て Unicode (UTF-16) ですが、 @\w@ が日本語にヒットしなかったりして不便なことこの上ありません。
また、記号を除いた文字だけ取り出したい、といった場合、ほかの環境では Unicode で定められている文字クラス (Character Class) で指定することで簡単に記述できますが、ECMA-262 5th にも含まれていないため Javascript では@[\uxxxx-\uxxxx]@という泥臭い指定をする羽目になってしまいます。
そこで使えそうなのがこのJSライブラリ。
“XRegExp”:http://xregexp.com/
これ単独でも、名前付きキャプチャーが使えたりして便利です。
そして、プラグインを入れると文字クラスも使えます。
“XRegExp – plugins”:http://xregexp.com/plugins/
テーブルを含んでいるだけに若干サイズがでかいのが気になりますが、細かいことは気にしない!自分で書いてバグるよりマシ!
ちなみに、ここを見て知りました。最近StackOverflowばっかり見てる。
“regex – Javascript + Unicode – Stack Overflow”:http://stackoverflow.com/questions/280712/javascript-unicode
以上、XRegExpの紹介でした。
余談:
Twitter の本家で日本語ハッシュタグのリンクの処理部分を見たら、fromCharCode で文字コード範囲の文字を全て含む Array を作っていた。
これって超積極的に定数伝播するインタープリタだとコンパイルタイムにテーブル作れるのかな?と思った。