2011年7月アーカイブ

Javascript で扱う文字列の文字コードは全て Unicode (UTF-16) ですが、 \w が日本語にヒットしなかったりして不便なことこの上ありません。

また、記号を除いた文字だけ取り出したい、といった場合、ほかの環境では Unicode で定められている文字クラス (Character Class) で指定することで簡単に記述できますが、ECMA-262 5th にも含まれていないため Javascript では@[\uxxxx-\uxxxx]@という泥臭い指定をする羽目になってしまいます。

そこで使えそうなのがこのJSライブラリ。

XRegExp

これ単独でも、名前付きキャプチャーが使えたりして便利です。
そして、プラグインを入れると文字クラスも使えます。

XRegExp - plugins

テーブルを含んでいるだけに若干サイズがでかいのが気になりますが、細かいことは気にしない!自分で書いてバグるよりマシ!

ちなみに、ここを見て知りました。最近StackOverflowばっかり見てる。
regex - Javascript + Unicode - Stack Overflow

以上、XRegExpの紹介でした。

余談:
Twitter の本家で日本語ハッシュタグのリンクの処理部分を見たら、fromCharCode で文字コード範囲の文字を全て含む Array を作っていた。
これって超積極的に定数伝播するインタープリタだとコンパイルタイムにテーブル作れるのかな?と思った。

このアーカイブについて

このページには、2011年7月に書かれたブログ記事が新しい順に公開されています。

前のアーカイブは2011年5月です。

次のアーカイブは2011年8月です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

カテゴリ

  • Bicycle
  • Book
  • Car
  • Diary
  • Life
  • Link
  • Media
    • Music
    • TV
  • Mobile
  • Motorsports
  • News
  • PC
    • Hardware
    • Programming
    • Software
  • Profile
  • Technology
  • Web

ウェブページ

Powered by Movable Type 5.12