HTMLの が半角スペースだと思ってたんですが、実は違ったんだね…。
半角スペースはUnicodeでU+0020、対して はU+00A0となり、
別々の文字コードとなる。当然見た目は同じなんだけどね。。。
どういう状況でこれに困るかというと、スクレイピングしたデータをパースしたい場合。
Rubyで例えば、以下のようにsplitしたとき区切り文字がnbspだとうまくいかない。
じゃあどうするか?
Unicodeを直接指定すればできる、と。
空白のはずなのにsplitできなくて小一時間悩んだ。