揮発性のメモ2

知識をメモ書きしておく

EUCに無い文字2

①②③、㌔㍉、㎞㎜ などは EUCJPに無い文字が EUCJP-MS, EUCJP-WIN にはある。
これらの文字を含んだテキストは iconv で変換可能

元テキスト

EUCJP⇒UTF8変換
iconv -c -f EUCJP -t utf8 /tmp/kishu.txt

EUCJP-WIN⇒UTF8変換
iconv -c -f EUCJP-WIN -t utf8 /tmp/kishu.txt

CP51932⇒UTF8変換

髙(はしご高)、﨑(たつ崎) などはEUCJP-WINには無いが CP51932 にはあるらしい。
iconvは CP51932 に未対応なので、PHPを使ってみる

#!/usr/bin/php -q
<?php

$euc = file_get_contents($argv[1]);
$utf8 = mb_convert_encoding($euc, "UTF-8", "CP51932");
print($utf8);

やったぜ