プログラミング

JSONファイルが読み込めない。パースできない。なぜかAtomでbeautifyをするとできるようになる

僕は普段からqtranslateっていう翻訳ソフトウェアを愛用しているのですが、こちらが割とスグレモノで… とこの話はいいですね。これが、履歴としてjson形式で翻訳履歴を仕舞っておいてくれるので、それを僕は活用しているのですが、
ひとつ不可解なことがあって、BashやRubyでjsonパースする前に、Atomで開いてjson beautifyをしないといけない、っていうことがありました。

で、原因なんですが、これは気づきにくい。BOMでした。一年ぶりだな。以前はautohotkeyで悩まされたやつです。

atomでbeautifyすると治るのは、bomを自動で削除してくれるからみたいですね。以下が、atomでbeautifyする前と後のbomがついてるついてないの確認です。

yuis ASUS /mnt/c/pg$ file /mnt/e/_QTranslate/History.json
/mnt/e/_QTranslate/History.json: UTF-8 Unicode (with BOM) text, with very long lines, with no line terminators

yuis ASUS /mnt/c/pg$ file /mnt/e/_QTranslate/History.json
/mnt/e/_QTranslate/History.json: UTF-8 Unicode text, with very long lines

これで、
こうなってたのが、

yuis ASUS /mnt/c/pg$ cat /mnt/e/_QTranslate/History.json | parsejson '[0]'
Traceback (most recent call last):
  File "<string>", line 1, in <module>
  File "/usr/lib/python3.5/json/__init__.py", line 268, in load
    parse_constant=parse_constant, object_pairs_hook=object_pairs_hook, **kw)
  File "/usr/lib/python3.5/json/__init__.py", line 315, in loads
    s, 0)
json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig): line 1 column 1 (char 0)

パースできるようになりましたね。

yuis ASUS /mnt/c/pg$ cat /mnt/e/_QTranslate/History.json | parsejson '[0]'
['evading', [[5, 17, 33, '回避\r\n\r\nVerbs:\r\n    回避 (avoid, around, avoidance, circumvent, evade, avert, evasion, evading)\r\n    脱税 (tax evasion, evaded, evading, evaders, evasions)\r
\n    逃れ (dodging, fled, evaded, fleeing, shirking, evading)\r\n\r\n']], False]

これがわかれば後は簡単。bash nkfでプログラマティックに解決してしまいましょう。

nkf --overwrite --oc=UTF-8-BOM hoge.txt # BOMの追加
nkf --overwrite --oc=UTF-8 hoge.txt # BOMの削除
yuis ASUS /mnt/c/pg$ file /mnt/e/_QTranslate/History.json
/mnt/e/_QTranslate/History.json: UTF-8 Unicode (with BOM) text, with very long lines, with no line terminators

yuis ASUS /mnt/c/pg$ nkf --overwrite --oc=UTF-8 /mnt/e/_QTranslate/History.json

yuis ASUS /mnt/c/pg$ file /mnt/e/_QTranslate/History.json
/mnt/e/_QTranslate/History.json: UTF-8 Unicode text, with very long lines, with no line terminators

いいですね。

https://yuis.xsrv.jp/images/ss/ShareX_ScreenShot_2ffa75bc-aafd-4d4d-8584-04cc0e6a3b5c.gif