[Evernote]enexファイルの中身はXML。JPGのOCRは冗長構成。

1.バイナリファイルでなくテキストファイル

最近、とゆさん(@toyu3)と一緒にマロ。さん(@maro_draft)のプログラミング講座を受けています(贅沢な話です)。
その中で、Evernoteのエクスポートファイルについて発見があったので、紹介します。

それまでノートをエクスポートした際に出力される.enex拡張子のファイルはバイナリファイルなんだろうと勝手に思い込んでいたのですが、テキストエディタで開けるXMLファイルでした。

2.画像でも何も全てテキストデータに変換されて収められている

JPGでもExcelファイルでもPDFでも、文字列の羅列人間には意味が読み取れない英数字の羅列に変換されて収められています。
だからノートの任意の位置にファイルを挿入できたり、自由に使えるのですね。

3.JPGのOCRテキストは複数の認識候補が併記されている

Evernoteに貼り付けたJPGは、サーバ側で処理された後にOCR可能な状態になりますが、このOCRテキストもenexファイルの中に記載されていました。

複数の認識候補がタグで区切って併記してあり、OCRミスがあってもある程度カバーできるようになっているようです。
Evernote側では、検索時に多数の候補が挙がってきてしまうことよりも、欲しいノートが見つからないことの方が問題だと考えている、ということなんでしょうね。

[この記事の執筆にかかった時間 38分]

コメント

タイトルとURLをコピーしました