主にInDesignによる新聞組版Tips中心です。Mac使いですが業務はWin多め。Win DTP Tipsを増やしたい

【Windows】【xdoc2txt】Wordファイルをテキスト保存 ※Word不要

2020.9.25 追記あり

会社の使用PCが本格的にMac→Winになってきたので、テキスト処理の方もぼちぼち Jedit秀丸への移行を進めています。


xdoc2txt

ワンクリックでWord→txt。テキストボックスも含めてくれます(順不同、注意あり)※Win専用
EB series support page
ダウンロード→ xdoc2txt→ x64版

f:id:chocomarine:20200923170917j:plain これ、知人の小川さんがDTP東京勉強会で紹介した気もします(忘れた)。PDFやExcel一太郎も対応ですが試していません。

こんなもの作る方はまあコマンドオタクなので、READMEを読んでも使い方はワケが分からない。というわけで。


インストール&セッティング

システム要件:Microsoft Visual C++及びVisual Studio(2015,2017,2019)必須

タスクバー「ここから入力して検索」→ アプリと機能→ 下へスクロール

zip解凍後、好きな場所へ。Commandフォルダ内にある→ xdoc2txt.exeのショートカットを作成。※ショートカット作成後は、本体の場所を移動しないで下さい もちろんプロパティからパスを直せばいいんだけど、便宜上

Windows(C;)→ 表示(タブ)→ 隠しファイル ON

f:id:chocomarine:20200923171703j:plain
これをしないとユーザーからAppDataへ入れません

Windows(C:)→ ユーザー→ (ユーザー名)→AppData→ Roaming→ Microsoft→ Windows→ SendTo へ入れる

f:id:chocomarine:20200923172031j:plain
右クリックメニュー「送る」へ入ります

xdoc2txtショートカットのプロパティ(Alt + enter)→ ショートカット→ リンク先

*.exeの後にオプションを追記

f:id:chocomarine:20200923173359j:plain
(末尾に [半角スペース]-f[半角スペース]-u)
-f… ファイルに書き出す

-u… UTF-16 LE(BOM付き)
参照→ コマンドオプション


変換処理

Wordドキュメントを用意

f:id:chocomarine:20200923173625j:plain

※実際はドキュメントを開く必要はありません

Wordドキュメントを右クリック→ 送る→ xdoc2txt
f:id:chocomarine:20200923174923j:plain
f:id:chocomarine:20200923174946j:plain
f:id:chocomarine:20200923175004j:plain

元と同じディレクトリに、*.txtができる
f:id:chocomarine:20200923175108j:plain

結果

f:id:chocomarine:20200923175137j:plain
テキストボックス文が重複していますね


  • 複数選択して一括実行もできます。

  • 書き出されたテキストボックス部分は、移動させるなり改行で区切るなり、好きに編集して使って下さい。

  • コマンドオプションは、公式のリストを見て好きな組み合わせにして下さい。

  • ルビ文字は 親文字(ルビ文字) 丸パーレンに囲まれます

  • 校正機能などを使っているドキュメントの場合、Word上で見えていない文章なども書き出される(と思います)

  • まだ使い始めて間がないので、テキストボックスがある場合にどんな結果になるか検証不足です。文章が消えていたりする危険もあるので、よく注意を。(多分、何かしら崩れます)


…つまり、オリジナルがどんなレイアウトなのか保障がないため、結局はOfficeを持っていた方がベスト ちょ

モバイル版とブラウザ版Officeが無償で提供されているので、最低限それらでチェックを。※モバイル版は2021.1.12に提供及びサポート1が終了しました 但しこれらも、有料版と同等のレイアウト表示が担保されるわけではなさげ。

support.microsoft.com

ま有料版も、バージョン変わると結局アレですけど

間違っても、OpenOfficeLibreOfficeで書き出し・体裁チェックなどしない様に。


Macの方は、タクトシステムさんからWordドキュメントをテキストに変換を利用できます。

こちら私が長年利用した限りでは、テキストボックスがある場合本文がカケる・重複する・テキストボックス文が本文の変な所に差し込まれるという現象を確認しています。Officeのバージョンにより症状は異なります。昔のWordバージョンでは、テキストボックス箇所が丸々消えるだけだったんですが

これは、xdoc2txtでも同様ではないかと予想します。


まあ結局「Wordの変態仕様による見た目上を最も忠実に再現しつつ書き出し」できるのは、ネイティブOfficeからの直接書き出しに勝るものはなく、xdoc2txtとて余程プレーンな作りのWordでない限り、積極的にお勧めはしません。

何という結論

…それでも、圧倒的に早くストレスがない方法ではあるので、素直な構造の物であればよく活用しています。

要はモノを見極め、使い分けること。


2020.9.25 追記

一部*.docで、文章中に半角スペースが大量挿入される現象を確認(テキストボックスなしドキュメント。エディタでスペースだけ一括削除すれば、問題なさそう)