【記述師文庫堂について】記述師は如何にして探求書リストを作りしか?②データクレンジング

これが現行の「探求書リスト」の作り方です。
◆第四期探求書リストの作り方

ある日、探求書リストを眺めていた記述師は、ふと思いました。
「もう探求書リスト印刷できないな……」

探求書が結構な数になってくると、気軽に印刷出来る枚数ではなくなります。
さらに「いつ印刷するのか?」というタイミングの問題も出てきます。
毎月のように追加されるわけですし、この頃から<活字倶楽部>も読み始めたので、探求書リストは加速度的に長くなります。
ということは、探求書リストを持ち運ぶことが難しくなるわけです。

さらに、記述師は思いました。
「入力めんどくさいな……」
もはや探求書リストの根幹にかかわる愚痴です(笑)。
この時は<ダ・ヴィンチ>などを読んでいて気になった書籍があったらページの端を折っておき、あとでまとめてPCで入力するという方法を取っていました。まあ更にコメントも入力するわけですから、確かにめんどくさい。

そこで、大幅にリニューアルを考えました。

まずは、理想の探書ライフ(?)を妄想してみました(笑)。

書店、古本屋に立ち寄るとき、(エクセルの)探求書リストが入ったモバイルを持ち運びます。棚を端から見ていきます。お、探求書リストに載っている本を発見!買います。買った段階で、モバイル上で探求書リストから削除。
新しく欲しい本が出てきた場合、モバイル上で直接探求書リストを更新。つまり常にモバイル上の探求書リストは最新版。できればPCの探求書リストとも同期。

するってぇと……立ちはだかる解決すべき問題は、大きく分けて三つ。

①持ち運べるようにする
②入力を容易にする。
③探しやすいリストにする。

これを解決すべく改良に入りました。

①持ち運べるようにする。
しょっぱなから、なんですが……これは実はまだ達成できていません。

印刷が難しいようであれば、モバイルで持ち運ぶしかないわけですが、私が持っているau携帯(G9)ではそれほど大容量のエクセルファイルは閲覧できません。ワードやエクセルファイルが閲覧できるPCドキュメントビューアが付属してはいますが、複数シートのファイルは見れませんし、第一編集ができません。

テキストファイルにしてメールで送り、メールの送信トレイで管理できないかとも思いました。
が、10000文字(半角で)までしか表示されない(100冊もいかないはず)ので不可。<探求書あ行><探求書か行>のように何らかのグループ分けをして管理できなくもないはずですが……そうするとPCのエクセル探求書リストに還元することが非常に難しくなります。

スマートフォンならなんとかできそうですが、いまんとこ携帯なので……。
現状では、PCのエクセルで管理するしかないようです。

クラウドでなんとかならないか考えてもみたのですが……ちょっと難しそう。探求書を管理できるものもあるにはあるようなのですが、これらは基本的に<蔵書管理>のためのもの。探求書をリスト管理するのは難しい。バーコードリーダに対応とかしていても、手元に書籍がなければどうにもなりません。現在探求書が3000冊を越えていますので……このデータ(ISBNが付随しているわけでもないし)が流用できなければ何にもならないわけです。
あと一覧表示ができなければ私の気持ちが満足しないんですよねぇ……綺麗に整理された一覧表を見て、一人ニヤニヤと悦に入りたいのです(結局それか!)

②入力を容易にする。
これはとにかくPCの前で入力作業をする手間を省くのがポイントです。
この頃から本ブログを始めたため、<待ってました!文庫化メモ。>など探求書をブログにメモる(携帯に入力し、それを投稿用アドレスに送る)作業をしていました。これをなんとか流用できないかと考えました。

ま、そんな考えるほどではありません。テキストデータにすればいいわけです。

気になる書籍があった場合、まず携帯のメールで「『書名』」■「著者名」■「出版社名」■「出版形態」<改行>とドンドン打ち込みます。
このとき■の部分は<全角スペース>にしておきます。
入力が終わったらブログへ投稿すると同時に、CCで自宅のメールアドレスにも送ります。
自宅のメールソフトを開き、そのメールをハードディスクに保存。その時に拡張子をテキストにします。
これをエクセルで開きます。<区切り文字>を<スペース>にすれば各セルにデータが分配されます。

もちろん携帯メールに入力するとき■の部分をカンマとかにしてもいいんですが、スペースにするのは単純に同じものをブログへも投稿しているから。ブログの記事をいじらなくていいようにスペースを使っています。
<半角>ではなくて<全角>なのも同じく見た目の問題。livedoorブログでは、<半角スペース>だとかなり間が詰まって見えてしまうのです。

ただし、ブログ用に書名の前後に『』をいれているので、これはエクセルの段階で一括置換消去します。
そして探求書リストのシートに貼り付ければ追加が完了です。

これで入力は格段に楽になりました。<ダ・ヴィンチ>や<本の雑誌>を読みながら読みたい本を携帯にメモしていき、それをメールで送るだけ。本当は大問題が残されているんですが……それは次のエントリ、<記述師は如何にして探求書リストを作りしか?③著者名並べ替え異聞>で。

③探しやすいリストにする。

というわけで、現在は将来モバイルで探求書リスト管理できるようになることを夢見ながら、探しやすいリスト作りに邁進する日々です。

第一期、第二期あたりの探求書リストでは、探求書を<国内>と<海外>に分けていました(別のシートに分けて)。でも実は、これはあまり実際の本探し作業には意味がありません。
私の場合、探求書はブックオフなどの105円コーナーで探すことが多いため、その棚構成に準じたグループ分けにしておいたほうが良いはず(まだモバイル持ち歩きが実現してないのに……)。

まず、最初の段階で手元にあるのは、二つのシート<国内>と<海外>がある単純にズラズラ入力された探求書リストエクセルファイルでした。
入力項目は

<書名><著者名><出版社名><出版形態><掲載><ページ>

<書名>のセルには<コメント>で読みたいと思わされた文章が入力されているものも多数あります。

これをデータクレンジングします。

まずすべての<コメント>を削除(!)。
あんなに苦労して入力したのに……(涙)。しかし、探求書の追加分をテキストデータで行う手段を採った以上、仕方ないです。しかも最近はすべての先入観を排除した上で本を読みたいという域に達してきたため(笑)、あんまり残念でもありません。といことでざっくりと削除!

さらに<掲載><ページ>の欄もオール削除!
ブログにも同じものを投稿しているので、書名でブログに検索をかければある程度掲載紙は見つけられますし。
これで、入力欄は

<書名><著者名><出版社名><出版形態>

の四つにすっきりしました。

ついでに<入力規則>で<書名>の列全体に、次の数式が成り立たなければエラーになるように設定しておきます。

=countif(A:A,A1)=1

countif関数は、指定範囲内にある同じ値のセルを数える関数。
つまり<A:A>=A列(この場合は<書名>の列)の範囲に、A1(任意の書名))がいくつあるか数えて、万が一ひとつ以上あればエラーがでます。
これで、書名の二重入力がある程度防げます(実際には、テキストデータをエクセルファイルに変換して、このシートに張り付けた場合、この入力規則は働かないのですが)。

さてcountif関数を設定したところで、<探求書リスト>に必須の<入力ルールの統一>を行います。

仕事でもそうですが、ある程度の規模以上のリストを作る場合は、何らかの入力ルールを課さなければ、あとで利用するときに困ることがよくあります(全角半角の不統一など)。
前述のcountif関数が威力を発揮するためにも、ルール作りが大事です。
私が探求書リストづくりで使っている(入力しつづけていくうちに見出だした)ルールは次の通り。

<大枠>
・カタカナは全角。
・<・(なかぐろ)><!><?>など記号は全角。
・英数字は半角。

<書名>
・明らかなシリーズの場合は、先頭にシリーズ名・シリーズ巻数を付ける。
<東京バンドワゴン>シリーズのように書籍には巻数表記がされていない場合にも<東京バンドワゴン#01>のように補って書きます。シリーズ買い忘れを防ぐためと、あとは単純に網羅したい性格のためです(笑)。

・巻数表記を統一する。巻数表記には、<Ⅰ・Ⅱ・Ⅲ><1・2・3><一・二・三><(上)(中)(下)>などいくつかありますが、これを次のように統一します。

『天冥の標#04機械じかけの子息たち』 小川一水 早川書房 ハヤカワ文庫JA
機動戦士ガンダムUC#10虹の彼方に㊦』 福井晴敏 角川書店 角川文庫
『NOVA#04』 大森望/編 河出書房新社 河出文庫
『伯林星列㊤㊦』 野阿梓 徳間書店 徳間文庫

以前は巻数表記を①②③……、㊤㊥㊦のようにしていたのですが、⑳を超えるシリーズが出てきたので、数字は変更することに。<#01>という表記にしました(#001でもいいんですが……100冊を超えるシリーズを揃える気持ちはないので)。<#>を使ったのは、ただ単に好きだからです(笑)。㊤㊥㊦は<#上>なんてするのも見た目が悪いので継続利用。本来なら文字化けも考えて特殊文字の使用は控えるべきなんでしょうが、全然こだわりません、その辺り。

・タイトル/サブタイトル間は<#>で区切る。

以下のように区切ります。

『100年の難問はなぜ解けたのか#天才数学者の光と影』 春日真人 新潮社 新潮文庫

ま、くっつけてもいいんですけどね……カッコ悪いので。単純にスペースで区切ってしまうと、テキストをエクセルに変換する際に、別のセルになってしまうのです。

<著者名>
・外国人著者の表記をなるべく統一する。
・編者のときは</編>と表記する(</>は全角)。
・複数著者の場合は</>で区切る。

外国人著者の場合は、表記を統一しておかないと並べ替えなどで苦労します。<エラリー・クイーン創元推理文庫)>と<エラリイ・クイーン(ハヤカワ文庫HM)>じゃずいぶん違いますものね。
著者名の区切りは<・>が一般的ですが、いつも混乱するので</>に統一しました。全角なのは携帯で入力しやすい(半角の</>を出すには、さらにワンアクション必要なので)のと、ブログに投稿したときの見た目の問題。従って、

読んで、「半七」!―半七捕物帳傑作選〈1〉 (ちくま文庫)(文庫)
岡本 綺堂 (著), 北村 薫 (編集), 宮部 みゆき (編集)

という表記がなされていた場合(これはAmazonの表記)、

『半七捕物帳傑作選#01読んで、「半七」!』 北村薫宮部みゆき/編 筑摩書房 ちくま文庫

という表記になります。岡本綺堂の著者名を入力していないのは、深い意味はありませんが、このシリーズなら北村氏と宮部氏が編者となっていることがポイントだからです。

<出版社名>
・社名の表記を統一する。
<日本放送協会出版>なのか<NHK出版>なのか、<学研>なのか<学習研究社>なのか。まあどっちでもいいんですが、統一するが吉。並べ替えするときにね。

<出版形態>
これが大事です。<新潮文庫><文春文庫>などきちんと表記。ハヤカワ文庫は<ハヤカワ文庫HM><ハヤカワ文庫SF><ハヤカワ文庫JA>などの<ハヤカワ文庫+アルファベット二文字>の表記に統一。<ハヤカワミステリ文庫>は不採用です。
さらに、文庫新書以外の叢書名の表記は止めました。以前は<ハヤカワJコレクション>だとか<ハヤカワミステリ>などと細かく分けていましたが、探書には役に立たないので、潔く終了しました。

さらに<祥伝社ノン・ノベル>のように、叢書名に<・>が入るものは<・>を消去で統一。<小学館ガガガ文庫>など版元名が入るものはすべて付けることで統一。