青空文庫の応援ページ

結城浩

青空文庫の作業者(工作員)向けのツールを公開しています。

目次

はじめに

ここは、 インターネットの図書館「青空文庫」 www.aozora.gr.jpを応援するページです。

相違点チェッカー

入力された2つのテキストを文字単位で比較します。

文字コード取得ツール

入力されたテキストのシフトJISコードと面区点を表示します。

スクリプト中の$cgi = 1;$cgi = 0;にすると、 コマンドライン版になります。

旧字体置換可能チェッカー「校閲君」

旧字体置換可能チェッカー「校閲君」は、 大野裕さん作成のスクリプトをCGI化したものです。 旧字体に置換可能な新字体があったら、 それを、▼潜潛濳▲という形式で表示します。

スクリプト中の$cgi = 1;$cgi = 0;にすると、 コマンドライン版になります。

関連リンク

文字チェッカー

文字チェッカーは、 青空文庫関係者の協力を得て、結城浩が作成したツールです。 青空文庫のテキスト作成の手助けをします。

文字チェッカーのTODOリスト

以下は文字チェッカーのTODOリストです。

以下は済んだもの。

誤認文字リスト

これは青空文庫メーリングリストで流れていた情報(のうち、まだ文字チェッカーに反映させていないもの)。 いつか文字チェッカーに反映する。

オフラインでも使えるようにする。
「誤認」ですが、沢山引っかかって見るのが大変です(笑)
いろんな種類が混じっているので、ちょっとチェックしにくいです。
もうすこし種類分けして、1つずつ見たいと思いました。
 1.紙では見分けにくいもの。(記号とかカタカナのたぐい)
 2.新字旧字の別。異体字。
 3.その他よく似た漢字。OCRミス。
ぐらいには分けたいですねえ。これが混ざっているとチェックしている
うちに頭が混乱してきます。(元からそうだけど)

このうち「2.」はそのうちに資料をつくる予定です。
0208のはほぼ判っているので、0213の104文字などを追加すればなんとか。
あとはなにか資料としてリストアップして分類するとか。。。


あと、文字チェッカーの出力ページのフォントサイズを選択できるように
なりませんか?細かい文字をチェックするのは疲れます。(←じじい)
全部に

を付ける程度でも構いませんので。 よろしくお願いします。 ---

を付けると、boldになってしまって形をチェックしづらいのでは? ブラウザの文字サイズ変更じゃだめ? あるいは、結果を保存してT-Timeで見れば、フォント自体も自在に変えられて カンペキかも(^^) --- 「此」「比」 「島」「鳥」 「束」「東」 「関」「閑」 「的」「約」 「譬」「警」 「武」「式」 「仕」「任」 「れ」「札」 「出」「山」 「千」「下」「干」 「諫」「諌」 「嗇」「薔」 「折」「析」 「綺」「椅」 「困」「因」 「慣」「憤」 「善」「菩」 「子」「予」 「看」「着」 「練」「錬」 「機」「幾」 「宜」「宣」 「投」「技」 「柱」「桂」 「容」「谷」 「車」「単」 [aozora:0363] 「鳥」「烏」 「鳴」「嗚」 「稍」「梢」 「秒」「杪」 「材」「村」 「板」「枚」 「使」「便」 「漲」「振」 「待」「侍」「持」 「遣」「遺」 「井」「非」 「眺」「跳」 「開」「聞」「間」 「子」「千」 「金」「全」 「真」「其」 「微」「徴」 「語」「話」 「銜」「衛」「衡」 「匕」「七」 「浸」「侵」 「音」「昔」 「目」「日」 「自」「白」 「古」「吉」 「迫」「追」 「殺」「穀」 「牙」「矛」 「賢」「買」 「鷲」「鵞」天鵞絨《ビロウド》が天鷲絨に 「ク」「タ」ともにカタカナ 「ぶ」「ぷ」なぜかOCRミスする 「自信」と「自身」 「更正」と「更生」、「往事」と「往時」、「受賞」と「授賞」 「萩原」と「荻原」 入力方法の差により、「OCRならでは」「手入力ならでは」の誤字、 さらに手入力では「ローマ字入力ならでは」「カナ入力ならでは」の 誤字がありそうですね。 汎用に使用するなら、「機種依存文字」オプションが独立してあるといいかも、 ---- 文字チェッカーに採用してもらうにはどの形式がいいでしょうか? 剣【異体:劍劔劒釼釼】 とか異体チェックができると、とぉ〜〜っ〜ても便利です(^^; http://jca.apc.org/~earthian/aozora/0213.html

結城浩の青空文庫関連ページ

結城が翻訳し、青空文庫に寄贈した電子テキストです。

更新履歴

豊かな人生のための四つの法則