| ホーム > 青空文庫の応援ページ | 検索 | 更新情報 |
|
|
|
青空文庫の作業者(工作員)向けのツールを公開しています。
ここは、 インターネットの図書館「青空文庫」 www.aozora.gr.jpを応援するページです。
入力された2つのテキストを文字単位で比較します。
入力されたテキストのシフトJISコードと面区点を表示します。
スクリプト中の$cgi = 1;を$cgi = 0;にすると、 コマンドライン版になります。
旧字体置換可能チェッカー「校閲君」は、 大野裕さん作成のスクリプトをCGI化したものです。 旧字体に置換可能な新字体があったら、 それを、▼潜潛濳▲という形式で表示します。
スクリプト中の$cgi = 1;を$cgi = 0;にすると、 コマンドライン版になります。
関連リンク
文字チェッカーは、 青空文庫関係者の協力を得て、結城浩が作成したツールです。 青空文庫のテキスト作成の手助けをします。
以下は文字チェッカーのTODOリストです。
以下は済んだもの。
これは青空文庫メーリングリストで流れていた情報(のうち、まだ文字チェッカーに反映させていないもの)。 いつか文字チェッカーに反映する。
オフラインでも使えるようにする。
「誤認」ですが、沢山引っかかって見るのが大変です(笑)
いろんな種類が混じっているので、ちょっとチェックしにくいです。
もうすこし種類分けして、1つずつ見たいと思いました。
1.紙では見分けにくいもの。(記号とかカタカナのたぐい)
2.新字旧字の別。異体字。
3.その他よく似た漢字。OCRミス。
ぐらいには分けたいですねえ。これが混ざっているとチェックしている
うちに頭が混乱してきます。(元からそうだけど)
このうち「2.」はそのうちに資料をつくる予定です。
0208のはほぼ判っているので、0213の104文字などを追加すればなんとか。
あとはなにか資料としてリストアップして分類するとか。。。
あと、文字チェッカーの出力ページのフォントサイズを選択できるように
なりませんか?細かい文字をチェックするのは疲れます。(←じじい)
全部にを付ける程度でも構いませんので。
よろしくお願いします。
---
を付けると、boldになってしまって形をチェックしづらいのでは?
ブラウザの文字サイズ変更じゃだめ?
あるいは、結果を保存してT-Timeで見れば、フォント自体も自在に変えられて
カンペキかも(^^)
---
「此」「比」
「島」「鳥」
「束」「東」
「関」「閑」
「的」「約」
「譬」「警」
「武」「式」
「仕」「任」
「れ」「札」
「出」「山」
「千」「下」「干」
「諫」「諌」
「嗇」「薔」
「折」「析」
「綺」「椅」
「困」「因」
「慣」「憤」
「善」「菩」
「子」「予」
「看」「着」
「練」「錬」
「機」「幾」
「宜」「宣」
「投」「技」
「柱」「桂」
「容」「谷」
「車」「単」
[aozora:0363]
「鳥」「烏」
「鳴」「嗚」
「稍」「梢」
「秒」「杪」
「材」「村」
「板」「枚」
「使」「便」
「漲」「振」
「待」「侍」「持」
「遣」「遺」
「井」「非」
「眺」「跳」
「開」「聞」「間」
「子」「千」
「金」「全」
「真」「其」
「微」「徴」
「語」「話」
「銜」「衛」「衡」
「匕」「七」
「浸」「侵」
「音」「昔」
「目」「日」
「自」「白」
「古」「吉」
「迫」「追」
「殺」「穀」
「牙」「矛」
「賢」「買」
「鷲」「鵞」天鵞絨《ビロウド》が天鷲絨に
「ク」「タ」ともにカタカナ
「ぶ」「ぷ」なぜかOCRミスする
「自信」と「自身」
「更正」と「更生」、「往事」と「往時」、「受賞」と「授賞」
「萩原」と「荻原」
入力方法の差により、「OCRならでは」「手入力ならでは」の誤字、
さらに手入力では「ローマ字入力ならでは」「カナ入力ならでは」の
誤字がありそうですね。
汎用に使用するなら、「機種依存文字」オプションが独立してあるといいかも、
----
文字チェッカーに採用してもらうにはどの形式がいいでしょうか?
剣【異体:劍劔劒釼釼】
とか異体チェックができると、とぉ〜〜っ〜ても便利です(^^;
http://jca.apc.org/~earthian/aozora/0213.html
結城が翻訳し、青空文庫に寄贈した電子テキストです。