Re: Project Gutenberg

[掲示板: 〈過去ログ〉SSS タドキストの広場 -- 最新メッセージID: 9999 // 時刻: 2024/11/26(01:43)]

管理用 HELP LOGIN    :    :


上へ上へ | 前のメッセージへ前のメッセージへ | 次のメッセージへ次のメッセージへ | ここから後の返答を全表示ここから後の返答を全表示 | 返答を書き込む返答を書き込む | 訂正する訂正する | 削除する削除する

[♪] 154. Re: Project Gutenberg

お名前: SSS 酒井邦秀
投稿日: 2002/10/11(01:17)

------------------------------

コンロイさん、こんばんは!

〉で、sakigoroさんのカキコで挙がっていた、Project Gutenbergの
〉ページにいって探してみました。
〉テキストなので、絵がないのですが、ありましたよ、全巻。
〉んで、さっそく第1巻をダウンロードしてMS Word の文字カウントで
〉単語数をカウントしてみました。
〉目次を除く本文(章題も含む)が、39,294語、つまり約39,000語です。
〉SSSの書評では 47,000語 となっていました。約8,000語の差です。

〉どうやら、www.gutenberg.org にテキストのある書籍は、データを頂いて
〉カウントした方が良さそうですね。
〉ワープロソフトでなくっても、テキストエディタその他で単語をカウント
〉する機能のあるものはあるでしょうし。
〉# Project Gutenberg のテキストが完璧とは限りませんけどね。

貴重な情報をありがとうございます。
Project Gutenberg が完璧でなかったら、あとはもう
何も信用できませんね。コンロイさんの情報で十分です。

とくにありがたいのは、SSSの書評データと比較してくださったことです。
これで、SSSのデータの信頼性がわかりますよね。
今後もっと正確にしていくために大変よいきっかけになります。
ぼくもいまOCRを使ってGRの総語数を調べているので、
徐々にSSS書評データの信頼性がはっきりしてくると思います。


▲返答元

▼返答


Maintenance: SSS 事務局
KINOBOARDS/1.0 R7.3: Copyright © 1995-2000 NAKAMURA, Hiroshi.