[掲示板: 〈過去ログ〉YL・語数・書評システム情報 -- 最新メッセージID: 1253 // 時刻: 2024/11/24(02:05)]
上へ | 前のメッセージへ | 次のメッセージへ | ここから後の返答を全表示 | 返答を書き込む | 訂正する | 削除する
お名前: たむ
投稿日: 2005/6/17(02:13)
------------------------------
みなさん、こんばんは。たむ2です。 以下、長い文章になり、数字もたくさんでてきます。 目も疲れますので、簡単な要約をつけます。 興味のない方、時間のない方に申し訳ありませんので、 要約だけでパスしていただけますよう。 ・総語数の簡易計算法を考えているうち、偶然にあることを見つけた。 ・The Sky Is Falling, Sidney Sheldonの総語数は、本のはじめから ページごとに語数を数え、11ページまでで比例計算すると、±5%の 誤差で計算できる。 ・73ページまで検証してみたが、ほぼ±5%の範囲に収まっている。 ・どうしてこうなるのか、根拠はよくわからない。 以上のような話しです。 ************************* 前回、単純な比例計算で総語数が正確に計算できるのでは、 と予想をたてたわけですが、「大発見」の興奮(笑)のあとは、 検証、根拠の探求と続きます。さらに、ほかの本に応用する ことも考えています。(数字はもう半分くらい出てきました。) もう一度、The Sky Is Fallingについて、確認のため Excelの表をアップします。(今回、数を数えなおした ところもあります。) 頁 語数 累積語数 予想 差 差・% 1 49 49 19,502 -52,314 -73 2 80 129 25,671 -46,145 -64 3 124 253 33,565 -38,251 -53 4 199.5 452.5 45,024 -26,792 -37 5 201 653.5 52,019 -19,797 -28 6 219.5 873 57,909 -13,907 -19 7 209 1082 61,519 -10,297 -14 8 227 1309 65,123 -6,693 -9 9 215 1524 67,395 -4,421 -6 10 169 1693 67,381 -4,435 -6 11 204 1897 68,637 -3,179 -4 12 193 2090 69,318 -2,498 -3 13 220 2310 70,722 -1,094 -2 14 183.5 2493.5 70,887 -929 -1 15 208 2701.5 71,680 -136 0 16 191 2892.5 71,951 135 0 17 213 3105.5 72,705 889 1 18 180 3285.5 72,646 830 1 19 207 3492.5 73,159 1,343 2 20 35 3527.5 70,197 -1,619 -2 21 80 3607.5 68,371 -3,445 -5 22 185.5 3793 68,619 -3,197 -4 23 214 4007 69,339 -2,477 -3 24 184 4191 69,501 -2,315 -3 25 199 4390 69,889 -1,927 -3 26 200 4590 70,262 -1,554 -2 27 195 4785 70,534 -1,282 -2 28 208 4993 70,972 -844 -1 29 193 5186 71,173 -643 -1 30 208 5394 71,560 -256 0 31 213 5607 71,987 171 0 32 201 5808 72,237 421 1 33 179 5987 72,207 391 1 34 129 6116 71,593 -223 0 35 126 6242 70,980 -836 -1 36 193 6435 71,143 -674 -1 37 247 6682 71,877 61 0 38 263 6945 72,740 924 1 39 217 7162 73,089 1,273 2 40 224 7386 73,491 1,675 2 41 211 7597 73,746 1,930 3 42 180 7777 73,696 1,880 3 43 218 7995 74,000 2,184 3 44 249 8244 74,571 2,755 4 45 199 8443 74,674 2,858 4 46 199 8642 74,772 2,956 4 47 191 8833 74,799 2,983 4 48 207 9040 74,957 3,141 4 49 211 9251 75,141 3,325 5 50 55 9306 74,076 2,260 3 51 119 9425 73,552 1,736 2 52 163 9588 73,385 1,569 2 53 227.5 9815.5 73,709 1,893 3 54 224.5 10040 73,999 2,183 3 55 212 10252 74,187 2,371 3 56 243 10495 74,589 2,773 4 57 206 10701 74,719 2,903 4 58 204 10905 74,831 3,015 4 59 191 11096 74,851 3,035 4 60 197 11293 74,910 3,094 4 61 221 11514 75,124 3,308 5 62 198.5 11712.5 75,187 3,371 5 63 219.5 11932 75,380 3,564 5 64 218 12150 75,558 3,742 5 65 201 12351 75,626 3,810 5 66 237 12588 75,909 4,093 6 67 197.5 12785.5 75,950 4,134 6 68 158.5 12944 75,760 3,944 5 69 163 13107 75,603 3,787 5 70 32 13139 74,705 2,889 4 71 71 13210 74,050 2,234 3 72 169 13379 73,956 2,140 3 73 192 13571 73,990 2,174 3 左から順に、頁数、その頁の語数、その頁までの累積語数と 続きます。 4番目の列は、その頁までの累積語数をもとに、それが 本全体まで同じ割合で続いたとしたら、総語数はどうなる か、という比例計算の結果です。予想総語数というわけです。 予想語数=累積語数×(398 / 頁数) *398は総頁数。 5番目の列は、この予想総語数から、アマゾン実数71,816語 を引いたものです。予想した数が実数よりどれだけ多いか少ない か、を表す数字です。 最後6番目の列は、前の差がアマゾン実数に対して何%に あたるかを表しています。予想のあたり具合というわけです。 「過去ログ」でどなたかが、総語数を全部手で数えるわけには いかないのだから、SSSでいう総語数は±10%くらいの誤差 は許容範囲内だろう、と言われています。私もそのくらいで 十分と思います。 この基準に照らしてみると、この表では、早くも8頁から±10%に 収まってきているわけです。しかも、それが73頁まで続いている。 11頁からは5%以内にほぼ収まっている。 ただし、66、67頁では、残念ながら6%の誤差になっています。 (P.66, 5.69%, P67, 5.75%です。) 「残念ながら」と書きましたが、これは、頁がすすんでいけば、 誤差が少なくなるのでは…という予想を裏切るものだからです。 波がうねるように上下しながら、だいたい5,6%の範囲に収まって いるという感じですね。 しかし、頁がすすんでも正確さが増すわけではない、という ことは、この数字のアマゾン実数との驚くべき合致率にも かかわらず、一体どうしてなんだろうという根拠の探求に 目を向けさせることになるわけです。(なんだか、もって 回った言い方です(笑)。) 昨日1日考えてみましたが、「根拠はない、まったくない とも言い切れないが。」…というのが結論です。「根拠」と いうのは、上の比例計算の数字と実数が合致する 「根拠」ということです。 ここらへんの議論、たぶん数学に詳しい方や統計学を 勉強された方には常識なのだろうと想像します。素人の 議論とご容赦くださいね。 根拠がない、というのはまったくはっきりしています。 (変な表現ですが、根拠がないと思いついたら、考える 必要もないくらい、根拠はまったくないと思えました。) なんというのか、大きな円(The Sky is Falling)の中に 中円(頁)があり、その中に小円(行)がいくつもある。 その中に無数(71,816個)にある点(単語)の大きさも さまざま。 この中のからいくつかの中円、小円を取り出して、どう 数字を操作しようが、総語数とは「関係がない」と 思えるのです。平均といいますが、これはいくつか 選び出したサンプルの平均で、総語数に意味のある 平均ではないからです。 しかし、「関係がない」なら、どうして上の表にあるように ある程度の誤差におさまるのか。(ある程度の誤差に収まる、 という表現は言いすぎですね。73頁まではという限定を つけなければなりません。) ここが、笹かまくわえたどら猫さんがNo.779でアドバイス してくださったことだろうと思います。これは「1行の平均文字数」 についてでしたが…つまり、Sidney Sheldonさんの使う語彙の 特徴とか数に制限があること、(それに、表現の特徴、また本の 大きさと活字の大きさ、行と行とのつまり具合、レイアウトの仕方 など)から、まったくランダムな数を相手にしているのではなく、 ゆるーい制限がある数を相手にしているのだということ。 「きっと」そのことから、適当にえらんだサンプルから全体を 類推しても、「まったくのハズレ」ではない、と。 まあ、要するに、根拠はなんだかよく分からないということ になります(笑)。 ほかの3冊のpaperbacksについても数字が出てきました。 驚異的な結果です!! 長くなりすぎますので、今日はここまでとします。 読んでいただいて、ありがとうございます。
上へ | 前のメッセージへ | 次のメッセージへ | ここから後の返答を全表示 | 返答を書き込む | 訂正する | 削除する
お名前: 古川@SSS http://www.seg.co.jp/
投稿日: 2005/6/17(02:37)
------------------------------
"たむ"さんは[url:kb:788]で書きました:
〉みなさん、こんばんは。たむ2です。
むむー 何か面白いことになってきましたね。
400ページの本を、3%のページだけ調査すれば
全体の語数がほど推定できるというわけですね。
単純に考えると、
1行の単語数 = 1行にはいる文字数/(使用語彙の平均文字数+1)
1ページ文字率 = 作家・作品による定数
総語数 = 1行の単語数×行数×文字率×総頁数
ですよね。 ですので、使用語彙の平均文字数の分布を調べてみると
根拠をキチンとだせるような気がします。
#統計は、学生時代やらなかったので、詳しくないのが残念。
------------------------------
古川先生、こんにちは。 読んでいただいてありがとうございます。 次に投稿する内容を考えていて、お返事するのが 遅くなりました。 先生、ここらへんまでの考え方に間違いは ないですか? 数字に弱い素人ですので、とても心配で 何度も考えたり、表を作り直したりして いるんです。 作家・作品による定数、あたりになりますと もうとてもどう考えていいのかわかりません。 次の「総語数の計算(4)」はどうでしょうか? ご批評の点があれば、ぜひよろしくお願いします。 では。