「ほっ」と。キャンペーン
カテゴリ:頻度( 6 )

2015年 09月 16日
頻度調査: 総語数約3万6000語
a0051297_8343373.gifしばらく中止していた記事の保存をここのところ再開している.そのまだ総語数約3万6000語ほどしかないファイルだが,久しぶりに AntConc で使用頻度調査をやってみた.

使用ソフト: AntConc ver.3.4.3 (最新バージョンは 3.4.4)
http://www.laurenceanthony.net/software.html

左はその結果である.頻度トップ10語 (ABC順): dalam - dan - dari - dengan - di - ini - itu - tidak - untuk - yang.この顔ぶれは,300万語,200万語のときと同じで変わらない.yang がトップであることも変わらない.

-nya を数えていないランキングである.もしこの -nya を数えられるように下準備 (すなわち,katanya を kata nya とするなど) して -nya を数えれば, 2位 -nya となるはずである. 事実 -nya 893 でそうなった.

この「-nya を数えられるようにする下準備 (すなわち,katanya を kata nya とするなど)」,なかなか手間のかかる作業なので,小さなファイルならともかく,何百万語の大きなファイルでは,とてもやっていられない.そんなわけで,通常の頻度調査では,自立語でない -nya は対象外,ノーカウントである.

なお,小説の場合の使用頻度については以下参照されたい.

kembali(戻る) http://sanggar.exblog.jp/7621484/

[Sg]



[PR]
[PR]

by sanggarnote | 2015-09-16 08:36 | 頻度
2012年 08月 19日
Pidato Presiden 2012
Pidato Kenegaraan HUT Ke-67 Proklamasi Kemerdekaan RI
di Depan Sidang Bersama DPR dan DPD RI
Gedung DPR/MPR RI, Jakarta, Kamis, 16 Agustus 2012

使用頻度上位20語 (AntConc による処理)

a0051297_1355180.gif

17位の terus,気になってその44例の用例を調べたのが次.

a0051297_1428219.gif

すべて terus V (引き続き...する) の用例で,V terus (...し続ける) はなかった.

この演説の .txtファイルを kobo Touch には Sigil で処理して,また Kindle には Mobipocket Creator で処理して持ち込み,両端末で "terus" を検索 (kobo - 全文検索,Kindle - Search This Book) させてみたのが次.

a0051297_4391153.jpgkobo Touch (左) 「検索結果は0件でした」.「我が輩は猫」の日本語はちゃんと検索するようなので,英語・インドネシア語など横文字に対しては「検索」機能が無効に設定されている?
Kindle (右) "Search Results: Showing All 44".バッチリである.


[CM]
[PR]

by sanggarnote | 2012-08-19 13:06 | 頻度
2012年 06月 12日
Sejarah Melayu 頻度ベスト10
01 maka (4521)
02 nya (3269)
03 itu (2542)
04 pun (2194)
05 lah (1927)
06 raja (1819)
07 orang (1785)
08 dan (1485)
09 baginda (1305)
10 yang (1197)

Sejarah Melayu の語彙頻度調査はかつて民博のチームがやった.当時崎山先生を民博に訪ねてその膨大なプリントアウトの一端を見せていただいたが,そのとき,上位117語のリストのプリント一枚を頂戴したと見える.それが出てきた.

maka は,古典マレー語ではコンマ代わりみたいな語.それが使用頻度1位という結果に出ている.-nya の頻度を調べるには,abcnya と使われるこれをいちいち abc nya と切り離さなければならず,大いに手間がかかるわけだが,それがこの調査では行われており,-nya の頻度が得られている. (これは -lah についても同じ).

もう一つ,田中奈苗卒論から Hikayat Raja-Raja Muda のデータを追加すれば,

01 maka (1358)
02 nya (1375)
03 lah (1273)
04 itu (1023)
05 baginda (897)
06 pun (832)
07 ke (497)
08 yang (489)
09 Puteri (467)
10 Tuan (456)

[Sg]



[CM]
[PR]

by sanggarnote | 2012-06-12 17:09 | 頻度
2008年 11月 01日
kembali (戻る)のイメージ
以下再録:

kembali(戻る)

Mochtar Lubis の小説『果てしなき道』 JALAN TAK ADA UJUNG (Pustaka Jaya, Cetakan keempat, 1977) をハンディスキャナーを用いて入力した。総語数は約3万2千語。頻度リストの上位20語を紹介すると以下の通り。

a0051297_13564936.gifすでに報告した Maria A. Sardjono, ANGSA LIAR と,Yudhistira ANM Massardi, WANITA DALAM IMAJINASI の二つのリスト(通信1994,32ペ参照)と比べてみると,両者の1位 -nya と2位 yang の間に dan が割り込むかたちになって yang が3位に下がっていること,また,一人称二人称の人称代名詞 aku,kau,kamu がここに見えないこと,三人称「彼は」は ia でなく dia であること,などが目に付く。

上の特徴はこの小説の文体,語り口にかかわるものだが,内容にかかわるものとして,主人公の小学校教師 Guru Isa,その若い友 Hazil,イサの妻 Fatimah (第21位。ハジルと不倫関係に陥る)の名前の他に,mereka,orang,kembali などをマークすることが出来よう。

この,恐怖心のエチュードと呼んでいい小説の最大のキーワードは「恐怖」である筈なのに,それらしきものがリストに見えない理由は,takut 131, ketakutan 111, ketakutan-ketakutan 4 のように,言ってみれば票が割れてしまったためである。

ketakutan-ketakutan というような重複形をどう数えるべきかは毎回の頻度調査で頭を悩ますところだが,もしこれを原形が2回使われたものと数えるならば,ketakutan 111 +(2 x 4)=119。これを takut の頻度と合算すると 250 となり,つまりは「恐怖」がkembali を上回って17位,orang のすぐ後につく。本当はこうなっている方が,この小説の内容をより分かり易く反映する頻度リストというものだろう。

ところで,「戻る,もう一度」などの意味をもつ kembali も重要なキーワードであるということは,今回初めて気付いた。

念のためその用例198例を打ち出して,menarik tangannya kembali dari bungkusan beras (もう貸し売りは出来ないと断られて)米の袋に伸ばした手をまた引っ込める,lari masuk warung kembali ワロンにまた逃げ込む,Guru Isa menjadi takut kembali イサはまた恐怖心に捉えられた,Anak itu harus kembali あの子は戻ってくる,戻ってこなくちゃならない,mereka akan datang kembali 連中はまたやってくる,Takut ditolak kembali (妻に)また拒まれるのが恐ろしかった,Kelaki-lakiannya telah kembali 男としての力が戻っていた(主人公 Guru Isa の性的不能が最後の最後で回復する話でもこの小説はあるわけなのだ),等を一覧して納得した次第。

つまり,果てしなく伸びる一直線の底に絶えず立ち戻るイメージがあるというわけだ。[Sg 1995.3.26]
[PR]

by sanggarnote | 2008-11-01 09:32 | 頻度
2008年 11月 01日
俺&すべて
以下再録:

Aku mau bebas dari segala(俺はすべてから自由になる)

AKU INI BINATANG JALANG - Koleksi Sajak 1942-1949 (PT Gramedia, 1987) ―― この本に収められている Chairil Anwar の詩は,1942年2篇,1943年37編,1944年4編,1945年3編,1946年15編,1947年5編,1948年8編,1949年6編の計80編(訳詩は除く)。

この詩集を使い Chairil の語彙の使用頻度について中庭ノートに以下の3項目を書いた。

[KWIC] 否定詞 tak が頻度トップ (4/26)
[KWIC]1位 tak 揺るがず (5/12)
[KWIC] aku がトップを奪う(5/18)

最初のは14編を入力した時点での報告,次ぎのは28編まで進んだ時点での報告,最後のは 1942-43年39編の入力をおえての報告である (左表)。

本項見出しに選んだ Aku mau bebas dari segala は,1942-43年の頻度リスト1位の語 aku で始まり,トップ10を締めくくる語 segala で終わる一行,「俺はすべてから自由になる」(Merdeka, 1943) である。

そこで今後の楽しみは,今回トップの座を aku に逐われた否定詞(tak と tidak を合わせればなお実質的1位)が,これから 1944年以降の詩が加わった時にどうなるか,である。果たして順位を下げるのだろうか,それとも実質1位を守るのだろうか。[Sg 5.19.05]
[PR]

by sanggarnote | 2008-11-01 09:14 | 頻度
2008年 11月 01日
頻度調査: 総語数約300万語
a0051297_10522942.gif保存した新聞記事を対象とした頻度調査.総語数約300万語のファイル(22.8MB) からこの結果を得るのにものの1分もかからない.約200万語を対象にした Frekuensi Kosakata Bahasa Indonesia (FSUI, 1996) のリストと比べると,1位~7位は一致,8位~10位でちょっと移動が見える.

調査対象は同じ Kompas を中心とする新聞記事,dalam は 2000年以降の新しいデータで順位を下げたということになる.

使用ソフトは AntConc 3.1.302 (最新バージョンは 3.2.1). http://www.antlab.sci.waseda.ac.jp/software.html
[PR]

by sanggarnote | 2008-11-01 03:32 | 頻度