« アメリカの「ことしのことば」に「めい王星」 | トップページ | チェンバロのさとがえり »

「ひらがなゲートウェイ」と「KAKASI」

「ひらがなゲートウェイ」(http://www.hiragana-gateway.com/)っていうページをみつけた。ここの説明によると、「指定したサイトの漢字を全てひらがなで表示させるコンテンツプロキシー」ってことだけど、「KAKASI」(http://kakasi.namazu.org/)っていう「漢字かなまじり文をひらがな文やローマ字文に変換することを目的として作成したプログラムと辞書」をつかってるらしい。

「KAKASI」は、わかちがきパッチをふくめたものが公開されてるみたいで、ひらがな・ローマ字変換して、わかちがきした例文が「KAKASI」関連のサイトにあった(「Ruby/KAKASI拡張モジュール」)。それは、

まど の そと を だれか が あるい ている

MADO no SOTO wo DAREKA ga ARUI teiru

っていうもので(ローマ字のほうはプログラムのなかみ?)、ローマ字で自立語が大文字になってるのがおもしろいのと、「を」が「wo」になってるのが気になるけど(そういうローマ字もあることはある。いまさらなんで?って感じだけど)、そんなことより、わかちがきがヘン。「だれか」「DAREKA」のとこもちょっとアレだけど、それはいいとして、「あるい ている」「ARUI teiru」がおかしい。わかちがきについてはいろんなやりかたがありえるにしても、このわかちがきはよくあるローマ字文のものとはちがう。それに国文法の品詞分解ともちがう。ローマ字文でつかわれてるいわゆる東大式なら「あるいて いる」「ARUITE iru」になるし、国文法なら「あるい て いる」「ARUI te iru」だろう。日本語文法の説明で、「~テイルのかたち」とかなんとかいうことがあるから、「ている」をまとめてきりはなしちゃったのかな。

「あるい」っていうのは、つぎに「た」とか「て」がついて、「あるいた」「あるいて」っていうふうに、国文法でいう助詞・助動詞がつくときしかつかわれない。つまり「あるい」だけじゃ独立した単語じゃない。だから単語として「あるい」できりはなすことはできないし、わかちがきにしても、ここできっちゃうのはよくない(国文法をもとにするっていうんならともかく)。それから、「あるいている」は「あるいて は いる」「あるいて も いる」っていうふうに、「あるいて」と「いる」のあいだに「は」とか「も」なんかがわりこめるから、「あるいて」と「いる」は単語としてべつべつのものだ。ローマ字文でつかわれてるわかちがきだと、こういう理由から、「あるいて いる」「ARUITE iru」ってきることになってる(わかちがきのための単語のみわけかた」。東大式については、「Rômazi Bunko」っていうサイトにある「わたしたちの分ち書きが決まるまで(後藤篤行)」を参照)。

「KAKASI」の拡張モジュールのページでみた例文は、これだけのみじかいものだったから、このプログラムにつかわれてるわかちがきが全体としてどういうものかはわかんないけど、せっかくわかちがきしたひらがな・ローマ字変換のプログラムがあるのに、こんなわかちがきじゃ、ちょっとおしいなあ。

はなしを「ひらがなゲートウェイ」にもどすと、このページにはサンプルとして、ひらがな変換した「Yahoo! Japan」とか「はてなダイアリー」とかのリンクがあるんだけど、実際に自分のブログでためしてみたら、ごく一般的なことばのばあいは、とくに問題はない感じだった。ただし、「古典ギリシャ語」が「こてんギリシャかた」になってたり(カタカナはカタカナのまんま)、「古典語」が「こてんかた」だったり、「日本語好きな人」が「にほんごすきなにん」になってたりするんだけど、そういうのは例外的だろう。それから、記号つきのラテン文字・ギリシャ文字はフォントの関係で表示されなくなる。デーバナーガリー文字なんかもぜんぜんダメ。

でもって、仏教用語となると、さすがに完全におかしくなる。「金剛頂経[こんごうちょうぎょう]」が「こんごういただきけい」、「理趣経[りしゅきょう]」が「りおもむきけい」、「大正新脩大蔵経[たいしょうしんしゅうだいぞうきょう]」が「たいしょうしんおさむおおくらけい」、「第1偈[だい1げ]」が「だい1けつ」、「最勝[さいしょう]」が「さいかち」、「薩埵[さった]」が「さつけん」、「明妃[みょうひ]」が「めいきさき」、「五秘密尊[ごひみつそん]」「ごひみつみこと」…ってな感じだ。

仏教用語は辞書に登録してないのがおおいだろうから、まあ、こういうのはしょうがない。でも、ちょっとふしぎなのもある。「人を造ろう[ひとをつくろう]」が「にんをつくろう」、「第26節[だい26せつ]」が「だい26ふし」になってる。「人」はなんでもかんでも「にん」になってるみたいだ。ほかに、「七十人訳[しちじゅうにんやく]」が「しちじゅうにんわけ」、「欽定訳[きんていやく]」が「きんていわけ」っていうのもある。こっちはキリスト教用語ってことになるのかな。

で、「ひらがなゲートウェイ」のほうは、わかちがきはされない。わかちがきパッチがあるんだから、わかちがきのやりかたはともかくとして、こっちもひらがな変換といっしょにわかちがきもしてくれたらおもしろかったんだけど。

わかちがき:分かち書き、分ち書き。

関連記事
 ・わかちがきのための単語のみわけかた
 ・「ひらひらの ひらがなめがね」

[わかちがきのはなしがでたから、つぎに、うえの文章をわかちがしたひらがな文とローマ字文をのせておくことにする。ひらがな文のなかのカタカナと、引用したものにでてくる漢字とかはもとのとおり。わかちがきは基本的に東大式。ローマ字のつづりは新日本式をもとにしたもの(ただし、ながい母音はかさね母音字式、「えい」は引用文以外は「ee」、「ん」は「ñ」)。]

「ひらがな げーとうぇい」 と 「KAKASI」

「ひらがな げーとうぇい」 (http://www.hiragana-gateway.com/) って いう ぺーじ を みつけた。 ここ の せつめい に よる と、 「してい した さいと の かんじ を すべて ひらがな で ひょうじ させる こんてんつ ぷろきしー」 って こと だ けど、 「KAKASI」 (http://kakasi.namazu.org/) って いう 「かんじ かな まじり ぶん を ひらがな ぶん や ろーまじ ぶん に へんかん する こと を もくてき と して さくせい した ぷろぐらむ と じしょ」 を つかってる らしい。

「KAKASI」 は、 わかちがき ぱっち を ふくめた もの が こうかい されてる みたい で、 ひらがな ろーまじ へんかん して、 わかちがき した れいぶん が 「KAKASI」 の さいと に あった。 それ は、

まど の そと を だれか が あるい ている

MADO no SOTO wo DAREKA ga ARUI teiru

って いう もの で、 ろーまじ で じりつご が おおもじ に なってる の が おもしろい の と、 「を」 が 「wo」 に なってる の が き に なる けど (そう いう ろーまじ も ある けど)、 そんな こと より、 わかちがき が へん。 「だれか」 「DAREKA」 の とこ も ちょっと あれ だ けど、 それ は いい と して、 「あるい ている」 「ARUI teiru」 が おかしい。 わかちがき に ついて は いろんな やりかた が ありえる に して も、 この わかちがき は いっぱん てき な ろーまじ ぶん の もの と は ちがう。 それ に こくぶんぽう の ひんし ぶんかい と も ちがう。 ろーまじ ぶん で つかわれてる いわゆる とうだい しき なら 「あるいて いる」 「ARUITE iru」 に なる し、 こくぶんぽう なら 「あるい て いる」 「ARUI te iru」 だろう。 にほんご ぶんぽう の せつめい で、 「~ている の かたち」 と か なん と か いう こと が ある から、 「ている」 を まとめて きりはなしちゃった の か な。

「あるい」 って いう の は、 つぎ に 「た」 と か 「て」 が ついて、 「あるいた」 「あるいて」 って いう ふう に、 こくぶんぽう で いう じょし じょどうし が つく とき しか つかわれない。 つまり 「あるい」 だけ じゃ どくりつ した じりつ けいしき じゃ ない。 だ から たんご と して 「あるい」 で きりはなす こと は できない し、 わかちがき に して も、 ここ で きっちゃう の は よく ない (こくぶんぽう を もと に する って いう ん なら ともかく)。 それ から、 「あるいて いる」 は 「あるいて は いる」 「あるいて も いる」 って いう ふう に、 「あるいて」 と 「いる」 の あいだ に 「は」 と か 「も」 なん か が わりこめる から、 「あるいて」 と 「いる」 は たんご と して べつべつ の もの だ。 ろーまじ ぶん で つかわれてる わかちがき だ と、 こう いう りゆう から、 「あるいて いる」 「ARUITE iru」 って きる こと に なってる (わかちがき の ため の たんご の みわけかた」。 とうだい しき に ついて は、 「Rômazi Bunko」 って いう さいと に ある 「わたしたちの分ち書きが決まるまで(後藤篤行)」 を さんしょう)。

「KAKASI」 の ぺーじ で みた れいぶん は、 これ だけ の みじかい もの だった から、 この ぷろぐらむ に つかわれてる わかちがき が ぜんたい と して どう いう もの か は わかんない けど、 せっかく わかちがき した ひらがな ろーまじ へんかん の ぷろぐらむ が ある の に、 こんな わかちがき じゃ、 ちょっと おしい なあ。

はなし を 「ひらがな げーとうぇい」 に もどす と、 この ぺーじ に は さんぷる と して、 ひらがな へんかん した 「Yahoo! Japan」 と か 「はてな だいありー」 と か の りんく が ある ん だ けど、 じっさい に じぶん の ぶろぐ で ためして みたら、 ごく いっぱん てき な ことば の ばあい は、 とくに もんだい は ない かんじ だった。 ただし、 「古典ギリシャ語」 が 「こてんギリシャかた」 に なって たり (かたかな は かたかな の まんま)、 「古典語」 が 「こてんかた」 だったり、 「日本語好きな人」 が 「にほんごすきなにん」 に なってたり する ん だ けど、 そう いう の は れいがい てき だろう。 それ から、 きごう つき の らてん もじ ぎりしゃ もじ は ふぉんと の かんけい で ひょうじ されなく なる。 でーばなーがりー もじ なん か も ぜんぜん だめ。

で もって、 ぶっきょう ようご と なる と、 さすが に かんぜん に おかしく なる。 「金剛頂経(こんごうちょうぎょう)」 が 「こんごういただきけい」、 「理趣経(りしゅきょう)」 が 「りおもむきけい」、 「大正新脩大蔵経(たいしょう しんしゅう だいぞうきょう)」 が 「たいしょうしんおさむおおくらけい」、 「第1偈(だい 1 げ)」 が 「だい1けつ」、 「最勝(さいしょう)」 が 「さいかち」、 「薩埵(さった)」 が 「さつけん」、 「明妃(みょうひ)」 が 「めいきさき」、 「五秘密尊(ごひみつそん)」 「ごひみつみこと」… って な かんじ だ。

ぶっきょう ようご は じしょ に とうろく して ない の が おおい だろう から、 まあ、 こう いう の は しょう が ない。 で も ちょっと ふしぎ な の も ある。 「人を造ろう(ひと を つくろう)」 が 「にんをつくろう」、 「第26節(だい 26 せつ)」 が 「だい26ふし」 に なってる。 「人」 は なん で も かん で も 「にん」 に なってる みたい だ。 ほか に、 「七十人訳(しちじゅうにん やく)」 が 「しちじゅうにんわけ」、 「欽定訳(きんてい やく)」 が 「きんていわけ」 って いう の も ある。 こっち は きりすときょう ようご って こと に なる の か な。

で、 「ひらがな げーとうぇい」 の ほう は、 わかちがき は されない。 わかちがき ぱっち が ある ん だ から、 わかちがき の やりかた は ともかく と して、 こっち も ひらがな へんかん と いっしょ に わかちがき も して くれたら おもしろかった ん だ けど。


"HIRAGANA GATEWAY" TO "KAKASI"

"Hiragana Gateway" (http://www.hiragana-gateway.com/) tte yuu peezi o micuketa. Koko no secumee ni yoru to, "sitei sita saito no kañzi o subete hiragana de hyoozi saseru koñteñcu purokisii" tte koto da kedo, "KAKASI" (http://kakasi.namazu.org/) tte yuu "kañzi kana maziri buñ o hiragana buñ ya roomazi buñ ni heñkañ suru koto o mokuteki to site sakusei sita puroguramu to zisyo" o cukatteru rasii.

"KAKASI" wa, wakacigaki pacci o hukumeta mono ga kookai sareteru mitai de, hiragana roomazi heñkañ site, wakacigaki sita reebuñ ga "KAKASI" no saito ni atta. Sore wa,

まど の そと を だれか が あるい ている

MADO no SOTO wo DAREKA ga ARUI teiru

tte yuu mono de, roomazi de ziricugo ga oomozi ni natteru no ga omosiroi no to, "を" ga "wo" ni natteru no ga ki ni naru kedo (soo yuu roomazi mo aru kedo), soñna koto yori, wakacigaki ga heñ. "だれか" "DAREKA" no toko mo cyotto are da kedo, sore wa ii to site, "あるい ている" "ARUI teiru" ga okasii. Wakacigaki ni cuite wa iroñna yarikata ga aru ni site mo, kono wakacigaki wa ippañ teki na roomazi buñ no mono to wa cigau. Sore ni kokubuñpoo no hiñsi buñkai to mo cigau. Roomazi buñ de cukawareteru iwayuru Toodai siki nara "あるいて いる" "ARUITE iru" ni naru si, kokubuñpoo nara "あるい て いる" "ARUI te iru" daroo. Nihoñgo buñpoo no secumee de, "-teiru no kataci" to ka nañ to ka yuu koto ga aru kara, "teiru" o matomete kirihanasicyatta no ka na.

"Arui" tte yuu no wa, cugi ni "ta" to ka "te" ga cuite, "aruita" "aruite" tte yuu huu ni, kokubuñpoo de yuu zyosi zyodoosi ga cuku toki sika cukawarenai. Cumari "arui" dake zya dokuricu sita ziricu keesiki zya nai. Da kara tañgo to site "arui" de kirihanasu koto wa dekinai si, wakacigaki ni site mo, koko de kiccyau no wa yoku nai (kokubuñpoo o moto ni suru tte yuu ñ nara tomokaku). Sore kara, "aruite iru" wa "aruite wa iru" "aruite mo iru" tte yuu huu ni, "aruite" to "iru" no aida ni "wa" to ka "mo" nañ ka ga warikomeru kara, "aruite" to "iru" wa tañgo to site becubecu no mono da. Roomazi buñ de cukawareteru wakacigaki da to, koo yuu riyuu kara, "あるいて いる" "ARUITE iru" tte kiru koto ni natteru ( "わかちがきのための単語のみわけかた". Toodai siki ni cuite wa, "Rômazi Bunko" tte yuu saito ni aru "わたしたちの分ち書きが決まるまで(後藤篤行)" o sañsyoo).

"KAKASI" no peezi de mita reebuñ wa, kore dake no mizikai mono datta kara, kono puroguramu ni cukawareteru wakacigaki ga zeñtai to site doo yuu mono ka wa wakañnai kedo, sekkaku wakacigaki sita hiragana roomazi heñkañ no puroguramu ga aru no ni, koñna wakacigaki zya, cyotto osii naa.

Hanasi o "Hiragana Gateway" ni modosu to, kono peezi no wa sañpuru to site, hiragana heñkañ sita "Yahoo! Japan" to ka "Hatena Diary" to ka no riñku ga aru ñ da kedo, zissai ni zibuñ no burogu de tamesite mitara, goku ippañ teki na kotoba no baai wa, tokuni moñdai wa nai kañzi datta. Tadasi, "古典ギリシャ語" ga "こてんギリシャかた" ni nattetari (katakana wa katakana no mañma), "古典語" ga "こてんかた" dattari, "日本語好きな人" ga "にほんごすきなにん" ni nattetari suru ñ da kedo, soo yuu no wa reegai teki daroo. Sore kara, kigoo cuki no Rateñ mozi Girisya mozi wa foñto no kañkee de hyoozi sarenaku naru. Deebanaagarii mozi nañ ka mo zeñzeñ dame.

De motte, Bukkyoo yoogo to naru to, sasuga ni kañzeñ ni okasiku naru. "金剛頂経 (Koñgoocyoogyoo)" ga "こんごういただきけい", "理趣経 (Risyukyoo)" ga "りおもむきけい", "大正新脩大蔵経 (Taisyoo Siñsyuu Daizookyoo)" ga "たいしょうしんおさむおおくらけい", "第1偈 (dai 1 ge)" ga "だい1けつ", "最勝 (saisyoo)" ga "さいかち", "薩埵 (satta)" ga "さつけん", "明妃 (myoohi)" ga "めいきさき", "五秘密尊 (Gohimicusoñ)" ga "ごひみつみこと"... tte na kañzi da.

Bukkyoo yoogo wa zisyo ni tooroku site nai no ga ooi daroo kara, maa, koo yuu no wa syoo ga nai. De mo cyotto husigi na no mo aru. "人を造ろう (hito o cukuroo)" ga "にんをつくろう", "第26節 (dai 26 secu)" ga "だい26ふし" ni natteru. "人" wa nañ de mo kañ de mo "にん" ni natteru mitai da. Hoka ni, "七十人訳 (Sicizyuuniñ Yaku)" ga "しちじゅうにんわけ", "欽定訳 (Kiñtei Yaku)" ga "きんていわけ" tte yuu no mo aru. Kocci wa Kirisutokyoo yoogo tte koto ni naru no ka na.

De, "Hiragana Gateway" no hoo wa, wakacigai wa sarenai. Wakacigaki pacci ga aru ñ da kara, wakacigaki no yarikata wa tomokaku to site, kocci mo hiragana heñkañ to issyo ni wakacigaki mo site kuretara omosirokatta ñ da kedo.

2007.01.17 kakikomi; 2011.02.03 kakinaosi

|

« アメリカの「ことしのことば」に「めい王星」 | トップページ | チェンバロのさとがえり »