Wikipedia‐ノート:ウィキプロジェクト 索引
出典: フリー百科事典『ウィキペディア(Wikipedia)』
議論はサブページを使用します。
[編集] 自動索引の提案について
Wikipedia‐ノート:索引#全自動索引にて、TETRAさんによる自動索引が提案されました。本プロジェクトで検討していただいて、実用化を図れればと思っています。--Yas 2006年9月14日 (木) 19:45 (UTC)
利用者:TETRA/索引テスト/アイア-アイソを拝見しました。素晴らしいと思います。同じ語を含むものをまとめて表示するので見通しがよいところが気に入りました。ただ、気になる点がありますので箇条書きします。
- 記号「〜」(波ダッシュ)は環境によっては表示できない可能性があります(Windowsでは~の方が入力しやすい)。代わりに全角ハイフン「‐」やマイナス「-」などを使用してはどうでしょうか。あるいは「あいあいパラソル」のように強調してみてもいいかもしれません(googleのサイト検索で検索しやすくなる)。
- 「日本」を含む語のような数が多いものについて、どのような形になるのかちょっと心配です。
- リダイレクトは明示したほうがよいかもしれません。
--Michey 2006年9月17日 (日) 15:37 (UTC)(追記Michey 2006年9月17日 (日) 15:53 (UTC))
-
ご意見ありがとうございます。ツリー状の表示について価値を認めていただけたようで幸いです(今回の試案の肝なので)。リダイレクトの明示や省略方法といった表示周りについてはご意見を参考にしていただき改良に努めます。
ご指摘の登場数が多すぎる単語については、確かに今回の掲載法だと索引の利便性を下げることになるかもしれません。しかし、「それを全部掲載するのが索引」の役目という面もあるかと思います。掲載すべきかどうか、するとしたらどのように掲載すべきか、どなたかご意見をお願いします
私個人の意見では、一ページに収まる程度であれば全て掲載するのもありかなと思っています。(後で登場数を数えておきます)
User:TETRA 2006年9月20日 (水) 12:50 (UTC)
2006年8月のダンプを元に数えてみました。User:TETRA/scrap/タイトル頻出単語をご覧下さい。「日本」 は2062件含まれていました。分野と無関係に出現する単語としては一番出現数が多かったです。
それより数が大い単語として"駅"、"線"、"号"、"線"があったのですが、こちらは実際に全国の駅や道路の記事がヒットしているので、索引での「駅」の見出しであれば、「Category:鉄道駅をご覧下さい」とできる気がします。(Categoryへのまとめかたは一考。またそれとは別に、「東京」の項目には「ー. 駅」を入れるなどする)
しかし挙げられた「日本」は掲載時にどうすればよいか見通しがつきません。別に何もせずそのまま記述することもできますが、2000件ってどうなんでしょう。
こんにちは。気になる点をいくつか質問させてください。
- 読み自体も自動判別だそうですが、判別結果に誤りがあった場合に個々の項目に対して修正は可能ですか。例えば「相内 (アイウチ) 」で拾っている項目は、正しくは「あいのない」と読むようです。
- キーワードは五十音順になっていますが、一段下に列挙されている項目は五十音順になっていません。「愛子 (アイコ) 」以下など、これ以上多くなると目指す項目を探せなくなります。上で話されている「日本」などは絶望的と思われます。逆に、ここが五十音順になっていれば、2000項目でも索引として成立するかもしれません。
- 本格運用するとなった場合に、TETRAさんしかメンテナンスできない状況だとすると、TETRAさんがいなくなった時に困ります。TETRAさんの作成したプログラムを公開して、誰でも作業を引き継げるような形にすることは可能ですか。「誰でも」というのは、「何か特定の(データベースの?)スキルのある人」でもよいですが。
- 読みが括弧付きで明記されているものと、そうではないものがあります。かなのみの項目は除いて、できるだけ読みが付けばと思います。
以下、細かな点ですが。
- 「藍色細菌」があったので気が付いたのですが、藍色が取得されていないようです。なぜでしょうか。(「藍」の欄にあるのでしょうか?)
- 「アイアン」において、「アイアン」部分が省略されている単語と、省略されていない単語があります。なぜでしょうか。
- 「アイコ・アイコ」は、二度並べられています。これは理由はわかりますが(^^)。
--Yas 2006年10月2日 (月) 13:26 (UTC)
- 遅レスすみません。読み仮名については記事に記入されている情報をもとに補正できればと考えています。プログラムの公開は行うつもりでして、このためにダラダラと時間を使わせていただいています。最終的にできたのが結局人様にお見せできないような汚いプログラムになっても、やはり……
一段下の並び順、アイアンの省略・非省略、「アイコ・アイコ」の重複は設計ミス or バグですので今後の参考にさせていただきます。「藍色」が抜けているのは色々な誤魔化し故なのですが、これについても読み仮名補正が機能すれば掲載可能かと考えています。なかなか作業が進まないのですが気長にお待ちいただければ…… ― TETRA 2006年10月8日 (日) 16:26 (UTC)
-
- 了解しました。もとより急ぐ必要はありませんので、どうぞよろしくお願い致します。--Yas 2006年10月8日 (日) 18:27 (UTC)