[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:1074] Re: [drf:1073] フォローです Re: [drf:1069] [drf:1060] について
- Date: Mon, 18 May 2009 19:37:37 +0900
鈴木様 みなさま
内島です。
robots.textは簡単に編集できるテキストファイルですが、これが
ロボットによるクローリングを制御しています。筑波の佐藤さんの発
表なんかによると、リポジトリからgoogleあるいはロボットからのア
クセスを取ってしまうと、朝日の大学ランキングに乗るのは絶対不可能
(?)という事態に陥ってしまうわけです。
佐藤(筑波大)さんの発表
http://www.nii.ac.jp/sparc/event/2008/pdf/101408/5-1_sato1010-1.pdf
ということで、ロボットアクセスだめという設定のまま出荷されて
いるDSpaceは設定かえなだめだ、というのがロバート・タンズリー
というDSpaceをMITで作って(ついでに言うと、その前にEPrintsを
サウサンプトン大学で作ったオープンソースの立役者みたいな人)
googleに(再)就職した人の忠告でした。
江別の鈴木さんからは、いっそsitemapというのを設定すると見てほし
いところを指定できたりするのでそっちを使った方が積極的で効果的だ
ということでした。
江別の鈴木様 フォローあったらお願いします、、、
>これは、DSpaceには、1.4から標準でrobots.txtがついてるんだけど、
>バージョンによってはデフォルトのままだと間違っている、
>間違ったままだと、Googleからクロールされないので注意!
>という話だったようです。
>Googleから検索できないなんて、リポジトリの魅力半減ですから。。。
>
>
>ただ、Googleから、robots.txtではなく、sitemapでクロールして
>もらう方法もあります。sitemapで指定した方が確実なのでオススメ
>ですよ、というのが、↓この部分の話ですね。
>
>>>sitemap機能をつけた方が良いのは、先日の講習会で言ったとおりです。
>>>
>>>実際の作業は、DRFと私のブログにあります。
>>>http://drf.lib.hokudai.ac.jp/drf/index.php?DSpace%E3%81%A8Google%20Sitemap
>>>http://d.hatena.ne.jp/zuki_ebetsu/20071114/1195005653
>
>#両方で指定すると二重にクロールされちゃうので、小樽では
>#sitemapを採用し、むしろrobots.txtではクロールされないよう
>#「Disallow:」にしていました。
>
>内島課長、識者のみなさま、フォローありましたらお願いします。
>(可能な限り易しくお願いしますー。はーと)
>
>
>
>---------------------------------------------------------------
>>From: uchijima hideki <uchijima @ xxxxxxxxxxxxxxxxxxx>
>>Date: Fri, 15 May 2009 11:01:36 +0900
>>To: drf @ xxxxxxxxxxxxxxxx
>>Subject: [drf:1069] [drf:1060] について
>>
>>
>>みなさま
>>
>> 内島です。江別の鈴木さんから、robots.txtについて以下のメールを
>>いただきました。実は金沢も下記のような設定で、クロールをすべて許可
>>していたわけではないことをご教示頂きました、、、
>>
>> なお、Sitemap機能の詳細については、ご教示頂いたURLをご覧ください。
>>また、鈴木さんが東工大WS(「先日の講習会」)で行われたプレゼンの資料
>>は下記をご覧ください。
>>
>> http://www12.ocn.ne.jp/~zuki/drf/repository.html
>>
>>(金沢の設定)
>>>User-agent: *
>>>Disallow: /browse-author
>>>Disallow: /items-by-author
>>>Disallow: /browse-date
>>>Disallow: /browse-subject
>>
>>(鈴木さんの指摘)
>>>手元のファイルを調べてみたら、1.3.2はrobots.txt自体なし、
>>>1.4.2, 1.5.1 は間違いあり、1.5.2は間違いなし。ただし、
>>>1.5からはsitemap機能が標準でついています。
>>
>>>日本のリポジトリで問題になるのは、1.4系列を使っている機関でしょう。
>>>robots.txtは DSPACE-SRC/jsp/robots.txt (1.4.2の場合)にあり、
>>>TOMCAT/webapps/dspace/robots.txt に配備されて使用されます。
>>>sitemap機能をつけた方が良いのは、先日の講習会で言ったとおりです。
>>
>>>実際の作業は、DRFと私のブログにあります。
>>>http://drf.lib.hokudai.ac.jp/drf/index.php?DSpace%E3%81%A8Google%20Sitemap
>>>http://d.hatena.ne.jp/zuki_ebetsu/20071114/1195005653
>>
>>
>--------------------------------------------
>>From: uchijima hideki <uchijima @ xxxxxxxxxxxxxxxxxxx>
>>Date: Tue, 12 May 2009 08:52:40 +0900
>>To: drf @ xxxxxxxxxxxxxxxx
>>Subject: [drf:1060] Fwd: [Dspace-general] Check that your DSpace instance can be indexed
>>
>>
>>みなさま
>>
>> 金沢大の内島です。DSpaceのリストで、久々にロバート・タンズリー氏のポストが
>>流れていました。version1.5(.1)がすでにリリースされていますが、robot.txtの
>>設定について触れています。ロボット拒否の設定のままになっている大学は少ないと
>>思いますが、アクセスに大きな影響があるので、参考までに転送いたします。
>>
>>All,
>>
>>We're noticing that many DSpace instances still have misconfigured
>>robots.txt files which are preventing them from being indexed by search
>>engines.
>>
>>In short -- please ensure that *NEITHER* of the following lines are present
>>in your robots.txt file at http://your.dspace.url/robots.txt:
>>
>>Disallow: /browse
>>Disallow: /browse-date
>>
>>If either line is present (as accidentally shipped with DSpace 1.5 and
>>1.5.1), search engines may be prevented from indexing any content in your
>>DSpace instance.
>>
>>For more information on how to ensure your DSpace is indexed correctly,
>>including making use of Sitemap support, see:
>>
>>http://wiki.dspace.org/index.php/Ensuring_your_instance_is_indexed
>>
>>Thanks,
>>
>>Rob
>>______________________________________________________________________
>>
>>_______________________________________________
>>Dspace-general mailing list
>>Dspace-general @ xxxxxxx
>>http://mailman.mit.edu/mailman/listinfo/dspace-general
>>
>>
>
>--
>小樽商科大学附属図書館(学術情報課情報普及係)
> 鈴木 雅子 TEL:0134-27-5274 FAX:0134-27-5278
>** Barrel: http://barrel.ih.otaru-uc.ac.jp
>
>
>
-----------------------------------
内島秀樹
金沢大学情報部情報企画課
tel 076-264-5203
fax 076-234-4050
mail uchijima @ xxxxxxxxxxxxxxxxxxx
-----------------------------------