前の日 / 次の日 / 2008-08
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2008-08-28 Thu

Yahooの「Yahoo!ショッピング コンテンツマッチランキングAPI」を試してみる

Yahooが、「Yahoo!ショッピング コンテンツマッチランキングAPI」をリリースしました。
このコンテンツマッチランキングAPIが、
良い感じで文書のカテゴリを当ててくれるのか気になったので、
簡単に試せるフォームを設置して試すことにしました。

以下がそのフォーム。

コンテンツマッチランキングAPI お試しフォーム


気になるURLを入力してみましょう。



どうですか?
XMLファイルの中に、もとのURLにふさわしい商品が入っていましたか?

まだ、ちょっと微妙ですよね。

同じお店の商品ばかり推薦されて、ちょっと困ります。
僕のブログは、セブンアンドアイだらけでした。

今後改善されると思うので期待してます。

そのうちJSON形式の結果を取得できるようになるらしいので、
そうすると気軽にブログパーツを作れて良い感じですね。

ちなみに、Yahoo!ショッピングAPIはバリューコマースの登録ユーザになると、お小遣い稼ぎにも使えて良さげです。意外な商品が売れるのでオススメです。


投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

いまさらだけど「Google Adsense のセクションターゲット」と「Yahoo! Slurpのclass=robots-nocontent」を組み込んだ

この日記ブログについて、調べ物をしているときに、
検索エンジンなどの本文抽出精度がいまいちなことに、気がつきました。

なので早速、「Google Adsense のセクションターゲット」と「Yahoo! Slurpのclass=robots-nocontent」をテンプレートに組み込むことにしました。

それぞれ、どのようなものかと言うと、以下のようなものです。

- セクション ターゲットとは何ですか。また、実装方法を教えてください。 - AdSense ヘルプ センター
-- https://www.google.com/adsense/support/bin/answer.py?answer=23168&cbid=-1e21013b4cp9a&src=cb&lev=index

セクション ターゲットを使用するとサイトのコンテンツと広告を照合する場合に、強調または無視すべきテキストや HTML コンテンツのセクションを Google に知らせて、 広告表示の関連性における精度をより向上させることができます。


なるほど。

- How do I mark web page content that is extraneous to the main unique content on the page? - Yahoo! Search Help
-- http://help.yahoo.com/l/us/yahoo/search/webcrawler/slurp-14.html
Yahoo! Search observes the class="robots-nocontent" present on XHTML elements, such as div, span, and all others.


Yahooサーチは、class="robots-nocontent"なタグで囲まれた部分を、
理解して不要な部分として解釈してくれるようです。

早速以下のような、セクションターゲットタグを設置しました。

HTML中のタイトルや本文となる内容部分


HTML中のタイトルや本文となる部分は、
各ページが固有に持っていることを期待できます。

そのような部分を、 google_ad_section_startとendで囲みます。

<!-- google_ad_section_start -->
タイトルや本文となる内容を含んだ部分
<!-- google_ad_section_end -->



余分な部分


ヘッダー部分や、サイドバー、フッターなどは、
複数のHTMLファイルで使い回すことが多く、
着目しているHTMLファイルの中で固有とは言えないのでは。

そのような部分は「google_ad_section_start(weight=ignore) 」とendで囲みます。

<!-- google_ad_section_start(weight=ignore) -->
サイドバーなど、複数ページ間で共通である余分な部分
<!-- google_ad_section_end -->


囲むときには、HTMLのタグの対応が壊れないように


今回設定した「google_ad_section_start(weight=ignore) 」は、
検索エンジンの本文抽出器の抽出精度を上げるためのものだと、
考えることができます。

ユーザやプロバイダが本文部分だと明示している部分があれば、
クローラーは、その部分の内容を、HTMLファイルから抜き出すでしょう。

以下のような場合には、

<body>
<div>。。。</div>
<!-- google_ad_section_start -->
<div>
タイトルや本文となる内容を含んだ部分
</div>
<!-- google_ad_section_end -->
<div>。。。</div>
</body>


このように、必要な部分だけを残すでしょう。

<!-- google_ad_section_start -->
<div>
タイトルや本文となる内容を含んだ部分
</div>
<!-- google_ad_section_end -->


また、ユーザやプロバイダが不要部分だと明示している部分があれば、
クローラーは、その部分の内容を削除したあとに、
HTMLファイルから本文を抜き出すでしょう。

以下のような場合には、

<body>
<!-- google_ad_section_start(weight=ignore) -->
<div>。。。</div>
<!-- google_ad_section_end -->
<div>
タイトルや本文となる内容を含んだ部分
</div>
<!-- google_ad_section_start(weight=ignore) -->
<div>。。。</div>
<!-- google_ad_section_end -->
</body>


このように不要な部分は削除するでしょう。

<body>
<div>
タイトルや本文となる内容を含んだ部分
</div>
</body>


class="robots-nocontent"を組み込んだ以下のような場合には、

<body>
<!-- google_ad_section_start(weight=ignore) -->
<div class="robots-nocontent">。。。</div>
<!-- google_ad_section_end -->
<div>
タイトルや本文となる内容を含んだ部分
</div>
<!-- google_ad_section_start(weight=ignore) -->
<div class="robots-nocontent">。。。</div>
<!-- google_ad_section_end -->
</body>


Yahooのクローラーが解釈した結果が、
少なくとも以下のようになることが期待できるでしょう。

<body>
<!-- google_ad_section_start(weight=ignore) -->
<!-- google_ad_section_end -->
<div>
タイトルや本文となる内容を含んだ部分
</div>
<!-- google_ad_section_start(weight=ignore) -->
<!-- google_ad_section_end -->
</body>


クローラーは手元に残ったHTMLファイルの一部を解析する際に、
さらにそのHTMLを木構造と呼ばれるデータ構造に置き換えるでしょう。

<!-- -->


で囲まれた部分は、HTMLを描画する際に無視される部分なので、
木構造の構築に影響がないと考えればOKでしょう。

クローラーが解釈したHTMLファイルの構造が壊れていたら、
クローラーは正しく本文抽出ができない可能性が高まるでしょう。

そのため、クローラーがHTMLの一部を抽出したり、削除したときに、
HTMLのタグの対応が壊れないようにすると、
自分が狙った挙動に近い動きをクローラーがしてくれると思います。





このような対応をしたところ、本文の抽出精度が上がったような気がします。

ということで、記事にしてみました。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

入力フォームを作る際に気をつけたい7個のこと

会員登録フォームを作る際に気をつけたいポイントについて、
綺麗にまとめてある記事を読みました。

良いなぁ、と思ったのでメモ。

- Web2.0ナビ: 会員登録フォームを構築するポイント
-- http://www.web-20.net/2008/08/post_81.html

こうすれば登録数が劇的に上がる!とか、売上が上がる!といった方法はありませんが、少しだけユーザーに安心感を与えたり、ストレスを取り除いたりする方法はたくさんありますし、見ていたサイトでも登録しやすいサイトには共通点が多くありました。


すごく良い記事です。

会員登録フォームに限らず、
ありとあらゆる入力フォームを作成するときに、
気に留めておくと使いやすいフォームが作れそうです。

覚えきれないので、7個の特に大切に感じたことを抜き出します。

- ユーザが入力の目的を分かるようにしよう
- ユーザが入力中に安心できるようにしよう
- ログインIDはメールアドレスにしよう
- ユーザのマウスクリックが最小になるようにしよう
- ユーザが選択していないものは未選択にしよう
- 入力から完了までStepのうち、今どの状態なのか明示しよう
- ボタンは大きく!分かりやすく!

7個くらいなら、さっと確認できますし覚えていられます。

【関連リンク】
- ウノウラボ Unoh Labs: フォームのユーザビリティを改善する10のTips
-- http://labs.unoh.net/2007/08/10tips.html
- メールアドレスの誤入力防止 (ユーザビリティ実践メモ)
-- http://www.bebit.co.jp/memo/2005/12/post_4.html
- 会員登録の敷居を下げる入力フォームの作り方(PC編) - キャズムを超えろ!
-- http://d.hatena.ne.jp/wa-ren/20080410/p1

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |