https://komachi.hatenablog.com/entry/20090514/p1

昨日今日と情報爆発のキックオフシンポジウムがあり、たとえば各分野のトップ会議のサーベイ報告がずっとあったりしたそうで、内容が Twitter で更新されたりするのを見ると、行ってみたかったなと思ったりもしたのだが、それはそれとして、豊田さんがWWW2009のサーベイ@情報爆発キックオフというエントリで資料を公開されるとともに、感想を書いてらっしゃる。

全体的に、Yahoo!, MSの論文が多く、ちょっとおもしろ目のアイデアを、検索エンジン会社の実データで実験してしっかり評価するという論文が多く通っている印象です。大学の教員が企業を兼務していたり、インターンの学生が検索エンジン会社に行って仕事したのをまとめていたりと、企業と大学の連携がうまくいっているということでしょうね。

これに関しては完全に同意で、この分野(ウェブ系)は例外的に企業と大学の連携が割とうまくいっているのだと思う。自分も Microsoft Research と Yahoo! 研究所それぞれに3ヶ月ずつ行って(前者はアメリカ、後者は日本だが)検索エンジン会社の実データを使わせてもらい、いずれもおもしろい体験をすることができたので、他の学生にもぜひ企業でのインターンシップや共同研究の機会を捕まえて行ってみてはと勧めている。

Google も日本こそあまり研究の話は聞かない(WWW 2009 ではなくSIGIR 2009 でどうだったかは先日書いた)が、本社ではインターンに研究させて発表させるという(Microsoft Research や Yahoo! Research と同じような)リサーチインターンもちらほらと見かけるし、業界トップ3がそれぞれそれなりに研究成果を公表しつつしのぎを削るという、おもしろいサイクルになっていると思う。ただ、id:taroleo さんがブックマークのコメントで(Microsoft とか Yahoo! の論文数が多く見える件について)

論文数でみればそうかもしれないけれど、first authorとしていかに研究するか、そのトレーニングをどう詰むかの方が大事のようにも思う。優秀な研究者の頭数の割には論文数が少ないとも見れるし

と書かれたのは確かにその通りで、リサーチインターンに first author として研究をやらせて論文数が増える、というのは(企業と大学がうまく協業している例と見ることもできるが)組織としてはちゃんとトレーニングできていない、ということになるのかもなぁ。

昨日の発表でも kmurakami さんから「データは公開はされないんですか」と質問があったが、検索のログデータはプライバシーの問題があったりなんだりと、「どのように匿名化するか」というだけで何本も論文があるくらいのトピックだったりして、けっこう面倒くさい。とはいえ、今年の WSDM という国際会議では Microsoft が検索ログのデータセットを公開するという話があったと聞いたし、実際たとえばWSCD09(Workshop on Web Search Click Data 2009)では

The Shared Dataset
Based on proposals in September, some workshop participants were granted access to a shared dataset. It is a MSN Search query Log excerpt (RFP 2006 dataset):

15 million queries

Sampled over one month

Queries from the US site (mostly English)

Per query attributes included:

Session ID

Time-stamp

Query string

Number of results on results page

Results page number

Data per query for each result clicked:

URL

Associated query

Position on results page

Time-stamp

Due to the type of assets under consideration, the principal investigator was asked to sign a data licensing agreement before accessing the data. The terms of the license will allow for publication of results but restricts redistribution of the data and publication of detailed excerpts of the data.

ということで、一応ライセンスに同意する必要はある(再配布禁止)がデータはアクセスすることもでき、論文も書くことができるので、かなり論文を書くことに検索系の会社(特に Microsoft)は寛容なのではないかと思う。(上記のクリックスルーデータ、なにが公開されているのか見てみると、あるクエリに対する検索結果でクリックされたアドレスとタイムスタンプ、あと結果ページの場所が公開されているが、検索エンジンの精度を上げたければ上位にどういうクエリが来ているときこれを選択したかという情報が役立つことが予測されるので、そういう重要なデータは入っていないことが分かる。なにを出してよくてなには出さない方がいいか、けっこう注意深く選んでいるのだろう)

まあ、検索では Google がクローズドなやり方で世界的に覇権を握ってしまっているので、自分たちがクローズドな Windows に対してオープンな Linux とか Mac が攻勢をかけるように、検索では自分たちが追い上げる立場だからオープンにしている、ということなのかもしれないけど……