https://snowman-88888.hatenablog.com/entry/2020/08/04/041603

品川です。MIRU2020に参加しているのでいくつか気づいたことなど。

集中力、持たない

オンラインから接続しているためか、並列でSlack（MIRU本会議用）とtwitterを開けてしまうので、そのままにしておくと流速が速くて楽し過ぎて本番の発表に集中できない問題がありました・・・初日はだいぶ要点を聞き逃してしまいました・・・。
発表に集中するために、明日からはセッション中は両アプリを閉じてノートに発表の要点を書き下しながら聞くことにします。マルチタスクは厳しい。

インタラクティブセッションという名の超ロングオーラルが聞いていてつらい

Slack内でも議論が上がっていましたが、インタラクティブセッションでの1周あたりが重いご発表が多いです。1件の発表だけで15~20分くらいかかってます。

特定の発表だけ聞きに来たという目的の人にはマッチすると思いますが、広く浅く色々な研究の情報を仕入れたい私には非常にツライです。例年のポスター発表と同じで最大でも5分で一周まとめて欲しい気持ちがあります。
途中から入ってきた人にも優しくないですし、もっと良いやり方があると思います。

例えば、slackやzoomのチャット欄に外部資料として発表のスライドやポスターのPDFを貼るなどの工夫があると良いと思います。
実際にやられていた他の工夫としては、思い切ってスライド1枚で説明して、詳しい内容はオーラルの発表や論文を見てください、としているご発表もありました。こちらの方が質問する方としてはやりやすかったので一つの手だと思いました。
従来のインタラクティブセッションと比べると、聴衆に伝えられる情報量には限りがあるように思います。
少ない情報量でいかに印象に残すか、あとで論文を読んでもらうかに焦点を当てた方が良さそうです。私は8/5の13時からのインタラクティブセッションでの発表なので、情報を絞って簡潔な発表にしようかなと思います。

発表について

チュートリアルQA 鈴木大慈 (東京大学) 深層学習の数理：カーネル法，スパース推定との接点

鈴木先生による深層学習の理論の最近の進展についてのチュートリアル講演です。完全にヤムチャの気分になれてとても良かったです。内容としては、タイトルにもあるようにカーネル法とスパース推定との根っこの共通点や違いについて解像度の高い説明をされてました。一回目はヤムチャだったので、公開されてる8/9までの間に腰を据えてもう一度観直そうと思います。
（Gradient boostingの方はまだ観てないのでこれから楽しみです）

OS1-1B-2 邵文 (東大), 川上玲 (東工大), 苗村健 (東大) 映像生成による時間順序の並べ替えで学習した時空間コンテキストに基づく異常検知

ロングオーラルのご発表を聴講しました。時間順序をバラバラにされた映像情報から元の時間順序を生成ベースでソートし直す学習を行うことで、生成が難しいフレームを異常とする手法です。生成の難しさを異常の指標とするのは最近よくあるので、これを動画でやったのは良い発想だなと思いました。

OS1-1B-3 杉山優, 岡本開夢, 柳井啓司 (電通大) 意味と形状の分離によるマルチモーダルレシピ検索及び画像生成

ロングオーラルのご発表を聴講しました。MUNITで意味情報と形状情報を分けて生成の精度を上げることで、レシピ検索の性能が向上する結果が得られたとのことです。良い結果が出ていて良いと思うのですが、スコアの違いが既存手法と比べてどこらへんに出ているのかはよく分かりませんでした。サンプルごとの先行研究との比較の結果がいくつか見たかったです（見逃したかも）。論文を見ると図４に一例が載っていて、どうやら先行研究はそもそも形状もテクスチャもめちゃくちゃなので、その辺の違いが効いていそうです。
（もう少しdetailedな部分での勝負かと思ってたがそうではなかった・・・）
segmentationに条件づけられた生成ならdetailedな画像が生成できると思うのですが、そうしないのは問題設定的にsegmentationのsemantic labelが得られないようなレシピ画像にも適用したいというモチベーションがあるのでしょうか？ちょっと気になります。

OS1-1A-5 西村和也, 林田純弥 (九大), Chenyang Wang, Dai Fei Elmer Ker (香港中文大), 備瀬竜馬 (九大) 弱教師付き学習に基づいた細胞トラッキング

ロングオーラルのご発表を聴講しました。細胞の動きをトラッキングするのに、学習済みの物体検出ネットワークを利用して教師データとして学習する手法です。
擬似的な教師データで誤りを含むということで弱教師ありということのようです。基本的にはフレーム間における近い位置の細胞に対して中間層の同じ位置のニューロンが反応すると仮定して、そのニューロンからのbackpropにより変化する画像の一部分をマスクとして設定し、マスク内の細胞を同一の細胞として判断してトラッキングを学習するようです。 limitationとして、細胞は分裂したりするので、その場合には対応できなかったり、オクルージョンがあると少し難しいとのことでした。
教師データを擬似的に作って既存の学習モデルでなんとかするというアプローチは私も好きなので面白かったです。マスクの作り方がちょっと頭になかったので面白かったです。

OS1-1B-6 Ryuhei Hamaguchi (AIST), Yasutaka Furukawa (Simon Fraser Univ.), Masaki Onishi, Ken Sakurada (AIST) Graph Residual Networks for Semantic Segmentation

ロングオーラルですが、聞き逃してしまったのでインタラクティブセッションで聴講しました。ノードをsegmentationのガイドとするsegmentationです。従来のグリッドベースの手法と比べて、ノードの位置が学習の進度に応じて適応的に変化するので、空などの一様なセマセグには疎なノード配置、オブジェクトなどの込み入った構造に対しては密なノード配置となるように学習されます。精度、計算効率の面で従来手法よりも良いようです。graphベースの手法はCVPR2020の論文でさんざん読んだので、興味深いご発表でした。

暦本先生の招待講演

これからのHCI研究についてのご講演でした。AI Integrationは個人的にも面白いなと思います。個人的にも、人間の能力はデバイスでもっと拡張できると面白いなと思います。

OS1-3A-2 幡谷龍一郎 (東大, 理研AIP), ズデネクヤン (東大), 美添一樹 (理研AIP), 中山英樹 (東大) MADAO: データ拡張最適化のためのメタ的アプローチ

ロングオーラル、インタラクティブセッション両方聴講しました。Faster Autoaugmentの幡谷さんの新作でした。CNNの学習とデータ拡張戦略を最適化するのはバラバラに最適化する必要があり、個々の学習も計算量が大きいという問題がありましたが、提案するMADAOでは同時最適化することができるとのことです。勾配計算にはヘッセ行列の逆行列が出てくるのですが、これをノイマン級数で近似して解決しており、へぇ～っとなりました。名前はMADAOなのにちゃんと仕事しててすごいなという気持ちです。

OS1-3A-3 丸山祐矢, 平川翼, 山下隆義, 藤吉弘亘 (中部大) Deep Q-Networkによるロボットの自律移動におけるAttention branchによる判断根拠の獲得

ロングオーラルのご発表を聴講しました。DQNで一度学習したネットワークを固定して、DQNの出力のactionを教師データと見なして教師あり学習を行い、Attention branchを学習して行動の判断根拠を得るというものです。straight forwardな仕組みでなるほどなとなりました。

OS1-3B-4 高橋龍平 (京大), 橋本敦史 (OSX), 薗頭元春, 飯山将晃 (京大) 事前分布シフトを考慮した変分自己符号化器による教師なしドメイン適応

ロングオーラルのご発表もありましたが、インタラクティブセッションで聴講しました。事前分布シフトとは、ドメイン間の持つラベル情報が大きく異なることを指すとのことです。MNISTなら一方は色んな数字、もう一方が色々な７だけ、といったような場合を指すようです。事前分布シフトの問題を解決するため、CycleGANで同じラベルの各ドメインのデータを生成してペアとし、姿勢推定問題におけるドメイン適応を頑健に行う方法のようです。ちょっと他の発表も聞きたくて途中で抜けたため最後までは聞けませんでした。