深層学習で数式検索を実現できないか
情報処理界隈では今、深層学習(ディープラーニング、Deep Learning)が熱いらしい。囲碁で強いコンピュータが作れたとか、猫を見分けることができたとか、与えられた幾つかの単語から画像を生成することができたとか、情報処理学会のニコ生を見たりすると興味深い結果がいくつもある。やはりアメリカが強いらしく、日本も遅れないように政府が色々支援するらしいけどまぁいつものように一部だけ細々と生き残る感じになるんじゃないかな。まぁそんな話はどうでもよくて、プログラミングができない自分でも何かできないかという妄想記事。
さて、深層学習がもたらしたブレイクスルーは特徴量の計算が自動化されたことにある。今まで苦労して考えてきた盤面の評価や猫についての情報などを与えるのではなく、「人間が与えてきた評価」の膨大なデータさえ与えれば、そこから勝手に判断の要となるパラメータを見つけてくる。囲碁の方はプロの対局を初期段階で与えているし、猫の方はYouTubeの動画を沢山用意しているはず。だから決して万能なものではなくて、膨大な良質のデータとそれを計算する強力なコンピュータが必要となる。つまり今新しく作ったゲームを深層学習にかけても従来の機械学習以上にはならないと思われる。
コンピュータの方はともかくとして、個人で遊ぶために最大のネックとなるのはデータの方だろう。現状個人で利用できるデータはそう多くない、逆に言えばどんなデータを持ってこれるかが一番の工夫のしどころではある。で、arXiv探訪なんてブログ名にしているくらいだから*1無数の論文を使って遊んでみたい。そこで一つ考えたのは、数式検索を作れないかということだ。使う文字が違ったり、順番が逆だったりして数式に特徴量を与えることは凄く難しい。でもそれっぽい式というのは一目見ただけで人間が「同じ式だよね」と判断できることも多い。このような事象に対しては深層学習が有効ではないだろうか。手書きで書いた式を検索して、似た感じの式を列挙することができたら多分みんな嬉しいと思う。
*1:そういえば全然探訪してないな……。