ML_hack!2017 with 電通大 ~第2回~ 題材の検討

2017年の夏、私たちインターン生は、電気通信大学の学生団体であるレッドインパルス株式会社が主催する「ML_hack!」というイベントに参加しました。「ML_hack!」では勉強会やハッカソンなどを行い、自社は協賛企業として協力させて頂きました。
この記事ではハッカソンに関して、インターン生がどのような取り組みをしたのかをご紹介していきたいと思います。
今回のハッカソンは、機械学習を題材とした開発を行い、その成果を発表するというものでした。eF-4のインターン生は筆跡認証アプリの作成を行うことにし、開発に取り組みました。ML_hack!の第2回、第3回の記事ではその経過を紹介していきます。
ML_hack!関連記事
第2回 題材の検討
この記事は「第2回 題材の検討」です。ここでは案出しから題材決定までの経緯を追っていきます。
目次
1.案出し
はじめに、開発を行う題材を決定するため、ハッカソンへの参加意思があるインターン生から題材案を募集しました。
この時出た案は
① 画像認識を用いた予測・判定
② 将棋ゲーム(以前インターン生が作成したものを再利用)
③ 遺伝的アルゴリズムを用いた混雑予測
でした。
また、これらの案の評価基準として、インパクトの大きさ、制作難易度、マネタイズのしやすさを考えることとしました。評価基準をもとに各案の利点と問題点を考えたところ、以下のようになりました。
① 画像認識を用いた予測・判定
利点…実装のイメージが付きやすいため作りやすい、インパクトが十分ある、マネタイズしやすい
問題点…データの収集とラベリングが大変
② 将棋ゲーム
利点… データセットの用意が必要ない、過去に作成したものを再利用できる、インパクトが十分ある
問題点…マネタイズのイメージがしにくい
③ 遺伝的アルゴリズムを用いた混雑予測
利点… マネタイズがしやすい、実装のイメージがつきやすい
問題点…データセットが見つかっていない
2.テーマの決定
それぞれの案の利点と問題点を洗い出し、話し合いを行った結果、今回は機械学習で扱いやすい画像認識を取り上げることにしました。
画像認識を用いるものとしては、次の3つの案が出ていました。
・顔の画像から他の身体的特徴を予測
・服の画像から値段を予測
・絵師の判定
なかでも服の値段予測はデータセットの収集が比較的容易だろうと予想されたことから、この案を採用することに決定しました。
他の案に関しては、
・身体的特徴の予測は、実装のイメージがやや湧きにくく、マネタイズの方法も限られる
・絵師の判定は、似たようなものが既にありインパクトに欠ける
といった理由から不採用になりました。
3.問題の浮上
しかし、実装に向けて動き出そうとしたところ、話し合いの段階では挙げられなかった多くの問題点が浮上してきました。
その問題点とは、
・人が映っている画像、背景がばらばらの画像は服だけを認識する処理が必要となり、難易度が高い
・服のみの画像を集めようとするとデータ数が少なくなる
・服の値段には変動がある
といったものでした。なかでもデータセットの問題は、機械学習を扱う上で無視できないものでした。
これらの問題点から服の値段予測は困難だと判断し、画像認識を用いるというテーマはそのままに、改めて題材を決め直すことになりました。
4.題材の決定
画像認識を用いた上で問題点を克服できそうな題材を考えるため、再度話し合いを行いました。そこで出た案が、「筆跡判定」です。
筆跡判定は、自分たちで文字を書けば良いためデータが集めやすく、書いたものを反転や拡大・縮小することで大量のデータ収集が可能であることから、服の値段予測で問題となっていたデータセットの問題をクリアしていました。
また、筆跡判定を利用する方法として本人認証に用いるという案が出され、マネタイズの方法に関しても様々な応用が考えられました。
こうして、最終的に画像認識で筆跡の判定を行い、それを本人認証に利用したアプリを開発するという形にまとまりました。
5.まとめ
今回は、ハッカソンで開発するアプリの題材が決まるまでをご紹介しました。
この後は実際にアプリの開発に移っていきました。そこでの課題や解決法などについては、次の記事「ML_hack!2017 with 電通大 ~第3回~ アプリ開発」をご覧ください。

IT業界について知りたくて、インターンを始めました。
まだまだ未熟ですが、力をつけられるよう頑張っていきます!