フェイク動画の摘発へ:NIIらが顔の偽造動画を判定するネットワークMesoNetを提案
課題
人工知能が作成するフェイク動画は社会的に大きな問題となりつつあります。誰でも簡単にリアリティのあるフェイク動画を作ることが可能になり、人間の力だけではそれらを本物か偽物かを判断することは困難です。また、インターネット上の動画は画像が圧縮され劣化しているために,画像のノイズ等から偽造を判定することも不可能と言っても過言ではありません。
そこで、国立情報学研究所とパリ東マルヌ・ヴァレ大学の研究グループは、動画中の顔画像が本物か偽物かを判定するネットワークMesoNetを提案しました
解決方法
高い品質のフェイク動画を作成できるDeepFakesとFace2Faceにより作られた動画に対して顔の偽造について成否判定を行いました。提案する手法は4層のモジュールをからなるコンパクトなCNNを用います。顔画像の入力に対して本物か偽物かを判定するように学習します。
学習を行うためにデータを収集しました。DeepFakeに対してはインターネト上で一般公開されている動画を収集し、フェイク動画を作成することで、8,000枚の偽物の顔画像と11,509枚の本物の顔画像を収集しました。Face2Faceに対しては、画像やビデオの偽造について研究するためのデータセットThe FaceForensics Datasetから収集した7,500枚の偽物の顔画像と7,500枚の本物の顔画像を収集しました。収集したデータを学習用とテスト用に分けて学習を行いました。ネットワークがコンパクトなため、数時間の学習で十分な性能を獲得しました。
DeepFakes:顔移植を行う手法。深層学習により元の顔を別人の顔に変化させる。
Face2Face:表情変換を行う手法。元の顔画像の表情を変化させる。
どうなったか
判定精度はDeepfaceが98.4%、Face2Faceが95.3%となりました。また、学習されたネットワークの最後の畳み込み層の出力の平均値を可視化することで、ネットワークがどのように判定を行ったのかを解析しました。その結果、目と口が判定に重要な役割を果たしていることがわかりました。
まとめ
高品質のフェイク動画を作成可能なDeepFakesとFace2Faceに対して高い精度で偽造判定を可能にしました。また、学習されたモデルを可視化することで,どの部位を判断根拠としているかを推察しました。このようにネットワークを理解し、限界と品質を評価できることが肝心であるとしています。
今回紹介した論文は2018 IEEE International Workshop on Information Forensics and Security(WIFS 2018)で発表される予定です。