深層学習を使った画像認識で漫画は認識されるかどうか試してみた

深層学習を使った画像認識で漫画は認識されるかどうか試してみた

Google ColaboratoryというGoogleの機械学習研究用ツールと
Keras で VGG16 を使って漫画が認識されるかどうか試してみました。
認知度が高そうなのは実験されていそうだから試さなくてもいいなと思うけど
漫画ってそんなに実験されてなさそうだし、コンピューターが認識できるのかなって
思ったので試してみました。

3つほど説明。

VGG16とはVisual Geometry Groupの略
オックスフォード大学で深層学習を使った画像認識を研究しているグループのようだ。
VGG16 というのは彼らが作った有名な多層ニューラルネット

http://kikei.github.io/ai/2018/08/05/vgg16.html

KerasとはPythonで書かれたオープンソースニューラルネットワークライブラリ

https://ja.wikipedia.org/wiki/Keras

ImageNetとはImageNet で訓練済みの VGG16 重みデータが VGG により公開されており、 Keras ライブラリでもそれを簡単にロードして使う機能がある。ImageNet は画像のデータセット(またはそれを収集するプロジェクト)で、 現時点で 1,400 万枚の画像があるらしい

http://kikei.github.io/ai/2018/08/05/vgg16.html

画像解析とは画像解析とは画像を解析し、そこに写っているものの意味を理解すること

https://www.imagazine.co.jp/%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E3%81%AB%E3%82%88%E3%82%8B%E7%94%BB%E5%83%8F%E8%A7%A3%E6%9E%90%EF%BD%9C%E3%81%9D%E3%81%AE%E4%BB%95%E7%B5%84%E3%81%BF/


以下このような形で結果を記載してます。


・使った画像
・結果
・感想

画像は私の描いた漫画原稿や素材を使っています。

1の画像

1の画像の結果

('n03598930', 'jigsaw_puzzle', 0.7757346)
('n03291819', 'envelope', 0.07227991)
('n02840245', 'binder', 0.034647815)
('n06359193', 'web_site', 0.026618175)
('n07565083', 'menu', 0.025095142)
('n06596364', 'comic_book', 0.01216284)
('n04070727', 'refrigerator', 0.0063571897)
('n06785654', 'crossword_puzzle', 0.005762785)
('n03938244', 'pillow', 0.003104424)
('n07248320', 'book_jacket', 0.0021074226)

感想:
jigsaw_puzzle(ジグソーパズル)77%と認識されました。それっぽいですよね。
Web_siteやmenuという結果もそのように見えなくはないですね。
一応「comic_book」という判断も0.1%かな?出てきたので漫画と認識されてよかったです。

2の画像

2の画像の結果

('n03291819', 'envelope', 0.32986873)
('n03388183', 'fountain_pen', 0.27631807)
('n04275548', 'spider_web', 0.13627928)
('n04033901', 'quill', 0.05496182)
('n03887697', 'paper_towel', 0.02513438)
('n04346328', 'stupa', 0.017802186)
('n15075141', 'toilet_tissue', 0.017341482)
('n03938244', 'pillow', 0.01092632)
('n02840245', 'binder', 0.010756153)
('n03000134', 'chainlink_fence', 0.009759581)

感想:
キャラだけになったらどうだ取ろうと思いやってみました。
キャラクターや人間とは認識されなかっ用で
全くなんだかわからない結果が出ました。
現段階では何だかわからん。ということでしょうか。

3の画像

3の画像の結果

('n06596364', 'comic_book', 0.2852754)
('n03291819', 'envelope', 0.18161452)
('n07248320', 'book_jacket', 0.12938571)
('n07565083', 'menu', 0.11572374)
('n06359193', 'web_site', 0.040716268)
('n02840245', 'binder', 0.029615385)
('n03598930', 'jigsaw_puzzle', 0.02389247)
('n03595614', 'jersey', 0.014146068)
('n03938244', 'pillow', 0.012462889)
('n04209239', 'shower_curtain', 0.010394828)

結果:
こちらは「comic_book」2%という結果が出ました!。

4の画像

4の画像の結果

('n06596364', 'comic_book', 0.37031528)
('n07248320', 'book_jacket', 0.26245967)
('n03598930', 'jigsaw_puzzle', 0.09637321)
('n06359193', 'web_site', 0.091597065)
('n06785654', 'crossword_puzzle', 0.061762314)
('n03733281', 'maze', 0.030551653)
('n07565083', 'menu', 0.02614258)
('n03291819', 'envelope', 0.0084566325)
('n03938244', 'pillow', 0.0021363373)
('n03494278', 'harmonica', 0.0020854236)

感想:
こちらも「comic_book」3%。
3の画像と同じ所はなんだろうと比べて、comicと認識されるのは
コマ割りがあるのと、人物の頭がワクで切れないあたりが関連あるのかなと
勝手に思いました。

5の画像

5の画像の結果

('n03733281', 'maze', 0.09064066)
('n02843684', 'birdhouse', 0.07241243)
('n06874185', 'traffic_light', 0.06579888)
('n03598930', 'jigsaw_puzzle', 0.0595733)
('n03126707', 'crane', 0.0539311)
('n03000134', 'chainlink_fence', 0.04358856)
('n06794110', 'street_sign', 0.04331651)
('n03947888', 'pirate', 0.03452509)
('n02708093', 'analog_clock', 0.027971776)
('n02971356', 'carton', 0.027476886)

感想:
maze(迷路)0.9% birdhouse(鳥の巣)0.7% 笑!
学校とは認識されなかったです。
鳥の巣は笑いました。見えますね。

6の画像

6の画像の結果

('n04429376', 'throne', 0.6409162)
('n04532106', 'vestment', 0.04454257)
('n03028079', 'church', 0.03998101)
('n03877845', 'palace', 0.039249945)
('n02699494', 'altar', 0.032771293)
('n03788195', 'mosque', 0.024636332)
('n03781244', 'monastery', 0.020600697)
('n03998194', 'prayer_rug', 0.012699137)
('n02708093', 'analog_clock', 0.009022908)
('n04346328', 'stupa', 0.008685973)

感想:
今まで白黒原稿なおで、カラーはどうかと思いやってみました。
結果、
throne(王座)64%
church(教会)palace(宮殿)mosque(モスク)monastery(修道院)
・・・十字架置くとこういう系統に認識されるのでしょうかね。
王座はなんだろう、何を認識したのかわからないけれどワードを聞いて
それっぽい雰囲気は感じますね。
一応これ漫画の表紙なんですが、関連されるワードは出てきていませんね。
漫画絵のキャラクターやタイトル、氏名は関連付けされないのかな?
現状無視って感じです。(細かすぎるか)
時計もデザイン上、途切れているから時計と判断されなかったのかワードが出てきませんね。

7の画像

7の画像の結果

('n04548280', 'wall_clock', 0.08101501)
('n03908714', 'pencil_sharpener', 0.07227206)
('n07930864', 'cup', 0.044564124)
('n07693725', 'bagel', 0.04210638)
('n04277352', 'spindle', 0.042019233)
('n03065424', 'coil', 0.03913509)
('n07836838', 'chocolate_sauce', 0.032288853)
('n09229709', 'bubble', 0.03046272)
('n03937543', 'pill_bottle', 0.030299036)
('n04286575', 'spotlight', 0.02569716)

感想:
wall_clock(壁時計)0.8%
なぜかこちらは時計と認識されました。丸い形だからかな。
cup(カップ)bagel(ベーグル)coil(コイル)bubble(泡)
・・・やっぱ丸い形で判断されてそう。
これ私のアイコンですけど、女の子とかキャラクターとかそういうのは
出てきませんねえ。

8の画像(調査の際はsampleの黄色い文字は外しています)

8の画像の結果

('n03729826', 'matchstick', 0.07044984)
('n01930112', 'nematode', 0.024964252)
('n03666591', 'lighter', 0.022424972)
('n03196217', 'digital_clock', 0.015931612)
('n02948072', 'candle', 0.015066982)
('n04286575', 'spotlight', 0.015029874)
('n03916031', 'perfume', 0.010416426)
('n03637318', 'lampshade', 0.009711596)
('n04376876', 'syringe', 0.009380011)
('n04141076', 'sax', 0.0086614005)

感想:
matchstick(マッチ棒)lighter(ライター)candle(キャンドル)spotlight(スポットライト)
perfume(香水)・・・以上の結果のようなムーディーな物はどこにも見当たらないのですが・・・
全然バスって認識されなかった。
ちなみに渋谷駅バスです。pngデータで無料DL配布してます。(下記にDLサイト記載してます)

9の画像

9の画像の結果

('n02834397', 'bib', 0.09021196)
('n03595614', 'jersey', 0.07888706)
('n06596364', 'comic_book', 0.07826285)
('n03291819', 'envelope', 0.07748851)
('n07248320', 'book_jacket', 0.05134718)
('n04548280', 'wall_clock', 0.04035067)
('n02730930', 'apron', 0.037132774)
('n04522168', 'vase', 0.028098771)
('n03877472', 'pajama', 0.025709521)
('n04370456', 'sweatshirt', 0.021888353)

感想:
カラーコマ割り漫画ならどうか!と思って試してみましたが
白黒漫画の時とあまり変わらなかったですね。
一応「comic_book」とは認識されたようです。

以上の結果です。
結果でどんな所がわかったか。

・漫画原稿は、少しは漫画と認識されているようす。
・細かくはmangaというより「comic_book」と
呼ばれているようです。

・ジグソーパズルのワードが8つの画像中4つ出ていて
漫画ってジグソーパズルと判断されるようですね。
似てるといえば似ていますね。

・ペン画の背景に関しては学校やバスというわかりやすいものでも認識もされない。
・カラーか白黒漫画家はあんまり関係なさそう。
・コマ割りはcomicとなんとなくですが認識される基準にありそう。

今回はお試しで少しだけ、さらに自分の漫画やイラストを使っての結果です。
もっと上手に描く人の作品で試したらどうなるかもみたいですね。
深層学習は私も始めたばかりなので小さなことしかできませんが、
今後また何か面白そうな調査結果があれば公開します。

最新情報をチェックしよう!
>松元美智子クリエイティブブログ💖公式

松元美智子クリエイティブブログ💖公式

松元美智子 1996年少女漫画雑誌「ちゃお」デビュー/漫画家/イラストレーター/3DCGゲームアニメーター/書籍執筆/投資家/Python/UE5/最新刊「少女マンガの作り方」/Web「松元美智子クリエイティブブログ♡公式」で過去の漫画や制作に役立つ情報毎日投稿中/法政大学経済学部経済学科通信教育部生/メンタル心理カウンセラー

CTR IMG