深層学習を使った画像認識で漫画は認識されるかどうか試してみた

2022年1月7日
2022年1月7日
プログラミングAI
Deep learning, Googleの機械学習研究用ツール, Keras, VGG16, 深層学習, 深層学習を使った画像認識, 深層学習漫画, 漫画, 漫画Deeplearning, 漫画画像認識

プログラミングAI

1 深層学習を使った画像認識で漫画は認識されるかどうか試してみた

深層学習を使った画像認識で漫画は認識されるかどうか試してみた

Google ColaboratoryというGoogleの機械学習研究用ツールと
Keras で VGG16 を使って漫画が認識されるかどうか試してみました。
認知度が高そうなのは実験されていそうだから試さなくてもいいなと思うけど
漫画ってそんなに実験されてなさそうだし、コンピューターが認識できるのかなって
思ったので試してみました。

３つほど説明。

VGG16とはVisual Geometry Groupの略
オックスフォード大学で深層学習を使った画像認識を研究しているグループのようだ。
VGG16 というのは彼らが作った有名な多層ニューラルネット
http://kikei.github.io/ai/2018/08/05/vgg16.html

KerasとはPythonで書かれたオープンソースニューラルネットワークライブラリ
https://ja.wikipedia.org/wiki/Keras

ImageNetとはImageNet で訓練済みの VGG16 重みデータが VGG により公開されており、 Keras ライブラリでもそれを簡単にロードして使う機能がある。ImageNet は画像のデータセット(またはそれを収集するプロジェクト)で、現時点で 1,400 万枚の画像があるらしい
http://kikei.github.io/ai/2018/08/05/vgg16.html

画像解析とは画像解析とは画像を解析し、そこに写っているものの意味を理解すること
https://www.imagazine.co.jp/%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E3%81%AB%E3%82%88%E3%82%8B%E7%94%BB%E5%83%8F%E8%A7%A3%E6%9E%90%EF%BD%9C%E3%81%9D%E3%81%AE%E4%BB%95%E7%B5%84%E3%81%BF/

以下このような形で結果を記載してます。

・使った画像
・結果
・感想

画像は私の描いた漫画原稿や素材を使っています。

1の画像

１の画像の結果

('n03598930', 'jigsaw_puzzle', 0.7757346)
('n03291819', 'envelope', 0.07227991)
('n02840245', 'binder', 0.034647815)
('n06359193', 'web_site', 0.026618175)
('n07565083', 'menu', 0.025095142)
('n06596364', 'comic_book', 0.01216284)
('n04070727', 'refrigerator', 0.0063571897)
('n06785654', 'crossword_puzzle', 0.005762785)
('n03938244', 'pillow', 0.003104424)
('n07248320', 'book_jacket', 0.0021074226)

感想：
jigsaw_puzzle（ジグソーパズル）７７％と認識されました。それっぽいですよね。
Web_siteやmenuという結果もそのように見えなくはないですね。
一応「comic_book」という判断も0.1％かな？出てきたので漫画と認識されてよかったです。

２の画像

2の画像の結果

('n03291819', 'envelope', 0.32986873)
('n03388183', 'fountain_pen', 0.27631807)
('n04275548', 'spider_web', 0.13627928)
('n04033901', 'quill', 0.05496182)
('n03887697', 'paper_towel', 0.02513438)
('n04346328', 'stupa', 0.017802186)
('n15075141', 'toilet_tissue', 0.017341482)
('n03938244', 'pillow', 0.01092632)
('n02840245', 'binder', 0.010756153)
('n03000134', 'chainlink_fence', 0.009759581)

感想：
キャラだけになったらどうだ取ろうと思いやってみました。
キャラクターや人間とは認識されなかっ用で
全くなんだかわからない結果が出ました。
現段階では何だかわからん。ということでしょうか。

3の画像

3の画像の結果

('n06596364', 'comic_book', 0.2852754)
('n03291819', 'envelope', 0.18161452)
('n07248320', 'book_jacket', 0.12938571)
('n07565083', 'menu', 0.11572374)
('n06359193', 'web_site', 0.040716268)
('n02840245', 'binder', 0.029615385)
('n03598930', 'jigsaw_puzzle', 0.02389247)
('n03595614', 'jersey', 0.014146068)
('n03938244', 'pillow', 0.012462889)
('n04209239', 'shower_curtain', 0.010394828)

結果：
こちらは「comic_book」２％という結果が出ました！。

4の画像

4の画像の結果

('n06596364', 'comic_book', 0.37031528)
('n07248320', 'book_jacket', 0.26245967)
('n03598930', 'jigsaw_puzzle', 0.09637321)
('n06359193', 'web_site', 0.091597065)
('n06785654', 'crossword_puzzle', 0.061762314)
('n03733281', 'maze', 0.030551653)
('n07565083', 'menu', 0.02614258)
('n03291819', 'envelope', 0.0084566325)
('n03938244', 'pillow', 0.0021363373)
('n03494278', 'harmonica', 0.0020854236)

感想：
こちらも「comic_book」３％。
3の画像と同じ所はなんだろうと比べて、comicと認識されるのは
コマ割りがあるのと、人物の頭がワクで切れないあたりが関連あるのかなと
勝手に思いました。

5の画像

5の画像の結果

('n03733281', 'maze', 0.09064066)
('n02843684', 'birdhouse', 0.07241243)
('n06874185', 'traffic_light', 0.06579888)
('n03598930', 'jigsaw_puzzle', 0.0595733)
('n03126707', 'crane', 0.0539311)
('n03000134', 'chainlink_fence', 0.04358856)
('n06794110', 'street_sign', 0.04331651)
('n03947888', 'pirate', 0.03452509)
('n02708093', 'analog_clock', 0.027971776)
('n02971356', 'carton', 0.027476886)

感想：
maze（迷路）０.９％　birdhouse（鳥の巣）０.７％　笑！
学校とは認識されなかったです。
鳥の巣は笑いました。見えますね。

６の画像

6の画像の結果

('n04429376', 'throne', 0.6409162)
('n04532106', 'vestment', 0.04454257)
('n03028079', 'church', 0.03998101)
('n03877845', 'palace', 0.039249945)
('n02699494', 'altar', 0.032771293)
('n03788195', 'mosque', 0.024636332)
('n03781244', 'monastery', 0.020600697)
('n03998194', 'prayer_rug', 0.012699137)
('n02708093', 'analog_clock', 0.009022908)
('n04346328', 'stupa', 0.008685973)

感想：
今まで白黒原稿なおで、カラーはどうかと思いやってみました。
結果、
throne（王座）６４％
church（教会）palace（宮殿）mosque（モスク）monastery（修道院）
・・・十字架置くとこういう系統に認識されるのでしょうかね。
王座はなんだろう、何を認識したのかわからないけれどワードを聞いて
それっぽい雰囲気は感じますね。
一応これ漫画の表紙なんですが、関連されるワードは出てきていませんね。
漫画絵のキャラクターやタイトル、氏名は関連付けされないのかな？
現状無視って感じです。（細かすぎるか）
時計もデザイン上、途切れているから時計と判断されなかったのかワードが出てきませんね。

7の画像

7の画像の結果

('n04548280', 'wall_clock', 0.08101501)
('n03908714', 'pencil_sharpener', 0.07227206)
('n07930864', 'cup', 0.044564124)
('n07693725', 'bagel', 0.04210638)
('n04277352', 'spindle', 0.042019233)
('n03065424', 'coil', 0.03913509)
('n07836838', 'chocolate_sauce', 0.032288853)
('n09229709', 'bubble', 0.03046272)
('n03937543', 'pill_bottle', 0.030299036)
('n04286575', 'spotlight', 0.02569716)

感想：
wall_clock（壁時計）０.８％
なぜかこちらは時計と認識されました。丸い形だからかな。
cup（カップ）bagel（ベーグル）coil（コイル）bubble（泡）
・・・やっぱ丸い形で判断されてそう。
これ私のアイコンですけど、女の子とかキャラクターとかそういうのは
出てきませんねえ。

8の画像(調査の際はsampleの黄色い文字は外しています)

８の画像の結果

('n03729826', 'matchstick', 0.07044984)
('n01930112', 'nematode', 0.024964252)
('n03666591', 'lighter', 0.022424972)
('n03196217', 'digital_clock', 0.015931612)
('n02948072', 'candle', 0.015066982)
('n04286575', 'spotlight', 0.015029874)
('n03916031', 'perfume', 0.010416426)
('n03637318', 'lampshade', 0.009711596)
('n04376876', 'syringe', 0.009380011)
('n04141076', 'sax', 0.0086614005)

感想：
matchstick（マッチ棒）lighter（ライター）candle（キャンドル）spotlight（スポットライト）
perfume（香水）・・・以上の結果のようなムーディーな物はどこにも見当たらないのですが・・・
全然バスって認識されなかった。
ちなみに渋谷駅バスです。pngデータで無料DL配布してます。（下記にDLサイト記載してます）

9の画像

９の画像の結果

('n02834397', 'bib', 0.09021196)
('n03595614', 'jersey', 0.07888706)
('n06596364', 'comic_book', 0.07826285)
('n03291819', 'envelope', 0.07748851)
('n07248320', 'book_jacket', 0.05134718)
('n04548280', 'wall_clock', 0.04035067)
('n02730930', 'apron', 0.037132774)
('n04522168', 'vase', 0.028098771)
('n03877472', 'pajama', 0.025709521)
('n04370456', 'sweatshirt', 0.021888353)

感想：
カラーコマ割り漫画ならどうか！と思って試してみましたが
白黒漫画の時とあまり変わらなかったですね。
一応「comic_book」とは認識されたようです。

以上の結果です。
結果でどんな所がわかったか。

・漫画原稿は、少しは漫画と認識されているようす。
・細かくはmangaというより「comic_book」と
呼ばれているようです。

・ジグソーパズルのワードが８つの画像中４つ出ていて
漫画ってジグソーパズルと判断されるようですね。
似てるといえば似ていますね。

・ペン画の背景に関しては学校やバスというわかりやすいものでも認識もされない。
・カラーか白黒漫画家はあんまり関係なさそう。
・コマ割りはcomicとなんとなくですが認識される基準にありそう。

今回はお試しで少しだけ、さらに自分の漫画やイラストを使っての結果です。
もっと上手に描く人の作品で試したらどうなるかもみたいですね。
深層学習は私も始めたばかりなので小さなことしかできませんが、
今後また何か面白そうな調査結果があれば公開します。

漫画「TIME2：目撃者の宿命」無料公開しました

路線バス（漫画背景透過素材）無料ダウンロード始めました

「ソーシャルVR国勢調査2021」世界中のVRユーザー大規模アンケート、生活実態お砂糖関係ファントムセンス他にも・・・

最新情報をチェックしよう！

フォローする

プログラミングAIの最新記事8件

松元美智子クリエイティブブログ💖公式

松元美智子 1996年少女漫画雑誌｢ちゃお｣デビュー/漫画家/イラストレーター/3DCGゲームアニメーター/書籍執筆/投資家/Python/UE5/最新刊「少女マンガの作り方」/Web「松元美智子クリエイティブブログ♡公式」で過去の漫画や制作に役立つ情報毎日投稿中/法政大学経済学部経済学科通信教育部生/メンタル心理カウンセラー

深層学習を使った画像認識で漫画は認識されるかどうか試してみた

深層学習を使った画像認識で漫画は認識されるかどうか試してみた

プログラミングAIの最新記事8件

映画Winny

クリエイターのイラストをAI学習から保護する「emamori」正式リリース

アイビスペイント「AIお手本機能」停止

Adobe Max2023で紹介されたAdobeのAI新技術

動画や静止画から３Dモデル推定できる4D Humans

無駄なことをすればするほど創造力に良い

米オープンAIが発表AIセーフティへの取り組み

NVIDIA 主催AIの最先端テクノロジカンファレンス「GTC23」オンデマンド視聴できるよ

松元美智子クリエイティブブログ💖公式