マンダリンオレンジ in hatenablog

esujiがアニメ・漫画について書くブログ。はてなダイアリーから引っ越してきました

ゆゆ式Advent Calendar 2018のオープニングと、ゆゆ式のコマのデータ分析したやつ

オープニング

ご無沙汰してます、はてなダイアリーからはてなブログに引っ越してきた方の私です。今年もゆゆ式Advent Calendarの時期がやってまいりました。

ゆゆ式 Advent Calendar 2018

三上先生にも反応してもらえてやったー、の図

今年も常連の方から新規の方、文章っぽい方からイラスト・漫画を投稿してくれそうな方まで幅広く集っていただきました。ありがたいことです。

今年は連載10周年だったり、きらら展があったり、まさかの『ゆゆ式』単独での展覧会があったりとニュースも多い年だったので年表もやりたいとこですが、今年はちゃんとしたネタがあるので披露の場とさせてください。

ゆゆ式』のコマをデータ分析する話

忙しい人のためのまとめ

  • プログラミングを使って評論するっていう活動がある程度形になってきたよ
  • 単行本9巻までの全コマ(6856コマ)にアノテーションして分析できるようにしたよ
  • アノテートしたデータは、権利者から怒られなければ公開しておくよ
    • 当たり前だけど、『ゆゆ式』の原作画像は含まれてないよ
  • 簡単にgroupbyするだけでもいろいろと面白いことがわかるよ
    • ふみおかに相関関係はあったんや!
  • 4コマ漫画という特性上、時系列的な分析も出来ると面白いと思うけどそこまではできてないよ
  • 得能正太郎先生曰く「面白さはともかく(4コマ漫画の)読みやすさはロジックで作り込める」
  • そういったロジックの構築にもこういう分析が一役買えるのではないかと期待しているよ
  • 今年もゆゆ式Advent Calendarをよろしくね

経緯とデータアノテーションまで

  • 4コマ漫画評論をやっていた私は、手作業でひーこら準備をするのに飽いていた
  • せっかくプログラミングの知識があるので、その力を使っていい感じにできないかと模索していた
  • id:non_117さんの記事『ゆゆ式』を無限に楽しみたかった話 〜 『ゆゆ式』 Advent Calendar 2014 20日目 〜を皮切りに、コマの切り出し技術が発展していた
  • データを集める大きな壁が突破されたこともあり、「分析用のデータを入力(アノテーション)していけば、いろいろできそうだなあ」と漠然とした状態で同人誌を出すなどしてプロジェクトがスタート
  • 現在は『ゆゆ式』以外の4コマ漫画も網羅して切り出せるように改良が進んでいます
    • 以下を参照ください

参考:C89三日目東ピ26bにて『ポストモダンのポリアネス tech. 』創刊号を頒布します

  • そこからできるだけ自動的にデータが取れるようにいろいろやった
    • コマの切り出し精度向上
    • セリフはGoogle Cloud Vision APIで頑張る
    • 吹き出し検出的なことをして、セリフ毎の分割やノイズ除去の精度向上
  • 時にはDeep Learningもやったりして2年くらい自動化の精度向上に費やす
  • それもいいけど、さっさとコマに手動でデータを付けて分析できるようにするのが良い、ということに気付く
  • 各コマ対してにアノテーションするデータ
    • 誰がどの順番でいるか(ゆずこ、縁、唯、お母さん、千穂、佳、ふみ、その他)
    • 顔の方向はどうか(正面向き、後ろ向き、右向き、左向き)
    • 目の描き方はどうか(詳細、隠れ、デフォルメ)
    • 上記3点を優先的にアノテートして、基本的な分析が出来るようにする
    • その他、セリフや背景などは別のタイミングでアノテーションすることにする
      • 入力フォームも別途作って最適化したい
  • FlaskとVue.jsでアノテーション用のサイトを作ってスマホからでもポチポチできるようにした
    • コードは雑だけど、興味がある人はこちらを参照
    • 最初は、みんなで使えるアノテートツールを目指していたけど、PC用にショートカットキーを設定したあたりから諦めた
    • 確認用に1ページ分のコマ画像とアノテート結果が表示される仕組みも作った
  • 6856コマをほとんど1人でアノテートするのは疲れる
  • でも分析する視点も入力の最中で得られるので楽しい
  • PCでのショートカットキー最適化を頑張ったおかげで入力速度は上がっていったが、ツールとしての汎用性が壊滅的になった
  • アノテーション後の確認は1巻までしかやってないので、間違ってたら教えてクレメンス

データと分析

アノテートしたデータがこちらです。ブログに貼るにはでかい表ですが、最初の10件だけでも雰囲気は掴んでもらえるかと。全件をまとめたcsvファイルはこちら

koma_idkanjipagepositionkomachara_numwhoseyesface_directioneyes_numpage_idfour_komas_idtobirae_pagewasuugrademonthwasuu_paged_←d_→d_↓d_↑e_詳e_隠e_デc_ゆc_縁c_唯c_母c_千c_佳c_ふc_他
001-009-519L12.0ゆ,縁,デ,デ↓,↓,301-00901-009-LTrue1104月60.00.02.00.00.00.02.0TrueTrueFalseFalseFalseFalseFalseFalse
101-009-619L22.0ゆ,縁,デ,デ←,→,301-00901-009-LTrue1104月61.01.00.00.00.00.02.0TrueTrueFalseFalseFalseFalseFalseFalse
201-009-719L32.0ゆ,縁,デ,デ←,→,301-00901-009-LTrue1104月61.01.00.00.00.00.02.0TrueTrueFalseFalseFalseFalseFalseFalse
301-009-819L42.0ゆ,縁,デ,デ↓,↓,301-00901-009-LTrue1104月60.00.02.00.00.00.02.0TrueTrueFalseFalseFalseFalseFalseFalse
401-010-1110R13.0縁,唯,ゆ,デ,詳,デ←,↓,↓,401-01001-010-RFalse1104月61.00.02.00.01.00.02.0TrueTrueTrueFalseFalseFalseFalseFalse
501-010-2110R21.0縁,↓,201-01001-010-RFalse1104月60.00.01.00.00.00.01.0FalseTrueFalseFalseFalseFalseFalseFalse
601-010-3110R31.0縁,↓,201-01001-010-RFalse1104月60.00.01.00.01.00.00.0FalseTrueFalseFalseFalseFalseFalseFalse
701-010-4110R43.0縁,唯,ゆ,デ,詳,デ←,↓,→,401-01001-010-RFalse1104月61.01.01.00.01.00.02.0TrueTrueTrueFalseFalseFalseFalseFalse
801-010-5110L12.0縁,唯,デ,詳↓,→,301-01001-010-LFalse1104月60.01.01.00.01.00.01.0FalseTrueTrueFalseFalseFalseFalseFalse
901-010-6110L22.0唯,ゆ,デ,デ↓,→,301-01001-010-LFalse1104月60.01.01.00.00.00.02.0TrueFalseTrueFalseFalseFalseFalseFalse
  • カラム説明
    • koma_id: コマ個別のID
    • kanji: 単行本の何巻か
    • page: 単行本でのページ
    • position: ページで右のコマか左のコマか
    • koma: 何コマ目か
    • chara_num: 何人コマ内にいるか(頭がそれなりに映っていればカウント
    • whos: 右から誰がいるか: [ゆずこ, 縁, 唯, お母さん, 千穂, 佳, ふみ, その他]
    • eyes: 右から目の種類は何か: [詳細, 隠れ, デフォルメ]
    • face_direction: 顔の方向: {'左向き前': '←', '右向き前': '→', '正面前': '↓', '背面': '↑'}
    • eyes_num: 目の数
    • page_id: ページのID
    • four_komas_id: 4コマ単位でのIDを
    • tobirae_page: 扉絵のあるページかどうか
    • wasuu: 話数
    • grade: 作品時間での学年
    • month: 作品時間での月
    • wasuu_page: 何ページある話か
  • このデータを公開するのは著作権的には問題ないと思っています
    • 画像はもちろん含まれていない
    • セリフも含まれていない
    • でも、権利者からの連絡があれば、すぐに公開を停止させていただきます
      • あくまで初期動作として早く動くという意味で、データ活用の点からも公開継続のための話し合いはさせていただきたいです
    • このデータを使った成果の外部公開をする場合は、一言連絡をいただけると幸いです

以下、簡単にこのデータを使った分析を何点か紹介したいと思います。本当は4コマ漫画という特性上、時系列的な分析も出来ると面白いと思っていますが、そこまでやる時間がありませんでした。前処理って想像以上に大変ですね…。 このグラフ類の作成方法についてはこちらのgistを参照ください

人物毎の登場回数

f:id:esuji5:20181130222430p:plain

  • ゆずこ、縁、唯の3人はやっぱり多い

f:id:esuji5:20181130222521p:plain

  • 3人以外だと千穂、佳が多い
  • 4巻くらいまでで集計した時はお母さんが多かったのになあ

f:id:esuji5:20181130222525p:plain f:id:esuji5:20181130222529p:plain

  • 巻次(単行本の巻数)毎で推移を見ると、
    • お母さんの比率が下がっている
    • 千穂と佳は増えたり減ったり
  • 積み上げ棒と折れ線のどっちが見やすいかよく分からんから2つ載せたけど同じデータです
登場人物の相関

f:id:esuji5:20181130222534p:plain

  • ゆずこ組と千穂組で、3人組が形成されていることが分かる
  • お母さんはどっちつかず
  • 佳とふみの2人組が一番相関が高い
    • ふみおかはあったんや!

二年生時の月別登場数

f:id:esuji5:20181130222540p:plain f:id:esuji5:20181130222544p:plain

  • 二年生時の時系列おさらい:
    • きらら発売月と作中の月が一致している
    • 3月から4月になるときに二年生の4月に時系列が戻る
    • ゆずこたち3人と佳、ふみが仲良くなるのが6月以降なので、4,5月はあまり出番がない
  • 佳、ふみが4,5月あまり出ないのは知ってたけど、それと同じくらい夏休みのある8月も3人以外が出ていなかった
  • 冬休みの12月、1月はそれぞれ学校のタイミングがあるからそうでもない感じ?

f:id:esuji5:20181130222547p:plain

  • 3人でいるコマが一番多い
  • Max7人のコマが少しだけある

目の描き方

f:id:esuji5:20181130222552p:plain

  • 詳細に目を描いてくれるの最初の頃はよくあったけどね…というグラフ

f:id:esuji5:20181130222556p:plain f:id:esuji5:20181130222559p:plain - 最初の頃は3人いるコマでも詳細目が多かったけどね…というグラフ - 最近は、たまに見る詳細目のコマ力(ぢから)が強いので、デフォルメ目が多くてもよいという意見がある(要出典)

顔の方向

f:id:esuji5:20181130222604p:plain

  • あまり時間経過による変化はなさそう
  • 3巻から右向きの比率が増えてそうなのはちょっと気になる

f:id:esuji5:20181130222609p:plain

  • 凡例は縦書きになっているので、正しい向きを知るには、首を左に90°傾けて見てください
  • 1人のときは正面向きが圧倒的に多い
  • 決め顔だったりするので、そうだろうなあという気持ち

f:id:esuji5:20181130222623p:plain

  • 2人のときは二人とも正面向きが一番多い
  • 次点に正面、後ろ向きというキメ台詞+ツッコミでつかえる構図が入っている

f:id:esuji5:20181130222630p:plain

  • 3人のときは右から、左向き、正面、正面が多い
    • 右の人物から話を初めて、左に行くに連れ会話を進める構図に使えるため、会話の多い本作では有用
      f:id:esuji5:20181201003515j:plain
      5巻12ページ
  • 次点には左向き、正面、右向きの構図。3人で輪を囲んでいるのを外から見ているような印象を与える

f:id:esuji5:20181130222645p:plain

  • 4人のときは右から、左向き、正面、正面、正面が多い
    • 3人の時と同様に、右の人物から話を進めていきやすい構図と言える
  • 左向き、正面、後ろ向き、右向きという4人で輪を囲むような構図があったのもアノテーション時には印象深かった
    • 数の多さで言えば5番目だけど
      f:id:esuji5:20181201003934j:plain
      4巻63ページ

今後の展望

残念ながら時間がなくてこの記事で紹介できるのはここまでになります。今後、やっていきたいこととして

  • アノテートするデータとして、セリフ(テキストと誰が言ったか)、場所、背景、スクリーントーンなどを追加
  • 今あるデータを使って、10巻以降のアノテートを自動化できるようにする
  • 顔方向と人物が次のコマでどう動いたかの差分を取って、カメラの動き方を算出
  • 三上先生が構図に込めた思いを読み解く良い資料になるかと思います
  • 4コマ漫画の特性である時系列的な分析
    • 「『ゆゆ式』らしい」コマの流れ、話の流れ、構図の移り変わりを確認
  • アノテート時に気が付いたネタを集めてみる
    • ゆずこ、唯が正面、後ろ向きで並んでいるコマは唯のツッコミコマが多いなー
      • 結構そのとおりだったりする
      • f:id:esuji5:20181201012217p:plain
        条件を指定するだけでツッコミ画像集を表示できるかも?(出典は画像上部{巻次}-{ページ}-{コマ})
      • 「後ろ向き、正面」の順番だと微妙に違った感じのコマが出てきたりする
      • そして唯、ゆずこの順番だったらまたちょっと違う感じになる
  • それらを「『ゆゆ式』らしい」4コマの特徴としてまとめると「読みやすい」4コマの基準のようなものになりうる
  • 得能正太郎先生もきらら展図録インタビューで「面白さはともかく(4コマ漫画の)読みやすさはロジックで作り込める」と仰っている

などと、まだまだやることが積まれています。ただし、一度、今のデータでの分析までを別途同人誌にまとめるなどしたいと思います。今度の冬コミには出ないので、早ければ次の夏コミでしょうか。

まとめ

記事冒頭に書いたので、大枠はここでは省略します。

これからの『ゆゆ式』ならびに4コマ漫画の益々の発展を願って、このAdvent Calendar企画が続いていけば幸いです。今年もゆゆ式 Advent Calendar 2018をよろしくおねがいします。