メディアテクノロジーシリーズ 7 コンピュータビジョン - デバイス・アルゴリズムとその応用 -

メディアテクノロジーシリーズ 7

コンピュータビジョン - デバイス・アルゴリズムとその応用 -

日浦慎作兵庫県立大教授博士（工学）編
香川景一郎静岡大教授博士（工学）著
小池崇文法政大教授博士（情報理工学）著
久保尋之千葉大准教授博士（工学）著
延原章平京都工芸繊維大教授博士（情報学）著
玉木徹名工大教授博士（工学）著
皆川卓也ビジョン＆ITラボ博士（工学）著

多様な画像センサの特性，コンピュータビジョン技術の一般生活環境への応用を紹介。

ジャンル

発行年月日: 2024/10/25

判型: A5

ページ数: 264ページ

ISBN: 978-4-339-01377-1

在庫あり

2営業日以内に出荷致します。

定価

4,400円(本体4,000円+税)

カートに入れる

購入案内

内容紹介
まえがき
目次
レビュー
著者紹介
広告掲載情報

【読者対象】
コンピュータビジョン・画像処理に関する研究開発に携わっておられる方で、より深く、広く学びたいとお考えの方を対象としています。

【書籍の特徴】
シリーズの他書籍とは違い、コンピュータビジョン(CV)分野は多くの教科書が刊行されている分野です。その中で本書は、それらと同様の内容となることを避け、この分野で重要でありながらも体系的に述べられる機会が少なかった分野を特に選定して取り上げています。

最近、CV分野の研究は共通の画像データベースを用いて性能を競うものが多くなっており、また、深層学習分野では最新の技法を追うトレンドが強まっています。そのため、現場で求められる実問題の解決において不可欠なイメージセンサや反射現象に関する知識や、従来型の手法について学ぶ機会が相対的に減少し、浅い理解と安易な方法で隘路に陥るケースが多く見られます。本書は、そういうときにチームを正しい方向に導くことが出来る、上級CV技術者へと脱皮するための新たな視点を習得できるよう意図して企画されました。

【各章について】
１章と２章では、イメージセンサについて多くのページを割いて解説しています。我々はつい、対象の各点の輝度がそのまま正確に画像に記録されるものと仮定して考えたり、または様々な問題を単に「センサのノイズ」と片付けがちですが、本書はこれを正しく理解し解決するための本質的な理解に導きます。また２章では、近年発展が著しい、アンコンベンショナルカメラのためのイメージセンサについて、動作原理や特性から習得できる内容となっています。

３章では、ライトフィールドの入出力について取り上げています。カメラは空間中を飛び交う光線のごく一部だけを取り込むに過ぎません。シーンの観測を体系的に理解するうえで、ライトフィールドの概念の理解は重要です。この章ではその概念に合わせ、様々な入出力機器の実装例について述べられています。

４章ではシーン中の光の反射・伝搬現象についてまとめられています。３章で取り上げたライトフィールドは、シーンを照らす光源からの光が、シーン中の物体で複雑に反射・伝搬された結果として形成されます。ここでも各論的な理解でなく、光伝搬の定式化に基づく体系的な理解に繋がるよう意図して執筆されています。

デバイスや物理・数理中心であった４章までとは一変し、５章からは近年のCV技術を、やはり従来の教科書とは異なる切り口で体系化しています。従来は形状や動きの計測の中で述べられることの多かった人を対象とした画像処理を、人物・人体を軸に体系化し直した内容となっています。

６章では、現代のCV基盤技術を支える各技法が、なぜ、どのように働いているのかを概観し、その本質的な理解の一助となるよう、現在の深層学習に向かう歴史と、その中でマイルストーンとなった研究を中心に述べられています。

最後に７章では、CVを取り巻くフレームワークやビジネス環境について概観しています。従来は限られたCV分野の技術者が、各問題に対し一品ものとして処理プログラムを開発することが普通でした。それに対し近年は、様々なライブラリやフレームワークの登場により、産業化が進められやすい段階に達しています。この章では、そのようなソフトウェアフレームワークやビジネス環境について述べられています。

【著者からのメッセージ】
体系化が進み、多数の書籍が刊行済みであるコンピュータビジョン分野において意義ある書籍とするからには、思い切った構成と切り口でなければならない、と考えた結果、非常に尖った内容となりました。ですがその結果、どの章も他書籍では見過ごされがち、または分散しがちな内容が凝縮されたものとなっています。

【キーワード】
イメージセンサ、ライトフィールド、光伝搬、人物画像処理、深層学習、ビジネス

メディアテクノロジーについて述べる上で，コンピュータビジョン技術の発展と最新動向は欠くことができない。特に深層学習に代表されるAI技術の高度化と普及は目覚ましく，メディアの生成から消費に至るすべての領域を変革しつつある。また一方で，デプスカメラやライトフィールドディスプレイなどに見られるように，画像入出力デバイスも多様化・高機能化が進んでおり，インタラクション，アート，エンタテインメントなどさまざまなメディア体験のデザインに影響を与えている。

そこでこの書籍では，画像メディア機器とコンピュータビジョンの分野から，メディアテクノロジーにとって影響が大きいにもかかわらず，従来の教科書等では漏れがちであった領域や，体系的な記述がなされていない切り口を特に選び，各分野の第一人者により俯瞰的に解説いただくこととした。前半ではまず画像メディアデバイスのうち，画像処理・認識やメディア応用分野の教科書ではほとんど深掘りされることのなかった画像センサについて多くの紙幅を割いた。1章ではCMOSイメージセンサについて，ダイナミックレンジやノイズなどの諸特性をその根源から理解できるよう平易に解説した。つぎに2章では，光子計数型カメラやイベントカメラ，LiDARなど，従来型のカメラとは目的や特性がまったく異なるセンサについて取り上げた。3章では2次元画像を入出力する従来型のカメラ・ディスプレイを超える体験を提供し得る，ライトフィールドカメラ・ディスプレイについて概観した。

コンピュータビジョンはその応用分野として，生産工程の自動化などに主眼をおいたマシンビジョンなどの研究開発も活発に行われているが，近年では家庭用ロボットや自動車の自動走行など，一般生活環境への応用の広がりが著しい。そこで本書では特に「人による鑑賞」と「人を対象とした画像認識」に関係の深いトピックを選定した。具体的には，4章でリアルなCGや自然なバーチャル環境の生成に重要な，反射特性のモデル化と計測について述べる。続いて5章では，人とのコミュニケーションや共存のために必須となる，画像による人体の計測・認識・モデル化を取り上げた。6章ではいまやコンピュータビジョン分野の中核をなすといっても過言ではない機械学習を軸に，各技術の関係や発展の歴史・経緯，さらには近年の深層学習の急速な発展普及に至る流れについて俯瞰し，最後に7章ではそれらの研究成果を利用するためのソフトウェアフレームワークとビジネス事例を紹介した。

以上のように，本書はあまたある一般のコンピュータビジョン教科書のような網羅性は求めておらず，むしろ意図的に，相当に偏ったトピック構成となっていることをご理解いただきたい。本書が画像メディア機器およびコンピュータビジョン技術の最新動向をメディアテクノロジーの研究・開発に活かす上で，新たな手掛かりを得る助けとなれば幸いである。

2024年8月
編者　日浦慎作

第1章　CMOSイメージセンサの機能と特性
1.1　CMOSイメージセンサの正体
　1.1.1　CMOSイメージセンサの画素の基本機能
　1.1.2　CMOSイメージセンサの画素特性の定式化
　1.1.3　画素に関する重要な事項
　1.1.4　重要なイメージセンサの仕様・特性値
1.2　アナログ・デジタル混載集積回路としてのCMOSイメージセンサ
　1.2.1　設計の流れ
　1.2.2　回路設計のポイント
　1.2.3　CMOSイメージセンサの製造
　1.2.4　集積回路における回路素子
　1.2.5　素子の特性ばらつきの抑制
　1.2.6　回路素子が生じるランダムノイズ
1.3　CMOSイメージセンサの特異性とアーキテクチャの選択
　1.3.1　CMOSイメージセンサ設計の特異性と制約
　1.3.2　回路の稼働率と共有・時分割多重による稼働率の向上
　1.3.3　バス構造を用いた回路の共有化と時分割多重
　1.3.4　並列度によるイメージセンサアーキテクチャの分類
1.4　要素回路
　1.4.1　受光回路
　1.4.2　ユニット選択回路
　1.4.3　プライオリティエンコーダ
　1.4.4　クロックツリー
　1.4.5　スイッチトキャパシタ回路
　1.4.6　A/D変換器
1.5　まとめ

第2章　特化した機能・性能を持つイメージセンサ
2.1　光子計数
　2.1.1　SPAD
　2.1.2　高変換ゲインFDアンプ
2.2　高ダイナミックレンジ（HDR）
　2.2.1　マルチ露光時間方式
　2.2.2　マルチ変換ゲイン方式
　2.2.3　マルチフォトダイオード方式
　2.2.4　オーバフロー方式
　2.2.5　飽和時間検出方式
2.3　可変解像度（電荷領域）
2.4　イベント駆動型CMOSイメージセンサ
2.5　オンチップ信号処理機能を持つ低電圧・低消費電力イメージセンサ
2.6　LiDARイメージセンサ
　2.6.1　直接法ToF
　2.6.2　間接法ToF
　2.6.3　マルチパス干渉
2.7　符号化露光/読出し
2.8　光強度以外の検出：波面，波長，偏光
2.9　まとめ

第3章　ライトフィールドカメラ・ディスプレイ
3.1　ライトフィールドカメラ
　3.1.1　ライトフィールドカメラの分類
　3.1.2　ライトフィールドカメラの発展
　3.1.3　ライトフィールドカメラの実用化
3.2　ライトフィールドディスプレイ
　3.2.1　ライトフィールドディスプレイの分類
　3.2.2　ライトフィールドディスプレイの周波数特性
　3.2.3　ライトフィールドディスプレイの実装面における技術
　3.2.4　ライトフィールドのHMDへの応用
　3.2.5　ライトフィールドディスプレイの応用技術
　3.2.6　ライトフィールドディスプレイの実用化
3.3　まとめ

第4章　反射・光伝搬のモデル化と計測
4.1　反射現象のモデル化と計測
　4.1.1　放射輝度の計測
　4.1.2　反射モデル
4.2　光伝搬のモデル化と計測
　4.2.1　プレノプティック関数とライトフィールド
　4.2.2　光伝搬行列とライトトランスポート
　4.2.3　反射現象とライトトランスポートの関係
　4.2.4　曲率に依存した反射関数
4.3　まとめ

第5章　人物の計測・認識・モデル化
5.1　人物表面形状
　5.1.1　物理的・幾何学的制約に基づいた手法
　5.1.2　統計的形状モデルを用いた手法
　5.1.3　画像から直接推論する手法
　5.1.4　人体3次元形状推定のためのデータセット
5.2　骨格姿勢・運動
　5.2.1　モーションキャプチャ
　5.2.2　マーカーレスモーションキャプチャ
　5.2.3　骨格姿勢推定のためのデータセット
5.3　視線
　5.3.1　眼球を直接計測する手法
　5.3.2　顔画像を計測する手法
　5.3.3　体や顔の動きから推論する手法
5.4　まとめ

第6章　現代のCV基盤技術
6.1　画像認識と機械学習
　6.1.1　顔検出
　6.1.2　姿勢推定
　6.1.3　局所特徴量
6.2　深層学習とCV
　6.2.1　データセットとコンペティション
　6.2.2　ニューラルネットワーク
　6.2.3　CNN
6.3　高次特徴量と潜在空間
　6.3.1　end-to-endとpretrainによる転移学習
　6.3.2　中間特徴量とアテンション
　6.3.3　エンコーダ・デコーダと潜在空間への埋込み表現
　6.3.4　時系列モデル
6.4　CNNによる画像処理
　6.4.1　教師なし学習
　6.4.2　大規模データセットの作成
　6.4.3　潜在空間の利用
　6.4.4　画質の改善への応用
6.5　まとめ

第7章　CVをとりまく環境
7.1　オープンソースソフトウェア
　7.1.1　CVライブラリ
　7.1.2　深層学習フレームワーク
7.2　CVのビジネス事例
　7.2.1　顔検出
　7.2.2　顔認証
　7.2.3　一般物体認識
　7.2.4　物体検出/追跡
　7.2.5　姿勢推定
　7.2.6　拡張現実感
　7.2.7　画像生成
　7.2.8　クラウドサービス
7.3　まとめ

引用・参考文献
索引

読者モニターレビュー【ぺぺ様（業界・専門分野：コンサルティング・数理科学）】

コンピュータビジョンは日常生活で身近になりつつある一方、技術の背景を理解するのは難しいと感じる人も多いでしょう。本書はイメージセンサのハードウェアからソフトウェアへの応用までを包括的に解説し、俯瞰的な理解の一助となります。さらに、オープンソースソフトウェアやビジネス事例も紹介されており、実践的な視点からも大変参考になります。

レビュー,書籍紹介・書評掲載情報一覧