Vision Transformer入門―新しいコンピュータビジョンの世界 [単行本]
    • Vision Transformer入門―新しいコンピュータビジョンの世界 [単行本]

    • ¥3,520106ポイント(3%還元)
    • 在庫あり2023年3月28日火曜日までヨドバシエクストリームサービス便(無料)がお届け
100000009003606358

Vision Transformer入門―新しいコンピュータビジョンの世界 [単行本]

価格:¥3,520(税込)
ポイント:106ポイント(3%還元)(¥106相当)
フォーマット:
専用電子書籍リーダアプリ「Doly」が必要です。無料ダウンロード
お届け日:在庫あり今すぐのご注文で、2023年3月28日火曜日までヨドバシエクストリームサービス便(無料)がお届けします。届け先変更]詳しくはこちら
出版社:技術評論社
販売開始日: 2022/09/17
お取り扱い: のお取り扱い商品です。
ご確認事項:返品不可
店舗受け取りが可能です
マルチメディアAkibaマルチメディア梅田マルチメディア博多にて24時間営業時間外でもお受け取りいただけるようになりました

Vision Transformer入門―新しいコンピュータビジョンの世界 の 商品概要

  • 目次

    第1章 TransformerからVision Transformerへの進化

    ■1-1 自然言語処理におけるTransformerの登場
    ■1-2 Vision and languageへの拡張
    ■1-3 コンピュータビジョンにおけるTransformer

    第2章 Vision Transformerの基礎と実装

    ■2-1 準備
    ■2-2 ViTの全体像
    ■2-3 Input Layer
    ■2-4 Self-Attention
    ■2-5 Encoder
    ■2-6 ViTの実装

    第3章 実験と可視化によるVision Transformerの探求

    ■3-1 実験の概要
    ■3-2 使用するデータセット
    ■3-3 実験条件
    ■3-4 既存手法との比較
    ■3-5 データ拡張における比較
    ■3-6 位置埋め込みの可視化
    ■3-7 ViTにおける判断根拠の可視化
    ■3-8 ViTが捉えているモノ

    第4章 コンピュータビジョンタスクへの応用

    ■4-1 コンピュータビジョンのサブタスク
    ■4-2 画像認識への応用
    ■4-3 物体検出、セマンティックセグメンテーションへの応用
    ■4-4 ビデオ認識への応用
    ■4-5 オブジェクトトラッキングへの応用
    ■4-6 3Dビジョンへの応用
    ■4-7 その他のコンピュータビジョンサブタスクへの応用
    ■4-8 Transformer応用のまとめと展望

    第5章 Vision and Languageタスクへの応用

    ■5-1 Vision and Languageのサブタスク
    ■5-2 VQAへの応用
    ■5-3 Image Captioningへの応用
    ■5-4 Embodied AIへの応用
    ■5-5 その他のVision and Languageサブタスクへの応用
    ■5-6 Vision and Languageのまとめと展望

    第6章 Vision Transformerの派生手法

    ■6-1 ViT派生手法の分類
    ■6-2 Swin Transformer
    ■6-3 DeiT
    ■6-4 CvT
    ■6-5 SegFormer
    ■6-6 TimeSformer
    ■6-7 MAE

    第7章 Transformerの謎を読み解く

    ■7-1 Transformerの謎に人々は驚き困惑した
    ■7-2 Positional embeddingの謎
    ■7-3 Multi-head Attentionの謎
    ■7-4 Layer Normalizationの謎

    第8章 Vision Transformerの謎を読み解く

    ■8-1 ViT vs CNN vs MLPの三国時代の到来
    ■8-2 ViTはCNNと同じく局所特徴を学習する
    ■8-3 ViTはより形状に反応する?
    ■8-4 ViTは早期から大域的な領域も見ている
    ■8-5 ViTはCNNやMLPよりもノイズや敵対的攻撃に頑健?
    ■8-6 3つのモデルの特性と使い分けの勘どころ
    ■8-7 ViTの新常識
  • 内容紹介

    自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer(ViT)です。さまざまなコンピュータビジョンのタスクにおいて、ディープラーニングではスタンダードとなっているRNN、CNN、および既存手法を用いた処理精度を上回ることが確認されています。

    本書は注目のViTの入門書です。Transformerの成り立ちからはじめ、その理論と実装を解説していきます。今後のViTの活用が期待される応用タスク、ViTから派生したモデルを紹介したあと、TransoformerとViTを分析し、その謎を解明していきます。今後も普及が期待されるViTを盛りだくさんでお届けします。

    目次
    1章 TransformerからVision Transformerへの進化
    2章 Vision Transformerの基礎と実装
    3章 実験と可視化によるVision Transformerの探求
    4章 コンピュータビジョンへの応用
    5章 Vision and Languageへの応用
    6章 Vision Transformerの派生手法
    7章 Transformerの謎を読み解く
    8章 Vision Transformerの謎を読み解く
  • 著者紹介(「BOOK著者紹介情報」より)(本データはこの書籍が刊行された当時に掲載されていたものです)

    片岡 裕雄(カタオカ ヒロカツ)
    国立研究開発法人産業技術総合研究所人工知能研究センター主任研究員。2014年慶應義塾大学大学院理工学研究科後期博士課程修了、博士(工学)。2020年10月より国立研究開発法人産業技術総合研究所主任研究員。画像認識、動画解析、人物行動解析に従事。2011/2020年VIEW小田原賞、2019年度産総研論文賞、ACCV 2020 BEST PAPER HONORABLE MENTION AWARD受賞

    山本 晋太郎(ヤマモト シンタロウ)
    2022年3月に早稲田大学先進理工学研究科物理学及応用物理学専攻にて博士後期課程を修了し、博士(工学)を取得。学生時代は主にコンピュータビジョンと自然言語処理の分野の研究に従事。博士論文のテーマは、効率的な研究コミュニケーションのための科学論文解析。現在は企業の研究開発部門に勤める会社員

    徳永 匡臣(トクナガ マサオミ)
    株式会社野村総合研究所AIソリューション推進部AI tech lab.所属。2019年3月、東北大学工学部を卒業。2021年3月、東京工業大学大学院情報理工学院情報工学系知能情報コースにて修士課程を修了。現在は、コンピュータビジョンおよび自然言語処理の業務に従事

    箕浦 大晃(ミノウラ ヒロアキ)
    中部大学大学院工学研究科情報工学専攻博士後期課程3年。2020年中部大学大学院博士前期課程情報工学専攻修了。同大学大学院博士後期課程情報工学専攻在学中。コンピュータビジョン、パターン認識の研究に従事

    QIU YUE(QIU YUE)
    国立研究開発法人産業技術総合研究所人工知能研究センター研究員。2021年3月筑波大学大学院システム情報工学研究科博士後期課程修了(工学)、2021年10月より産業技術総合研究所人工知能研究センター研究員。言語と画像のマルチモーダルタスク・画像認識・3次元認識・動画像認識に従事

    品川 政太朗(シナガワ セイタロウ)
    奈良先端科学技術大学院大学先端科学技術研究科情報科学領域助教
  • 著者について

    片岡 裕雄 (カタオカ ヒロカツ)
    片岡裕雄(かたおか ひろかつ)
    国立研究開発法人産業技術総合研究所人工知能研究センター主任研究員
    2014年慶應義塾大学大学院理工学研究科後期博士課程修了、博士(工学)。2020年10月より国立研究開発法人産業技術総合研究所主任研究員。画像認識、動画解析、人物行動解析に従事。2011/2020年VIEW小田原賞、2019年度産総研論文賞、ACCV 2020 BEST PAPER HONORABLE MENTION AWARD受賞。


    山本 晋太郎 (ヤマモト シンタロウ)
    山本晋太郎(やまもと しんたろう)
    2022年3月に早稲田大学先進理工学研究科物理学及応用物理学専攻にて博士後期課程を修了し、博士(工学)を取得。学生時代は主にコンピュータビジョンと自然言語処理の分野の研究に従事。博士論文のテーマは、効率的な研究コミュニケーションのための科学論文解析。現在は企業の研究開発部門に勤める会社員。本書の第1章の執筆を担当。

    徳永 匡臣 (トクナガ マサオミ)
    徳永 匡臣(とくなが まさおみ)
    株式会社野村総合研究所AIソリューション推進部AI tech lab.所属
    2019年3月、東北大学工学部を卒業。2021年3月、東京工業大学大学院情報理工学院情報工学系知能情報コースにて修士課程を修了。現在は、コンピュータビジョンおよび自然言語の業務に従事。趣味として、インターネット上で論文の解説記事を執筆。本書の第2章の執筆を担当。

    箕浦 大晃 (ミノウラ ヒロアキ)
    箕浦 大晃(みのうら ひろあき)
    中部大学大学院工学研究科情報工学専攻博士後期課程3年
    2020年中部大学大学院博士前期課程情報工学専攻修了。2020年中部大学大学院博士後期課程情報工学専攻在学中。コンピュータビジョン、パターン認識の研究に従事。本書の第3章、第6章の執筆を担当。

    キュウゲツ(QIU YUE) (キュウゲツ)
    QIU YUE(キュウ ゲツ)
    国立研究開発法人産業技術総合研究所人工知能研究センター研究員
    2021年3月筑波大学大学院システム情報工学研究科博士後期課程修了(工学)、2021年10月により産業技術総合研究所人工知能研究センター研究員。言語と画像のマルチモーダルタスク・画像認識・3次元認識・動画像認識に従事。本書の第4章、第5章の執筆を担当。

    品川 政太朗 (シナガワ セイタロウ)
    品川政太朗(しながわ せいたろう)
    奈良先端科学技術大学院大学先端科学技術研究科情報科学領域助教
    2013年東北大学工学部を卒業、2015年同大学大学院情報科学研究科で修士(情報科学)、2020年9月に奈良先端科学技術大学院大学で博士(工学)を取得し、同年11月より同大学助教。コンピュータビジョンと自然言語処理双方の領域を中心として幅広く興味を持ち、自然言語による対話的な画像編集をはじめとした視覚と言語の融合研究と対話システム研究に従事。本書の第7章、第8章の執筆を担当。

Vision Transformer入門―新しいコンピュータビジョンの世界 の商品スペック

商品仕様
出版社名:技術評論社
著者名:片岡 裕雄(監修)/山本 晋太郎(著)/徳永 匡臣(著)/箕浦 大晃(著)/QIU YUE(著)/品川 政太朗(著)
発行年月日:2022/09/30
ISBN-10:4297130580
ISBN-13:9784297130589
判型:B5
対象:専門
発行形態:単行本
内容:電子通信
言語:日本語
ページ数:263ページ
縦:23cm
横:19cm
他の技術評論社の書籍を探す

    技術評論社 Vision Transformer入門―新しいコンピュータビジョンの世界 [単行本] に関するレビューとQ&A

    商品に関するご意見やご感想、購入者への質問をお待ちしています!