コンピュータビジョンにはすでに革命が起こっているように思われます。2012年に、畳み込みニューラルネットワークに基づくアルゴリズムが起動されました。2014年から生産に到達し、2016年からすべてを満たしました。しかし、2020年の終わりに、新しいラウンドが行われました。今回は4年ではなく1年で。ComputerVisionのトランスフォーマーについて話しましょう。この記事では、昨年登場した新製品の概要を説明します。それが誰かにとってより便利であるならば、その記事はユーチューブでビデオとして利用可能です。
トランスフォーマーは、2017年に作成されたニューラルネットワークの一種です。当初、それらは翻訳に使用されていました:
しかし、結局のところ、彼らは単に言語の普遍的なモデルとして機能していました。そして、私たちは行きます。実は、有名なGPT-3はトランスの製品です。
ComputerVision?
. , . - , . . , . CV.
DETR
2020. . ? . , DETR (End-to-End Object Detection with Transformers), 2020 . , :
, ReInspect 2015 - , BackBone . - ReInspect Detr. .
, , DETR ( , ). .
, DETR ComputerVision. ? ? :
- , . Deformable DETR.
DETR . . iterdet. - ( - https://paperswithcode.com/sota/panoptic-segmentation-on-coco-panoptic ).
DETR Visual Transformer ( + ) . Feature map backbone:
Visual Transformer , . backbone .
VIT
. ViT:
, , . ( state-of-art). 14 - .
. FaceBook - Deit. .
- https://paperswithcode.com/paper/going-deeper-with-image-transformers
- . , ~2-3 , . ResNet .
CLIP
. CLIP. . CLIP . , . , - :
, . . :
:
, - :
ResNet50. , 100 .
Vision Transformers for Dense Prediction
, , - “Vision Transformers for Dense Prediction”, . Vit/Detr. , .
/, / . State-of-art , RealTime. @AlexeyAB ( Yolov4 ), . , , . - , :
---------------------------------------
. - :
1-2
- / . .
PoseFormer
Pose3D. , , :
3 . CherryLabs ( ) 3 , , . , , . - 3D, :
- . ( ). .
TransPose
, . TransPose - :
( OpenPose)
SWIN
Intel. SWIN Microsoft , RealTime. VIT/Deit, :
, , - https://paperswithcode.com/paper/swin-transformer-hierarchical-vision
LOFTR
. . SIFT/SURF+RANSAK ( + ). SuperGlue- Graph Neural Network ComputerVision. SuperGlue . , LOFTR End-To-End:
, :
, , , . : (Video Transformer Network, ActionBert). MMAction.
. , . , - STARK:
, . . , , . , , . . BBOX + , ,
.
ReID
, . 20 ReID - .
- OCR . , - :
state-of-art . . - 2 . - .
ComputerVision. , , .
, . . - . / - https://t.me/CVML_team ( https://vk.com/cvml_team ).
, , youtube: