ComputerVisionでのサイレント革命と新しいワイルドウェスト

コンピュータビジョンにはすでに革命が起こっているように思われます。2012年に、畳み込みニューラルネットワークに基づくアルゴリズム起動されました2014年から生産に到達し、2016年からすべてを満たしましたしかし、2020年の終わりに、新しいラウンドが行われました。今回は4年ではなく1年で。ComputerVisionのトランスフォーマーについて話しましょう。この記事では、昨年登場した新製品の概要を説明します。それが誰かにとってより便利であるならば、その記事ユーチューブでビデオとして利用可能です





トランスフォーマーは、2017年に作成されたニューラルネットワークの一種です。当初、それらは翻訳に使用されていました









しかし、結局のところ、彼らは単に言語の普遍的なモデルとして機能していました。そして、私たちは行きます。実は、有名なGPT-3はトランスの製品です。





ComputerVision?

. , . - , . . , . CV.





DETR

2020. . ? . , DETR (End-to-End Object Detection with Transformers), 2020 . , :





, ReInspect 2015 - , BackBone . - ReInspect Detr. . 





, , DETR ( , ). .

, DETR ComputerVision. ? ? :





  1. - , .  Deformable DETR.





  2. DETR . . iterdet. - ( - https://paperswithcode.com/sota/panoptic-segmentation-on-coco-panoptic ).





DETR Visual Transformer ( + ) . Feature map backbone:





Visual Transformer , . backbone . 





VIT

. ViT:





2020 (). -. . - 16*16. “”, . 





, , . ( state-of-art). 14 - .

. FaceBook - Deit. .





- https://paperswithcode.com/paper/going-deeper-with-image-transformers





- . , ~2-3 , . ResNet  . 





CLIP

. CLIP. . CLIP . , . , - :





, . . :





:





, - :





ResNet50. , 100 .





, /. CLIP . CLIP . . , :





Vision Transformers for Dense Prediction

, , - “Vision Transformers for Dense Prediction”, . Vit/Detr. , .





/, / . State-of-art , RealTime. @AlexeyAB ( Yolov4 ), . , , . - , :





---------------------------------------

. - :

















  • 1-2





- / . .





PoseFormer

Pose3D. , , :





3 . CherryLabs ( ) 3 , , . , , . - 3D, :





- . ( ). .





, . / .





TransPose

, . TransPose - :





( OpenPose)





. . , , :





SWIN

Intel. SWIN Microsoft , RealTime. VIT/Deit, :





, , - https://paperswithcode.com/paper/swin-transformer-hierarchical-vision





LOFTR

. . SIFT/SURF+RANSAK ( + ). SuperGlue- Graph Neural Network ComputerVision. SuperGlue . , LOFTR End-To-End:









, :





, , , . : (Video Transformer Network, ActionBert). MMAction.





. , . , - STARK:





, . . , , . , , . . BBOX + , ,





TransTrack
TransTrack
TransT
TransT

.





ReID

, .  20 ReID - .





:





. VIT (1,2):





(1,2):





- OCR . , - :





state-of-art . . - 2 . - .





, . , , :





ComputerVision. , , . 





. . , - , 2 . , -





, . . - . / - https://t.me/CVML_team ( https://vk.com/cvml_team ).





, , youtube:








All Articles