Skip to content

huayong/dl-vision-papers

Folders and files

NameName
Last commit message
Last commit date
Apr 11, 2019
Apr 11, 2019
May 24, 2019
Apr 11, 2019
Jan 21, 2019
Apr 11, 2019
Mar 19, 2019
Jan 26, 2019
Nov 1, 2023
Feb 26, 2019
Jan 5, 2019
Jan 21, 2019
Jan 21, 2019
Nov 1, 2023
Apr 11, 2019
Nov 1, 2023

Repository files navigation

New Update

Image Feature

  1. 图像全局描述符,一般用于图像检索(Image Retrieval)、地点识别(Place Recognition)等;
  2. 图像局部描述符,包括特征点提取,描述符计算,匹配度量算法学习等;
  3. 图像局部描述符求匹配关系

Point Cloud Registration

  1. 点云全局描述符,一般用于点云检索(Point Cloud Retrieval)、地点识别(Place Recognition)等;
  2. 点云配准
  3. 点云匹配质量校验

before 2019.4

2D Vision

Base Architecture

  1. 基础的提取特征的分类框架,包括AlexNet、Googlenet、ResNet和DenseNet系列等;

Segmentation Architecture

  1. 语义分割网络,包括Deeplab系列、PSPNet、SegNet和ENet等;
  2. 实例分割网络;
  3. 全景分割网络,融合了语义分割和实例分割;

Object Detection Architecture

  1. 检测网络,包括RCNN系列、YOLO系列、SSD系列等;

Human Keypoint Detection Architecture

  1. 人体关节点检测网络,包括OpenPose、DensePose等;

Multi-task Architecture

  1. 针对多个任务同时处理的网络架构;

Mobile Architecture

  1. 移动端模型框架,包括MobileNet和ShuffleNet系列等;

NAS

  1. 模型框架自动学习,包括NASNet系列等;

3D Vision

3D Recon

一般来说利用学习的方法进行重新,重建后的三维结构也包括三维语义的信息。

  1. 场景重建;
  2. 物体重建;
  3. 平面重建;

3D Vision

  1. SFM,利用网络恢复pose和depth等;
  2. MVS,利用CNN网络恢复多帧depth等;
  3. 学习方法应用到SLAM上,包括一些语义信息的辅助SLAM和动态场景下SLAM等;
  4. VO,利用CNN求前后帧的Relative Pose;
  5. VIO,结合IMU信息求前后帧的Relative Pose;
  6. 利用CNN网络直接估计单帧图像Depth;
  7. 利用CNN网络估计前后帧之间Flow信息;

3D Data Architecture

  1. 点云为输入的模型框架,包括PointNet系列等;
  2. Depth为输入的模型框架;
  3. RGBD为输入的模型框架;

6D Object Pose

利用CNN网络估计单帧图像中物体 6-DoF 位姿。

  1. 室内场景物体;
  2. 室外场景物体,无人驾驶应用场景,大部分是车辆的位姿;

Camera Loc

  1. 两段式先图像检索再进行2d-3d优化;
  2. 直接网络回归相机姿态,包括posenet系列等;
  3. 语义约束辅助的姿态估计;
  4. 传统的基于2d-3d或者2d-2d匹配关系求解camera location;

Deep Feature

  1. 图像全局描述符,一般用于图像检索(Image Retrieval)、地点识别(Place Recognition)等;
  2. 图像局部描述符,包括特征点提取,描述符计算,匹配度量算法学习等;
  3. 图像 appearance transfer,利用 gan 把特殊情况下(晚上,下雪)的图像转成一般情况处理,主要解决特殊情况下的图像匹配问题;