三维视觉
一文带你入门 3D Gaussian Splatting
强烈去看 b 站 up 主中恩实验室 的系列视频! Siggraph 2023 Best Paper!1. 引言1.1 任务文章涉及到的任务是三维重建+渲染。 文章提出了一种新方法实现了辐射场的实时渲染,能够在较少的训练时间中,实现SOTA级别的视觉效果,针对用多张照片和视频拍摄的场景,允许以 1080p 分辨率进行高质量的实时(≥ 30 fps)新视图合成。 可以先用一句话表达 3D Gaussian Splatting 干了什么:使用 3D Gaussian 球表示三维模型,并通过 Splat…
ICCV 2023 NERF相关文章
最近ICCV2023也放榜了,目前对看到的NERF相关的文章做一个初步的整理,有价值的工作会再做笔记。 后续若还发现更多相关的文章,也会做持续的列表更新。近期的NERF相关文章感觉质量还是很高的,有好些关于fundamental representation优化的工作,特别是anti aliasing相关的NERF,即Mip-NERF的系列。 Mip-NERF的工作个人感觉还是很solid的,cone tracing加IPE的改动,从方法的原理来看就是work的,但速度确实很慢,训练一次要好几…
如何在网页中嵌入3D模型?
官网作为企业展示品牌形象的重要平台,除了展示企业的产品和服务,也是与客户沟通交流的重要工具。 随着3D技术的发展,三维模型在网站中的应用也越来越广泛,3D交互设计不仅可以为企业和品牌带来独特和个性化的形象展示,还可以为用户带来参与感和沉浸感。 [图片] [图片] 管道泵业龙头企业「普轩特泵业」,利用模型嵌入功能,将水泵产品3D模型嵌入到官网,让客户可720°旋转缩放查看产品细节。 [图片] 如何在网页嵌入3D模型?利用 51平台 的「模型内嵌…
一文详解OpenCV中的CUDA模块
如果你使用OpenCV已有一段时间,那么您应该已经注意到,在大多数情况下,OpenCV都使用CPU,这并不总能保证您所需的性能。为了解决这个问题,OpenCV在2010年增加了一个新模块,该模块使用CUDA提供GPU加速。您可以在下面找到一个展示GPU模块优势的基准测试: [图片] 简单列举下本文要交代的几个事情:概述已经支持CUDA的OpenCV模块。看一下cv :: gpu :: GpuMat(cv2.cuda_GpuMat)。了解如何在CPU和GPU之间传输数据。了解如何利用多个GPU…
浅谈三维点云中的几何语义
前言本文介绍了点云中不可忽视的一项重要属性——几何语义,并尝试根据自己的理解和实践经验对其进行一些归纳总结,可能有些地方有理解有误,请大家 抱着批判的态度学习。正文关于点云的悠久历史本文不过多描述,我们先简单谈谈为什么点云的几何语义对点云来说十分重要(无论传统方法or基于学习的方法)。早期受硬件设备和技术的限制,学者们对点云问题的处理方法有一种思路是将点云转为多张二维图像,然后采用更为可靠的数字图…
一文详解双目相机标定理论
01 前言双目相机标定,从广义上讲,其实它包含两个部分内容: 两台相机各自误差的标定(单目标定)两台相机之间相互位置的标定(狭义,双目标定)在这里我们所说的双目标定是狭义的,讲解理论的时候仅指两台相机之间相互位置的标定,在代码实践的时候,我们才说完整的双目标定。 首先来思考一个问题: 为什么要进行双目标定?这是因为在许多三维重建算法中,我们都要知道两台相机之间的相对位置关系,这样才能进行距离计算。双目…
实验室的师兄刚毕业,都找的是slam方向的工作,自己也正在往这个方向努力.所以在这里总结以下学习经验吧. 个人认为看视频的效率较低,更倾向于看书,以下的推荐的 英文书籍大都可以在Library Genes is(需富强上网)上找到,都是个人已经看完或者正在看的书,相信会对你有所帮助.1. 基础篇1.1 C++ C++是slam所有知识的基础,它的作用和地位怎么强调都不为过,在学习其他所有知识之前一定要先过这一关.否则你的接下来的路会很难走.在这里推荐…
在图像匹配领域,传统设计的描述子逐渐被学习型描述子取代,深度学习成为主流趋势;在特征检测方面,深度学习展现了它的魅力。然而 在实际落地应用中,仍然以传统设计方法为主。最近两年,学习型描述子的代表性文章有: ⚫ L2Net: progressive sampling strategy,relative distance between descriptors and extra supervision. CVPR 2017 ⚫ HardNet: Working hard to know your neighbor's margins: Local descriptor learnin…
清华&天津大学新作 | SurroundOcc: 面向自动驾驶场景的纯视觉 3D 语义占据预测 (已开源)
本文首发于微信公众号 CVHub,不得以任何形式转载到其它平台,仅供学习交流,违者必究!清华&天津大学新作 | SurroundOcc: 面向自动驾驶场景的纯视觉 3D 语义占据预测 (已开源) [图片] Title: SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving Paper: https://arxiv.org/pdf/2303.09551.pdf Code: https://github.com/weiyithu/SurroundOcc 导读传统的 3D 场景理解方法大多数都集中在 3D 目标检测上,难以描述任意形状和无限类别的真实世界物体。本…
建议参考基于视觉SLAM十四讲第二版第13章进行修改的代码: GitHub - Mingrui-Yu/A-Simple-Stereo-SLAM-System-with-Deep-Loop-Closing: A simple stereo SLAM system with deep loop closing module. May be useful and friendly for SLAM beginners. 作者用基于深度学习的方式做了简单的回环检测。建图部分作者只是构建了用于追踪用的特征点点路标地图,有需要可以参考十四讲中点云拼接的实验(第一版是在第5讲,第二版不太清楚…
首先是代码环境问题:标配Ubuntu+ROS,因为绝大部分源码是C++,所以CMake的基本模板要会用【古月居】古月 · ROS入门21讲_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili 必看入门书籍:视觉SLAM十四讲 稍微进阶:机器人学的状态估计,多视图几何Multiple View Geometry -多视图几何(突然增加了字幕手机全屏右上角打开字幕第二节没有字幕)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili SLAM相关非常易懂快速上手的课程:这位浙大教授讲得非常非常…
恰恰相反,正因为大家都跑去做深度学习了,反而导致传统视觉很紧俏。之前我也认为深度学习是万能的,直到工作做工业检测场景,发现深度学习的局限性也很大,首先缺陷如何定义,数据量如何满足、推理速度限制等等问题。 而据我所知,至少在前处理和测量等任务上,都优先选择传统视觉算法。前处理,比如找点、找线、找圆等简单的操作都优先选择传统视觉算法(工业场景,那么多样品过流水线,找个点线圆还用深度学习,花都谢了);测…
建图定位任务,要得到位姿和地图。 对于普通帧,我们只求一个位姿,只用求定位。 对于关键帧,我们不仅要求位姿,还要求地图,即三维空间地图点。 普通帧需要从关键帧的三维空间点中去匹配一些点,去优化自己的位姿。普通帧不需要生成三维地图点。 所以,我们称关键帧是普通帧的路标。 关键帧是从普通帧中挑选的。 在跟踪定位的过程中,挑一些适当的普通帧升级为关键帧。 普通帧何时升级为关键帧? 一开始,先从普通帧中,找可以…
Neural Fields: Home 这个网站提供了最新论文的检索数据库 Awesome-Learn-3D-From-2D 我的一个目前还比较杂乱的库和Diffusion Model的结合也可以卷起来了 Diffusion+3D 这个方向太火热了,发个B会还是不难的。沿用GAN的很多idea,套过来就能做增量工作,效果还不错,只是没那么新颖,但也算个点子。 而要发A甚至顶会,直接的idea,大家都能想到,就看谁做得快了,对于新手没有基础的课题组而言,这会很难很难。不那么好想的idea,…
国内不灌水的团队,恕我直言,真的很少,下面写一下我知道的几个 含水量低的团队(主要是网络架构、目标检测、分割方向),代表作只说明团队的产出MSRA系王井东:好像去百度了,代表作HRNet 代季峰:在商汤,代表作DCN 胡瀚:在MSRA,代表作SwinT 孙剑:在旷视,代表作ResNet 张祥雨:在旷视,代表作ShuffleNet 孔涛:在字节跳动,代表作SOLO 港中文系汤晓鸥:在商汤,代表作DeepID 贾佳亚:在思谋,代表作PSPNet 王利民:在南大,…
工程slam对数学要求不算特别高。大部分都是应用数学范畴,但是本科只学过四门数学课的确不够用。比如我本科的四门数学课高数线代复变概率统计。 正如你所说,你研究生阶段开始学习数值分析,最优化,凸优化,slam要用一点李代数李群表示位姿做优化,矩阵论这些东西。 其实所有这些,都不是空中楼阁,往往都有明确的现实物理意义。所以我建议你在补数学基础的时候,要时刻记得仅仅看公式推导是不够的,要去找相应部分的开源代码看…
香港理工大学王冰老师招收三维视觉及机器人方向博士生/研究助理
导师简介:王冰,牛津大学计算机科学博士(2018.10-2022.08),华为五星天才少年(2022.09-2023.02),现任香港理工大学航空航天系助理教授。目前负责 “Spatial Intelligence (SPACE)” 研究组,欢迎优秀学生加入。 [图片] 个人主页: https://www.polyu.edu.hk/aae/people/academic-staff/dr-wang-bing/ 学术主页: https://scholar.google.co.uk/citations?user=W7QhPeUAAAAJ&hl=en 具体研究课题:新组建的SPACE专注于机器学习及三维视觉领域的基础研究,致力于使自主系统在现实世界中具备智能且可靠的场景感知与理解能力。具…
鸟瞰视图比较直接,这里主要说一下透视视图吧。 激光雷达的点云来自于多条激光扫描线。比如说64线的激光雷达,那么在垂直方向(Inclination)上就有64个离散的角度。激光雷达在FOV内扫描一遍,会有多个水平方向(Azimuth)的角度。比如说水平分辨率是0.2°,那么扫描360°就会产生1800个离散的角度。这里也可以粗略把Inclination和Azimuth理解为地球上的维度和经度。把水平和垂直方向的角度值作为X-Y坐标,就可以得到一个二维图…