2025-05-15 17:33 四川
这是一本名为《动手学计算机视觉》的书,由沈为老师编著。计算机视觉可以理解为让计算机看懂图片、视频,然后再进行后续处理。
这是一本名为《动手学计算机视觉》的书,由沈为老师编著。
计算机视觉可以理解为让计算机看懂图片、视频,然后再进行后续处理。比如目前流行的多态大模型,意思就是能够理解文本、图片、视频、音乐的模型。
它主要面向以下人群:
计算机视觉及人工智能领域的学生,特别是那些希望系统学习经典算法并理解其与现代深度学习技术关联的学子。
计算机视觉领域的初学者,他们希望全面了解该领域的技术脉络和实践方法。
希望提升实际工程能力的开发者,他们可以通过书中的代码和实现细节来培养工程化思维。
对计算机视觉发展历程及其背后原理感兴趣的读者。
感兴趣的同学可以购买一本看看:
书中主要讲述了以下内容:
计算机视觉技术的演进:系统梳理了从传统的图像处理、视觉识别到三维重建等经典算法,并将其与当前的研究热点(特别是深度学习)相结合,揭示了技术发展的前因后果。
算法的实现细节与核心原理:深入剖析了计算机视觉算法的具体实现步骤和关键细节,并融入了作者的理解,帮助读者掌握算法的本质。
理论与实践的结合:强调“动手”实践,提供了大量可运行的代码示例,旨在帮助读者将理论知识应用于实际,搭建计算机视觉系统,培养解决实际问题的能力。书中也阐述了经典算法在当今时代的价值,包括其在特定场景下的实用性、与深度学习的互补性以及帮助理解学科本质的重要性。
---
以下为作者撰写内容:
大家好,我是沈为。
蛇年伊始,我的新书《动手学计算机视觉》正式和大家见面了!
这本书是我人生中编写的第一本书,断断续续地写了3年,终于如期付梓。这3年也是我从国外回到国内开启职业生涯新篇章的3年,整个写书的过程也伴随着我自己的成长。这里将写这本书的心路历程分享给大家,以便让大家了解我为什么要写这本书以及读者可以从这本书中收获什么。
▼点击下方,即可购书
Part.1
为什么写这本书?
2022年初,我的同事张伟楠老师找到我,说俞勇老师正在组织编写一套人工智能领域的系列教材,名为“动手学”的系列丛书,因为我正给上海交通大学人工智能(卓越人才试点班)教授计算机视觉课程,所以希望我来编写《动手学计算机视觉》这本书。
一开始,我是犹豫不决的。因为一是没有写书的经验,二是作为一名刚入职上海交通大学这样一座顶尖学府的青椒(青年教师),教学、论文、项目、服务的各种压力已经很大了,在如今这样一个快节奏的科研环境下,大家都希望尽快做出一些科研成果,以完成考核,拿到长聘教职。写书耗时费心,吃力不讨好。当然,最后在伟楠的劝说(忽悠)下,我还是答应了。
但是刚开始写的时候,确实如我预料的那样,遇到了很多困难,诸如工作的繁忙和时间的碎片化,所以写作效果不是很好。为此,俞勇老师和伟楠专门请我吃饭,他们一句话提醒了我——你所有的论文加起来也不会有这本书对你的学术声誉影响大。这让我重新思考为什么要写这本书。
我进入计算机视觉领域是在2010年,当时深度学习还没有进入大众的视野,人工智能还处于低谷,彼时的研究更多的是基于数学建模或者经验设计,而非现在的数据驱动。随着近十几年深度学习的迅猛发展以及大模型的兴起,计算机视觉的研究范式早已发生了天翻地覆的变化。
所以现在很多年轻的学生,包括我自己的学生,都很会设计神经网络,很会炼丹(调参),但是却对经典计算机视觉算法很陌生,甚至都不知道诸如David Lowe、Pedro Felzenszwalb这些当年闪耀的名字。
▲图 计算机视觉发展史
在如今的大模型时代,经典计算机视觉算法(如SIFT、HOG、Harris角点检测、对极几何等)还有学习的价值吗?当然有!
首先,经典算法仍然具有不可替代性,例如在资源受限场景(如无GPU环境)下具有更好的实用性;
其次,经典算法与深度学习模型也有互补性,如很多基础图像处理算法可以用于数据增强,帮助深度网络的训练;
最后,也是最重要的,学习经典算法能够帮助我们更好地理解计算机视觉的本质,因为这些经典算法往往立足于几何与物理的根基,具有优美的数学建模,也是“第一性原理”的体现。
所以,我需要写这么一本书来展现计算机视觉的全貌,在这个浮躁的时代完成这些知识的沉淀。
Part.2
读者可以从这本书中收获什么?
首先,读者可以通过本书了解计算机视觉技术的演进过程。
本书从图像处理到视觉识别,再到三维重建,循序渐进,详细介绍了经典算法,同时也涵盖了当前的研究热点。这种组织结构能够帮助读者建立前沿技术与经典技术之间的关联,从而更好地理解深度学习的“前世今生”,因为很多神经网络模块就是对经典算法的抽象升级(例如,CNN的卷积层和图像滤波器的关系)。
其次,读者可以通过本书洞悉计算机视觉算法的实现细节。
在介绍各个算法原理时,我们不仅深入探讨了大量的算法细节,还融入了我们对这些算法的深刻理解,如Faster R-CNN的训练细节。对于初学者来说,这种理解尤为宝贵,因为能帮助他们更好地掌握算法背后的核心原理,为后续的学习和实践奠定坚实的基础。
最后,读者可以通过本书形成计算机视觉理论到代码的闭环,培养工程化思维。
计算机视觉是一个对工程实现要求较高的领域,很多计算机视觉方法能否奏效的关键在于代码实现细节的好坏,如数据预处理中的一些细节。
本书配套了大量可在线运行的代码,帮助读者从一点一滴搭建计算机视觉系统,让计算机视觉算法不再“飘”在数学符号中,而是扎根于真实世界的像素与数据。
----
都看到这了,下单买一本吧,感谢支持: