dbaplus社群 14小时前
印度人搞出了两个影响全球的伟大发明!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文讲述了纳西尔·艾哈迈德教授发明的离散余弦变换(DCT)的故事,这项技术深刻影响了现代互联网和多媒体世界。文章追溯了DCT的起源,从艾哈迈德在1970年代的早期研究,到它在JPEG标准中的应用,最终成为图像、音频和视频压缩的核心技术。文章强调了DCT在日常生活中的广泛应用,以及它对全球互联互通的重要贡献,同时致敬了这位默默无闻的伟大发明者。

💡DCT的发明背景:1970年代,艾哈迈德教授预见到未来对图像压缩的需求,那时互联网尚未普及,但他已开始探索通过压缩技术实现图像的传输,为未来的数字世界奠定了基础。

🖼️DCT的工作原理:DCT通过将图像数据转化为不同频率的波形,实现图像的压缩。它区分图像中的重要信息(低频波)和细节信息(高频波),从而在保证视觉效果的同时,大幅减少数据量,实现了高达10:1的压缩比。

🌐DCT的应用与影响:DCT被应用于JPEG标准,极大地推动了数字图像的普及。它不仅用于图像压缩,还广泛应用于音频(MP3, AAC)和视频(MPEG、H.264、HEVC)压缩,几乎是所有多媒体标准的基础算法,深刻地影响了现代互联网和多媒体世界。

👨‍🔬DCT发明者的故事:尽管DCT技术无处不在,但其发明者艾哈迈德教授却长期默默无闻。直到2020年,一部美剧和Netflix纪录片唤醒了人们对他的记忆,展现了他对科学的执着追求和为世界带来的贡献。

liuxin 2025-07-05 08:02 广东

可以说,没有DCT,我们的互联网将会黯淡无光。

“印度阿三”是国人嘲讽和揶揄印度人的说法,可是在软件业,当年我们可不敢嘲讽印度。

不但不敢嘲讽,还得去取经学习。

上世纪八九十年代,印度软件业迅速崛起,印度位置(时区)很好,英语流利,工资低,印度人在流程控制,质量控制这一块儿下了大功夫,迅速构建起庞大的外包产业。

像 InfoSys 这样的企业,不仅员工数以万计,还达到了业界最高的 CMM5级认证,成为全球软件外包的标杆。

中国软件业开始做外包的时候,学习的就是印度,诸如《计算机世界》等主流媒体,时常大篇幅报道印度的CMM 模型与质量管理体系。

在中国,哪怕是某家公司通过了CMM3级认证,也能成为业内大新闻。

而雷军当年更是亲自赴印度学习经验,希望带回先进的管理与开发模式。


不过,中国没有走这种软件工厂和外包的路线,而是抓住了互联网的机会起飞,这是后话。

印度人也比中国人更早、更系统地进入美国的高校和科技公司,奔腾芯片之父Vinod Dham,1971年进入美国留学。

Raj Reddy,60年代就赴美,是AI领域的先驱人物,第一位获得图灵奖的印度裔,他的中国学生包括李开复、沈向洋、洪小文等。


印度人在硅谷的人多,又抱团,不断带动人脉与业务联动,如今几乎霸占了硅谷各大巨头CEO的位置。

扯得有点儿远了,主要想表达的是:进入这个行业的人多了,在IT飞速发展的时代,就有机会做出一些伟大的事情。

这也是本文的主题,印度人搞出的两个影响世界的发明:

一个是阿贾伊·巴特发明的USB,统一了计算机外设的接口,之前已经讲过:一个被100亿台设备使用的发明,居然没有赚到一分钱!

第二个是纳西尔·艾哈迈德教授发明的DCT算法,个人觉得它比USB更加伟大,它深刻地影响了全世界的每一个人的生活。

可以说,没有DCT,我们的互联网将会黯淡无光。


01

早在1961年,纳西尔·艾哈迈德就来到美国读书,当他快要完成博士学位的时候,他提出了DCT(Discrete Cosine Transform ,离散余弦变换)的想法。


DCT要解决的问题是图像数据的压缩,这是一个非常非常超前的想法。

当时互联网还处于萌芽阶段,美国军方正在建设阿帕网,在这个网络上能传输的只是文字,根本就没有图片。


因为图片实在是太大了,比如一张简单的512*512的灰度图,就需要256KB的空间,当时的网络和存储来根本无法承受。

艾哈迈德坚信一定有办法缩小数字文件的大小,加快处理速度。

1972年,已经是堪萨斯州立大学教授的纳西尔·艾哈迈德,想利用暑假的几个月时间,进一步推进他的想法。

他满怀信心地写了一份申请,希望能够获得NSF(美国国家科学基金会)的赞助,但让他非常惊讶的是,评审人员认为这个想法太简单,把它拒掉了。

这里必须要说一下,当时美国很多教授的工资是按照学年发放的,正常工资只覆盖春季+秋季两个学期(9个月),夏季的三个月没有工资,教授如果想有收入,通常需要写科研基金申请,或者去企业界做顾问。

艾哈迈德申请失败,回到家里,和妻子商量:我们能在没有任何薪水的情况下,支撑一个夏天三个月吗?

妻子表示理解:没关系,我们总会有办法的。

于是艾哈迈德就在实验室昏天黑地地研究起来,晚上经常很晚才能回家。

没有钱,又无法和家人在一起,即使是一起吃个晚饭也不太可能。

一天晚上,当他10点才到家的时候,妻子又心疼又生气,流着泪问他:“你到底在办公室里做什么?比家人还重要?”

艾哈迈德还沉浸在研究中:“我离一个重大突破就差一点点了,至今还没有人能高效地计算Karhunen–Loève 变换。所以我想到,或许可以用余弦变换来研究这个问题。”

妻子根本就听不懂,她说:“你这么拼命,到底有什么意义?”

艾哈迈德想了想,说道:“如果你妈妈要一张迈克的照片,我们是不是需要把照片寄到阿根廷,她几周后才能看到外孙子的照片,对吧?”

妻子点点头。

“那如果她不用等邮件,几乎瞬间能在电脑上看到那张照片,会怎么样?”

“你是什么意思?这怎么可能?”

“军方已经建立了一个遍布全球的计算机网络,它们互相连接。假设有一天,这个网络会普及到普通人手中。如果我的团队能优化一种数据压缩算法,大家就能在这个网络上传输图像了。”

“也就是说,你把照片放到电脑上,我妈妈在地球另一端,也能看到同一张照片。”

“对,想象一下,不仅仅是照片,有一天,你可以在屏幕上与人通话——就像打电话一样,但还有视频。”

当我看到这个小故事的时候,真是无比感慨,这是1972年,艾哈迈德已经预见了几十年后的未来,他正在为人类全新的连接方式打造基础。


02

在那个假期,艾哈迈德取得了技术的突破,又经过了两年的严格测试以后,《离散余弦变换(DCT)》终于在IEEE 计算机学报上发表。

这里稍微解释一下它的工作原理,图像原本是像素构成的二维数组(矩阵),艾哈迈德采用的DCT技术,可以把这个像素矩阵转化为波形,表示为一系列频率不同的振荡波。

艾哈迈德发现,低频波通常对应图像中“重要”或“高信息”的区域(图像的大致轮廓、光影、主结构),而高频波则代表图像中“次要”或“可近似”的细节部分(纹理、边缘、小细节),这样就可以保留重要部分,舍弃细节部分,从而在保留视觉效果的同时,实现压缩。

DCT 虽然是一种“有损压缩”,但人眼几乎察觉不出区别。

压缩比非常惊人,达到了10:1

40 年代克劳德·香农在信息论中预言可以用“有损压缩”来传输信息,但几十年来缺乏真正有效的方法,DCT的出现终于终结了这一局面。

唯一的问题是,DCT太过超前,那篇伟大的论文并没有引发太大反响。

十年以后,随着个人计算机和网络的兴起,对图片的存储和传输的需求越来越大,1986 年,ISO(国际标准化组织)和 CCITT(国际电报电话咨询委员会) 联合成立一个工作组:Joint Photographic Experts Group,简称 JPEG,目标是制定一个全球通用的压缩静态图像的标准。

他们测试了已知的各种算法,包括哈夫曼编码、向量量化、Walsh变换、离散傅里叶变换(DFT)等,最终发现有一种算法在压缩效率与图像质量之间取得了最好的平衡,这个算法就是艾哈迈德发明的DCT。

1992年,JPEG工作组正式发布JPEG标准,随着数码相机、网页浏览、CD-ROM、多媒体软件的普及,JPEG 几乎成了数字图像的代名词。而DCT 也因此走向全球。

在90年代上过网的小伙伴肯定经历过类似的事情:

一张图片刚开始非常模糊,然后变得慢慢清晰,这叫做渐进式DCT。

或者一张图片显示的时候像窗帘一样慢慢卷下来,这叫做顺序DCT。

DCT不仅仅用于图像,它还可以做音频压缩(MP3,AAC等),视频压缩(MPEG、H.264、HEVC等),凡是涉及到多媒体的领域,几乎都能看到它的身影,它是大多数标准的基础算法。

当你用抖音、快手、视频号刷短视频/看直播的时候,当你用手机摄像头和远方的亲人聊天的时候,当你参加各种频会议的时候,DCT算法就隐藏在背后,默默地工作。


03

尽管 DCT 是一项划时代的技术发明,但它的缔造者艾哈迈德教授却几乎被人遗忘。

直到 2020 年,一集名为《This is Us:In the Room》的美剧唤醒了人们的记忆——它动情地讲述了 DCT 算法在新冠疫情封锁期间,为全球数以亿计的家庭带来的安慰与连结。

随后,Netflix 为他拍摄了一部纪录片,年迈的艾哈迈德和妻子,第一次面对镜头,讲述了那个酷暑中孤注一掷的决定,那段执着探索的时光。

纪录片的最后一个镜头,是老两口挽着手走在一条普通的街道上,身影安静却无比笃定。

没有奖杯、没有豪宅、也没有耀眼的财富,但他们给世界带来了光影与声音,缩短了人与人之间的距离。

他们的故事,像 DCT 本身一样——不喧嚣,却无处不在。


本文作者

刘欣著有畅销书《码农翻身》,《半小时漫画计算机》,前IBM架构师,领导过多个企业应用架构设计和开发工作;洞察技术本质,擅长用故事去讲解复杂技术。


来源丨公众号:码农翻身(ID:coderising)

dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DCT JPEG 图像压缩 算法
相关文章