原创 范阳 2025-04-14 23:00 上海
“我们有 90 多位数学和物理学的博士,没日没夜就干这个工作”。
当下的金融和投资市场越来越像一场“语言游戏”,甚至进入了 vibe investing ( 氛围感投资 ),很多数据和信息本身不构成意义,只构成生成出的现实的“氛围”。这可能也契合了现在的大语言模型( LLM )在金融/投资领域发挥超能力的开始。最近和一位做投资的朋友一起喝咖啡时感叹,创造出 DeepSeek 这一团队的是一家对冲基金,我们已经看到 “quant is eating the world”。
在自然语言处理( NLP ) 领域,两位传奇科学家彼得·布朗与鲍勃·默瑟可以说是后来的谷歌翻译以及现在的大语言模型的奠基人,他们后来成为了对冲基金巨头文艺复兴科技( Renaissance Technologies LLC )的联席 CEO, 而文艺复兴科技的创始人数学家出身的 Jim Simons 可能做过最重要的决定就是从 IBM 的机器翻译研究团队挖来了他们两位。而当时 IBM 相当于鼎盛时期的谷歌,是科学家安心做研究又能享受生活的乐土。而一些家庭变故机缘巧合的引导他们从事了一份“在科学界被认为丢脸”的工作——带着一生所学,加入一家投资公司进入金融领域开始赚钱。彼得·布朗与鲍勃·默瑟后来也成就了史上最赚钱的基金——文艺复兴科技旗下的大奖章基金( Medallion )。
推荐阅读之前的文章:詹姆斯·西蒙斯:用数学和科学赚钱的人。| 文艺复兴科技与熨斗研究所(一)
文艺复兴科技创始人 Jim Simons
鲍勃·默瑟与彼得·布朗,计算机科学家,自然语言处理先驱,曾任文艺复兴科技联席 CEO。
鲍勃·默瑟与彼得·布朗在1990年代初加入文艺复兴科技之后的基金回报表现。
鲍勃·默瑟与彼得·布朗刚加入文艺复兴科技的时候,带着 90 多个跨学科数学,物理学,计算语言学还有神经科学等等的天才,加上上万台电脑,寻找那些没人轻易相信的微弱规律,在金融市场上领先对手的认知,变现他们找到的这些“信号”。今天又有一批新时代的跨学科科学家跃跃欲试把自己的知识与建模能力,应用在瞬息万变的投资领域,也许他们会在开拓科学前沿的途中,意外的颠覆了金融市场的棋局。过去对冲基金是基于黑箱的秘密,而这一次有可能是透明见光的,赋予所有人。
这篇文章可能是鲍勃·默瑟与彼得·布朗唯一一次共同公开访谈,以及在文章后半部分他们谨慎地谈论了一些文艺复兴科技的交易策略和科学家团队工作方式的话题。希望今天的文章对你有启发。新一周愉快。
双语文本二十年
Twenty Years of Bitext
双语文本是 2013 年 EMNLP 研讨会的主题,该会议旨在纪念布朗、默瑟团队使用加拿大议会双语记录( 即 bitext )推动统计机器翻译发展的二十年历程。
原文整理人:Matt Post
编辑:范阳
“哦,是的,一切都在按计划进行,弗雷德”
——彼得·布朗与鲍勃·默瑟
“Oh, yes, everything’s right on schedule, Fred”
Peter Brown & Bob Mercer
范阳注:本文中的 Bob Mercer 等同于 Robert Mercer
在上世纪八十年代末到九十年代初,罗伯特·默瑟( Robert Mercer )、彼得·布朗( Peter Brown )以及他们在 IBM 的研究同事们将语音识别中的统计方法应用到了机器翻译( MT )的问题上( applied statistical approaches from speech recognition to the problem of machine translation (MT) )——也就是让计算机自动翻译人类语言的任务。他们的工作开启了整个研究领域,并最终促成了今天像微软翻译和谷歌翻译这样的高质量商业自动翻译服务的出现。在完成这一开创性工作不久之后,他们离开了该领域转向华尔街,帮助建立了全球最成功的对冲基金之一——文艺复兴科技公司(Renaissance Technologies),他们现在正是该公司的管理者。
2013 年 10 月,鲍勃和彼得在 EMNLP 研讨会“《双语文本二十年》( Twenty Years of Bitext )”上发表了特邀演讲并参与了问答环节。该研讨会旨在庆祝他们开创性的科学研究,并回顾这期间所取得的进展。他们的演讲题为“哦,是的,一切都在按计划进行,弗雷德”,这是引用他们讲述的一个故事:他们是在他们的老板、已故的弗雷德·耶利内克( Fred Jelinek )外出时开始统计机器翻译工作的。当时史蒂芬和文森特·德拉·皮耶特拉( Stephen and Vincent Della Pietra )也在现场。
以下是他们在研讨会中发言部分的带注释实录。
诺亚·史密斯( Noah Smith )
好的,欢迎回来。我是诺亚·史密斯,本次研讨会的联合组织者之一。
我为这段介绍思考了很久。我决定用一个类比。几年前,我在一个新闻业会议上做了个演讲,当时我意识到我们这个领域( 自然语言处理 )对记者工作的“诡异迷恋”( a creepy fascination ),而记者们对此一无所知。所以当我开始介绍自然语言处理是做什么的时,我告诉在座的记者:你们的作品,在发表之后,实际上会被秘密收集起来,然后被人一遍一遍地精读,并由一些对每个细节、每个词语都着迷的人手动标注,还会构建句法树( parse trees )之类的结构。我想他们当时被吓到了,之后也没再邀请我去。
现在我们来到了这里。这是一次非常奇妙的体验。我 1993 年那会儿并不在场。Philipp 那时候还在上高中;而我当时在……我就不说了。但我们从那个时代留下来的,是一系列论文,它们成为某些惊人事情正在发生的证据。当我向我的学生列举那个研究小组在那个时代做出的成果时,我提到了最大熵模型( maxent models ),它们最终推动了基于判别特征的学习( discriminative feature-based learning ),而这如今已是自然语言处理与机器翻译的核心方法之一。还有整个“数据驱动”( data-driven )的理念:用数据来构建语言理解系统( using data to build language understanding systems )。
布朗聚类( Brown clustering )——是的,那个 Brown 就是一个人名,布朗!我不知道彼得是否知道大家现在都叫它“Brown clustering”,但是——
彼得·布朗( Peter Brown )
应该叫默瑟聚类( Mercer Clustering )。
诺亚·史密斯(Noah Smith)
——这至今仍是重要工具,各位可以在我们官网查看推特词汇的布朗聚类结果。词义消歧( word sense disambiguation )的成果,还有当然了,统计机器翻译( statistical machine translation )。今天我们使用的技术中,有哪一项不是这个研究团队发明的吗?你们当时是不是也搞了“布朗语料库”( Brown Corpus )?[笑声]
总之,这些成果几乎都在同一个时期诞生,而现在对我们而言仍然充满神秘。对那些希望在这个领域做出卓越研究、希望建立伟大研究团队的人来说,根据这些成果留下的证据,我们有一种强烈的感觉:当年确实有一些非常了不起的事情正在发生。我只是想向你们保证一下( 我知道你们可能带着一些忐忑来到这里 ):无论你们今天说什么,我们都会非常感兴趣,而且我们会非常仔细地研读你们的每一句话。希望不会太“过度分析”,而是成为长久研究的对象。
现在,我非常荣幸地欢迎鲍勃·默瑟( Bob Mercer )和彼得·布朗( Peter Brown )来到现场。我还想提一下,斯蒂芬与文森特·德拉·皮耶特拉( Stephen and Vincent Della Pietra )也在观众席中。接下来的演讲将持续大约一个小时,然后我们将有一个由菲利普·雷兹尼克( Philip Resnik )主持的小组讨论,持续到午餐时间。让我们欢迎鲍勃与彼得。
鲍勃·默瑟(Bob Mercer)
谢谢诺亚( Noah )。当我们收到诺亚邀请我们在本次研讨会上发言时,我们的第一反应是:"我们还能讲些什么呢?"我们二十年前就离开了IBM研究院( IBM Research ),从那以后就完全没再关注自然语言处理( NLP, natural language processing )领域的发展。遗憾的是,我们现在的工作内容也完全不能透露。所以我们决定就回忆一下过去吧。
我先简单说说我是怎么开始在 IBM 语音识别组( speech recognition group )写计算机程序的,然后交给彼得( Peter )来谈谈机器翻译的部分。
ENIAC( Electronic Numerical Integrator and Computer,电子数字积分计算机 )是首台通用电子数字计算机。如图所示,这台由J.普雷斯珀·埃克特( J. Presper Eckert )和约翰·莫奇利( John Mauchly )发明的庞然大物重约30吨。其存储系统包含200个十进制数位( decimal digits ),以 20 个带符号的 10 位整数形式组织,每秒可执行 350 次乘法运算——如您所见,每个数字位( digit )相当于重达 300 磅。该计算机最初设计用于计算火炮射表( artillery tables ),后很快被约翰·冯·诺伊曼( John von Neumann )征用进行氢弹运算。这台诞生于宾夕法尼亚大学的计算机,于 1946 年 7 月通过美国陆军军械部队( US Army Ordnance Corps )验收。这个日期对我意义非凡——因为那正是我出生的月份。
我一直对计算机着迷,但直到十年后,我才真正开始了解它们,那是我爸爸向我解释 IBM 650 是如何运作的。IBM 650 的内存由一个圆柱形鼓构成,可以储存两千个带符号的十位整数,这个鼓以每秒两百转的速度旋转。当这些整数被作为指令解释时,每条指令都包含一个操作码(op code),说明要执行什么操作;一个操作数地址,指明要参与运算的数据位置;还有一个第二地址,用于定位鼓上下一条指令的位置。这两个地址都是四位数的,这显然是必要的,因为你需要能够定位鼓上的任意两千个位置,这样就只剩下两位数字来表示操作码了。
现在,如果你当前的指令执行得太快,你可能需要等待几个微秒,让目标整数旋转到读头下方,你才能知道下一步该做什么。但如果指令执行得稍微慢了一点,等你准备好读下一条指令时,它的地址可能刚刚从读头下方经过了,你就得再等上五毫秒,直到鼓转完一圈,才能继续下一步。我当时并没有计算机手册,也完全不知道写计算机程序意味着什么,甚至不知道这些指令到底是干什么的,但我把所有时间都花在思考这个问题上——怎样才能协调好一切,让下一条指令正好在你需要它的时候出现在读头下方,这样你就不用再等鼓转一圈了。
后来我长大了一点,爸爸带回了一本 Burroughs B5000 的 Algol 编程手册。我写了很多 Algol 程序,记录在一个大笔记本里,随身携带着。但它们中的任何一个真正能运行的可能性都非常小,因为我当时根本没有计算机可以运行它们。直到高中毕业后,我才第一次真正用上计算机。
在高三毕业后的那个夏天,我花了三周时间,代表新墨西哥州参加了全国青年科学营( National Youth Science Camp ),在那里我学习了如何用 Fortran 编程,还在一台 IBM 捐赠给营地的 IBM 1620 上动手实践。这台机器拥有四万个十进制数字的内存,每秒可以完成五十次十位数的乘法运算。
营地结束后,我进入阿尔伯克基的新墨西哥大学( University of New Mexico in Albuquerque )学习数学、物理和化学。那个年代,新墨西哥大学还没有开设计算机科学课程。但我在附近的柯特兰空军基地( Kirtland Air Force Base )武器实验室找到了一份工作,负责为一台 CDC 6600 编写 Fortran 程序。CDC 6600 在当时堪称超级计算机,它拥有 256,000 个 60 位字(words)的内存,并且每秒能完成超过一百万次 60 位乘法运算。
从 IBM 1620 跳跃到 CDC 6600,这个跨越对我来说实在令人震惊。而在武器实验室工作的那段时间里,我听说伊利诺伊大学( University of Illinois )有个叫 Dan Slotnick 的人正在建造一台名为 ILLIAC IV 的计算机。据说,一旦 ILLIAC IV 启动,它将把全世界的计算能力提升一倍。
我在武器实验室学到了许多令人着迷的事情,但也许最重要的,是我意识到我真的非常热爱计算机的世界。我喜欢深夜计算机实验室中的那种孤独感,喜欢那里冷气环绕的气味,喜欢硬盘旋转的嗡嗡声和打印机敲击的咔哒声。我喜欢翻阅代码打印列表,甚至连霍勒里斯卡片( Hollerith cards,一种穿孔卡片,用于早期的编程和数据输入 )我都爱不释手。
所以,当我离开新墨西哥大学和武器实验室之后,我放弃了原本计划攻读的数学逻辑研究生学位,转而前往伊利诺伊大学学习计算机科学,并投身到 ILLIAC IV 项目的建设中去。
以防在座有些人从未见过霍勒里斯卡片( Hollerith card ),这里有一张赫尔曼·霍勒里斯( Herman Hollerith )的照片。他发明了像这样的一种穿孔卡片,用于统计 1890 年美国人口普查的数据。
1911年,他创办的制表机公司( Tabulating Machine Company )与另外三家公司合并,组成了“计算制表记录公司”( Computing Tabulating Recording Company ),这个公司后来在1924年由托马斯·J·沃森( Thomas J. Watson )将其更名为 IBM( 国际商业机器公司 )。
多年来,霍勒里斯卡片逐渐演变成了现在你所看到的这个样子。
在我完成博士学位后,我申请了 IBM 研究院的职位,尽管我对 IBM 计算机的看法不太好——毕竟我亲眼见过 IBM 1620 和 CDC 6600 之间巨大的性能差距。但当我造访沃森研究中心时,我对那里的环境和在那里工作的人都印象深刻。他们向我提供了一个职位,是开发一个可以生成可证明正确代码的编译器( a compiler to produce provably correct code )。我在 1972 年春天接受了这个职位,但等到我秋天到岗时,这个项目已经被取消了。
计算机科学部门的负责人告诉我,可以花几周时间四处了解一下,看看有没有感兴趣的研究小组。于是我就这么做了。我和一些人聊过,当时一个新成立的语音识别小组引起了我的兴趣。这个小组在学术上由 Fred Jelinek 和 Lalit Bahl 领导,他们是信息论领域的专家( a couple of information theorists )。
我立刻被他们“噪声信道”方式来建模语音识别问题的思路所吸引,这种方式让我觉得他们看问题的角度是对的( I felt immediately with their noisy channel formulation of the speech recognition problem was the correct way to look at things ),于是我就加入了他们的团队。几乎就在我还没来得及完全“安顿好”的时候,一个名叫 John Cocke 的老先生来找我聊天。那时我还不知道,他其实是 IBM 非常有名的人物。
他之所以来找我,是因为我曾经参与过 ILLIAC IV 项目。而早在 1958 年,当 Slotnick 还在 IBM 工作时,他和 John 曾经合作写过一篇论文,讨论了一种类似于 ILLIAC IV 架构的计算机设计。我猜 John 是有办公室的,但说实话,在我在 IBM 多年的时间里,我们确实有很多对话,可我从来没见过他在办公室里。说来奇怪,我甚至不知道他办公室在哪里。他总是四处游走,和大家交谈( He just wondered around talking to people )。
这是 John 的一张照片。John 就是右边那位。左边的那位是 John Backus,他是 FORTRAN 编程语言的发明者。这张照片大概是 50 年代末或 60 年代初拍的,但老实说,这只是我根据 Backus 看起来很年轻,以及这两个人在那个时期都在 IBM 研究所工作的背景做的猜测。我之所以展示这张照片,是因为这就是我第一次见到 John 时的样子——1972 年,当时他看起来就是这样,而他最后一次出现在我面前时,差不多也是这个模样,时间大概是在 90 年代末。他总是穿着西装、打着领带,通常还抽着烟,身上总是能看到烟头烫伤的痕迹——不管是他的西装、衬衫、领带还是裤子。
John 对语音识别和机器翻译都非常热衷( John was very enthusiastic about both speech recognition and machine translation )。我想 Peter 稍后会再提到他一些。
这是我们1981年在 ICASSP ( 国际声学、语音与信号处理会议 )上戏称为"语音识别基本方程"的公式。各位当然都清楚,这不过是贝叶斯定理( Bayes' Rule )的一个应用。将其用于语音识别或机器翻译时存在一个问题:必须能够计算 w 的概率——即对构成英语的单词序列进行概率表征( probabilistic characterization )。这就需要建立英语的统计模型( statistical model of English )。
我们的思路是:采集大量英语文本,将其建模为某个有限状态机 ( finite state machine ) 的输出。但当时我们根本没有计算机可读的 ( computer-readable ) 文本。如今收集几十亿份可读文档易如反掌,但在那个年代这几乎是不可能的。我们将目标设定为:建立包含 1000 个单词词汇表( vocabulary )的自然英语句子模型。这个规模既远超当时语音识别领域流行的有限状态语言 ( finite state languages ) 的典型容量,又恰好在我们处理能力范围之内。
我们的第一个想法是使用 IBM 手册,这类手册有不少,而且许多都可以迅速且轻松地以计算机可读的形式获取。我们很快意识到,我们不得不放弃这个计划——词汇量太大了。我们还觉得,大部分内容很难算作是正常人说的英语。[笑声]
后来我们得知“美国之音”用一种叫做“基础英语”( Basic English )的语言进行广播,这种英语的词汇量只有 850 个单词,目的是让世界各地受压迫的人们无需真正学会英语就能听懂广播内容。这听起来非常理想,但我们立刻遇到了两个问题。
首先,基础英语的支持者在计算词汇量时,忽略了动词的变位、名词、形容词和副词的词形变化。其次,至少在美国之音的实践中,基础英语更像是一种努力追求的理想,而不是必须严格遵守的规范。在计算词汇量时,他们不会把人名、地名,或者他们觉得大家本来就应该知道的词算进去。实际上,美国之音的广播根本没有遵守所谓的 850 词汇限制。我们又一次不得不放弃这个方向,因为词汇量仍然太大了。
于是我们萌生新主意:雇佣打字员( typists ),将《哈迪男孩》( Hardy Boys )、《南茜·朱尔》( Nancy Drew )、《汤姆·索亚历险记》( Tom Sawyer )、《灵犬莱西》( Lassie )等儿童读物手动录入为计算机可读文本( computer-readable text )。这类书籍通常每本数万字,很快我们的打字员就输入了约百万词。
但这一方案同样被迫中止——词汇量( vocabulary )再次超出可控范围。
(笑声)然后,我们在实验室语言学部门的同事 Fred Damerau 告诉我们,美国专利局已经将其在激光技术领域的专利档案数字化了( computerized their patent archives in the field of laser technology )。根据他的建议,我们获取了这批文本资料。
正如你可能猜到的,主题极为狭窄——但也正因如此,我们终于找到了一条出路。我们成功组建了一个包含大约一百五十万词的文本集合,而这些句子的词汇量仅有一千个词。总算是,我们取得了第一次真正的成功。
接下来,我们的信条是:“没有什么数据能比更多的数据更重要( there’s no data like more data )。” 随着时间推移,我们的野心也渐渐超出了最初那一千词汇的限制( the limited thousand-word vocabulary )。
幸运的是,我们后来找到了许多大型的、可供计算机读取的语料库,第一个是 Dick Garwin 的通信记录。Dick Garwin 是位传奇人物——他曾设计出第一颗氢弹,还是 IBM 的研究员和哥伦比亚大学的物理学教授。他的通信量极为庞大,涵盖了各种技术与科学话题,在研究中心甚至雇了一整队秘书来处理他的往来信件。
更棒的是:他把所有信件都保存在计算机可读的格式中,并允许我们用来做语言建模。依我记得,这一部分的语料大约有两百万词左右。
接下来就是美联社( Associated Press )了——这又是另一个重磅资源。
80年代初,彼得加入 IBM 时,成功与前雇主 Verbex 公司谈判,获得了他们为美联社 ( Associated Press ) 新闻专线积累的 2000 万词文本库( text collection )。随后我们得知某石油公司拥有大量可机读文本 ( computer-readable text ),并愿意让我们用于语言建模 ( language modeling )。不过他们担心泄露完整文档——最终我们说服对方,改为提供文本中所有11元语法片段 ( 11-gram snippets ) 的排序列表 ( sorted list )。
后来我们发现《联邦公报》( Federal Register ) 以电子形式保存。经过协商,彼得前往华盛顿为政府完成某些工作,作为交换我们获得了全部文本数据。具体数据量我已记不清了——毕竟我们早已离开 IBM,无从查证。美国盲人印刷局 ( American Printing House for the Blind ) 还向我们提供了 6000 万词的盲文版 ( Braille versions ) 小说和期刊文本。
IBM 的证词数据库( deposition database )是一个有趣的案例,堪称政府“无心插柳”的实用成果(笑声)。1969 年,在过去几年里计算机价格每年下降 35% 到 40% 的背景下——顺便说一句,这种趋势从那时一直持续到现在——美国司法部以“为广大计算机从业者伸张正义”的名义,对 IBM 提起了一项反垄断诉讼( on behalf of ill-served computer folk everywhere, filed an antitrust suit against IBM )。
13 年后,司法部终于意识到他们的案子根本站不住脚,于是撤诉了。但在这期间,IBM 在纽约白原( White Plains )设立了一个庞大的项目,把这场诉讼中产生的所有证词全部数字化。可以说,这是一个由政府间接促成的“就业项目”( a government jobs program )。
在一个巨大的房间里,成百上千的穿孔卡操作员正忙着将 IBM 提供给政府律师的各种证词内容键入到霍列里斯卡( Hollerith cards )上。我没能找到白原( White Plains )那个操作中心的照片;我现在展示的这张图,是一些人为 1940 年美国人口普查输入数据的情景。白原的那个操作现场看起来大概也就是这个样子(笑声)。或者像这样,甚至可能更像这样。那真的是一个庞大的工程。
当我们注意到这件事时,那份证词数据库已经包含了大约一亿个单词。
John Cocke 向我们介绍了这份语料库,他总是用三个问题来判断一个语料库是否具备真正广泛的覆盖范围:它有没有包含 “hacksaw(钢锯)” 这个词?[笑声]有没有包含 “pickle(泡菜)” 这个词?还有一个词——可惜我已经记不起来了。
在我们所有语料库中,唯有 IBM 证词语料库( IBM deposition corpus )能对这三个问题全部给出肯定回答。
最后要提到的是加拿大议会记录( Canadian Hansards )——这个语料库( text collection )我们最初也是通过约翰·科克( John Cocke )得知的。现在我要把话筒交给彼得( Peter ),由他继续讲解与翻译直接相关的内容。请。
彼得·布朗 ( Peter Brown )
谢谢鲍勃。在结束机读语料库( machine-readable corpora )话题前,我想补充一个鲍勃"恰好省略"的细节:关于那家石油公司的数据库 (oil company database ),按排序收集所有11元语法片段( 11-grams )会占用原始文本 11 倍的存储空间。但鲍勃想出了绝妙解决方案——他说服石油公司允许我们采用任意数据压缩技术[笑声]。由于数据库中几乎所有 11 元语法都是唯一的( unique ),我们只需将文本重新拼接就能实现 11 倍的压缩率[笑声]。
我们对机器翻译的兴趣确实始于约翰·科克( John Cocke )。正如鲍勃所说,这位 IBM 研究院的传奇人物总在沃森实验室 (Watson labs )走廊间游走,像传播花粉般在不同研究组间播撒创意( pollinating ideas from one group to another. Then after work he would wonder from one bar to another doing the same thing )。下班后他又会辗转各个酒吧继续这种"知识传播"——我们常深夜接到他的电话,这位先生总是窝在酒馆电话亭里,迫不及待要讨论《 IEEE 信息论期刊 》( IEEE issue on information theory )的最新观点。有次在科罗拉多州博尔德市( Boulder, Colorado )的会议后,约翰邀请拉利特·巴尔( Lalit Bahl )去喝酒,结果变成一连串酒吧的狂欢。让拉利特震惊的是,每进一家新酒吧都有人欢呼:"嘿约翰!好久没来博尔德了,必须喝一杯!"约翰对人际交往的热爱,丝毫不亚于对创意的痴迷( John just loved people nearly as much he loved ideas )。
80 年代的某次航班上,约翰照例与邻座攀谈并邀对方共饮。对方竟向他透露:加拿大议会 ( Canadian House of Parliament ) 的会议记录——很可能至今仍是——以英法双语电子版形式保存。回到实验室后,约翰立即晃到我们办公室告知这个发现。我们火速获取了数据,并将英文文本用于改进语音识别和打字校正( typing correction )的语言模型( language models )。
既然提到打字校正——请允许我稍作展开:我们意识到优质语言模型能打造出色的拼写校正器( spelling corrector )。若无需纠错,打字员( typist )的输入速度可大幅提升。利用当时正在处理的加拿大数据库英文部分,我们开发的程序表现惊人,能完美修正各种潦草的打字错误。
有一次,我们向 IBM 高层( IBM brass )演示这个程序,极力推荐将其产品化。这时丹·普雷纳( Dan Prener) 走进房间——无论我们输入什么,系统都能转换成至少局部通顺的英语。丹要求做个实验:他用两根手指随机敲出乱码,结果输出这样一句话:"政治让加拿大付出的代价比猎熊还高"( Politics costs Canada more than bear hunting )[笑声]。我猜这反映了当时加拿大议员们 ( Canadian Parliamentarians ) 的关切焦点。
与此同时,约翰·科克不断督促我们尝试利用英法双语文本探究翻译机制。可惜我们组长弗雷德·杰里内克( Fred Jelinek )是个严厉的监工( task master ),根本没时间开展这类研究——直到他每年例行的科德角(Cape Cod)暑期休假开始。弗雷德休假期间,我们就尽情试验各种前卫想法( we entertained ourselves by trying out avant garde ideas )。每当杰里内克来电查岗,我们就汇报:"一切都按计划进行中,弗雷德( Oh, yes, everything’s right on schedule, Fred )!"然后继续埋头搞那些天马行空的项目( we’d go back to whatever far-fetched project we were actually working on )。
终于在 1987 或 1988 年,我们开始研究加拿大议会记录的法文部分。数据库已预先对齐了英法文本的日期。我们基于句子长度的动态规划模型( dynamic programming ),成功实现了英法语句对齐——效果出奇地好。接着尝试通过共现统计( co-currence statistics )提取翻译概率,同样取得不错效果。由此,我们逐步构建出最基础的词对齐模型( word alignment model )。
这时候,Fred 从海滩回来了,披着他那条湿毛毯。但他并没有像我们担心的那样训斥我们浪费时间在翻译上——相反,他跟我们一样兴奋,甚至坚持让我们把这项工作写成论文。于是就有了 1988 年 COLING 会议上的那篇论文,题为《 A Statistical Approach to Machine Translation》( 统计方法用于机器翻译 )——这篇论文是我们与 John Cocke、Fred Jelinek、Stephen 和 Vincent Della Pietra( 他们今天也在场 )、还有 Paul Roossin 一起写的。
我们原本以为冷水会来自 Fred,结果却是来自一位匿名的 COLING 评审人,他写道:
“正如作者提到的,早在 1949 年 Weaver 就已经提出将统计信息论方法应用于机器翻译的设想,而到了 1950 年,这种方法就被普遍认为是错误的了(笑声)。计算机的蛮力并不等于科学( The crude force of computers is not science );这篇论文根本超出了 COLING 的学术范围。”
你可以从 Bob 之前说的内容中看出来,在 1950 年,计算机的能力大概还处于“能够处理 20 个到 2000 个有符号的 10 位整数”之间。因此,与其说"计算机的蛮力不是科学"( the crude force of computers is not a science ),那位审稿人更应该说"原始简陋的计算机的力量不是科学"( the force of crude computers is not science )[笑声]。令人惊讶的是,尽管遭到如此贬低的评价,这篇论文还是被 COLING 会议接受了。不知道那些被拒稿的论文会收到怎样的评审意见[笑声]。
接下来一年里,我和鲍勃以及德拉皮埃特拉兄弟( Della Pietra brothers )完善了基础对齐模型( alignment model ),并发现可以用 EM 算法( EM algorithm )估计其参数。理清这些后,我们在 1990 年发表了更优质的论文,沿用了语音识别中熟悉的源信道架构( source channel setup )。完成原始翻译模型( primitive translation model )的参数估计后,我们转向解码( decoding )研究——与语音识别不同,翻译不能简单地从左到右解码。但核心思路依然相同:源语言模型( source model )、信道模型( channel model )、堆栈搜索( stack search ),以及对未处理词汇的成本预估。
那时候,我们的大部分工作都是在 IBM RT 工作站上完成的。它们的速度大概只有现在大家在用的笔记本电脑或 iPad 的二十分之一,价格却是二十倍,重量则是五十倍。每位 IBM 的研究人员都有一台这样的机器,我们所有的代码都是用 PL.8 编写的——这是一种非常棒但最终没有流行起来的语言。
这些工作站是当时的新产品,因此我们都要忍受一些设计师还没完全解决的硬件问题。不过,Bob 是个例外。他一直都在那台上古时期的主机上工作。
我们都知道 Bob 的工作站根本没人用,所以每当我们自己的哪台坏了,就会悄悄走进他的办公室,从他的机器上拆下合适的零件换上去(笑声)。就这样一点点地,我们换走了他的键盘、电源、显示器、内存芯片、鼠标,以及其他各种组件。
直到有一天,Bob 决定终于要开始用他的工作站了(笑声),但当然了,电源已经不工作了,机器根本开不了机。不过,他用了一个后来在华尔街大发神威的技巧,轻松地把机器修好了。我问他:“你怎么做到的?”他回答:“哦,没什么大不了的,我只是叫了维修服务( I just called service )。”我又问:“你有没有告诉他们,我们已经把你的整台机器都换成了坏零件?”他说:“没有啊,我只是告诉他们机器似乎不太正常。”(笑声)
总之,即便这些机器能正常运行,它们的速度也实在太慢了。那时候,翻译一句 10 个词的句子就得花上整整 10 分钟。当时 IBM 的整体业绩也不怎么样,计算机科学部门的负责人 Abe Peled 告诉我们,他认为机器翻译项目是一种奢侈,而我们当时最担心的就是,这种“奢侈”会是接下来被砍掉的下一个项目——除非我们能拉来一些外部资金。
所以,当我们得知 DARPA 正在征集语言翻译项目的提案时,别提有多激动了。幸运的是,我们已经开发出一个基础的统计模型,甚至开始产出一些翻译结果了。我们向 DARPA 递交了提案,最终和 Dragon Systems 以及卡耐基梅隆大学一起拿到了为期三年的合同。我们非常感谢当时 DARPA的 Charles Wayne,他愿意资助我们,即使我们没人会说法语,也完全不知道自己翻出来的外语句子到底是什么意思(笑声)。
正如你们很多人可能知道的那样,想要拿到政府的研究经费,就必须先提交一份写明你“打算做什么”的提案。而我们通常的做法是:提案中写我们未来 12 个月“计划完成的内容”,其实就是我们刚刚过去 12 个月“已经做完的事” [笑声]。虽然这保证了我们永远不会“未完成指标”,但 Charles 并不满意。他坚持要求我们把所有内容写下来,以便向整个自然语言处理社区传播这些技术和思想。我们本来只想继续埋头推进工作,但 Charles 掌握着拨款权。
也正是因为 Charles 的坚持,我们在 1993 年写了一篇关于机器翻译中参数估计数学原理( on the mathematics of parameter estimation in machine translation )的论文。回头来看,这是件好事,因为它逼迫我们停下来,认真思考我们到底在做什么( this was a good thing as it forced us to stop and think carefully about what we were doing )。比如,我们对“模型缺陷”的理解就是在那篇论文中,为了区分 Model 4 和 Model 5 而不得不深入思考后得到的。
Charles 还组织了很多研讨会,鼓励翻译领域的人们交流想法。在我们看来,这些研讨会的价值远不如写论文(笑)。
如今很难想象当时会议的场景:我们讨论统计模型和 EM 算法技术细节时,海梅·卡博内尔( Jaime Carbonell )、埃德·霍维( Ed Hovy )等人正在探讨语义学、语法规则和语言学理论( semantics, grammars, and linguistic rules )。我们完全听不懂他们的讨论,他们似乎也不明白我们在说什么。如前所述,我们项目组无人通晓法语,更遑论理解基于规则派( rule-based )专注研究的法语语法精妙之处。
当然,并不是说我们反对使用语言学理论、语言规则或语言直觉——我们只是纯粹根本不懂语言学( We just didn’t know any linguistics )。我们只知道如何从海量数据中建立统计模型,那几乎是我们唯一掌握的技能。我们采取的是工程方法,能让项目推进就好,什么方式都愿意尝试( We took an engineering approach and were perfectly happy to do whatever it took to make progress )。
延伸阅读:谷歌 DeepMind:科学研究的工程化( Engineering for Science )
事实上,在我们用那个粗糙的词对词模型初步实现了一些翻译之后,我们很快就意识到:确实需要往模型里加入一些语言学的东西。于是我和 Bob 报名上了一门速成法语课。在纽约,我们花了两个星期听讲座、听录音带,课程的老师叫 Michel Thomas,他曾教过摩纳哥王妃格蕾丝学法语,以便她履行王室职责时不至于出糗。我们在课上读的第一本小说是《 老实人康迪德 》( Candide ),于是我们把自己的翻译系统也取名为 Candide。
这门课结束后不久,Bob 就从《 Bescherelle 》这本语法参考书里制作了一个包含 12,000 个法语动词的计算机可读形态词典( a computer-readable morphology ),而我也开始学习转换语法( transformational grammar )。
我们将单词替换为词素( morphs ),并加入了一些非常朴素的句法转换规则,用来处理诸如疑问句、修饰语的位置、复杂动词时态等问题。比如,像 “Had John’s floor been ravenously eaten by termites” 这样的句子,会被转化为如下形式:其中,POS 表示前一个名词是所有格;ADV 表示前一个形容词应该以副词形式出现;3 表示前面的词( 这里是 ravenously )应放置在复合动词的第三个词之前;PL 表示前一个词应以复数形式出现;而 QI 则代表这是一个疑问句倒装。
当然,这种句法和形态分析方式并不是那种能让语言学家心跳加速的做法(笑),但它极大地减少了词汇表的规模,进而提升了 EM 算法中参数估计的质量。而且,通过采用“分析—转移—合成”( analysis-transfer-synthesis )架构,在分析和合成两个阶段都引入句法转换,我们大大减轻了转移步骤中对“词序扭曲模型”( distortion model )的依赖。从我们的角度看,这并不是“语言学 vs 统计学”的对抗,而是语言学与统计学协同工作的一个好例子( it was not linguistics versus statistics; we saw linguistics and statistics fitting together synergistically )。
大约在 1992 年,我们也开始引入双语词典( bilingual dictionaries )的信息。当然,由于我们根本不知道怎么更好地利用这些词典,我们干脆就把它们当作额外的数据丢进 EM 的“大嘴巴”里去喂(笑)。我们还买了一些专有名词表( 包括人名、地名、公司名等 ),并将这些信息构建进了我们的系统中。为了让系统表现得更好,我们可以说是不择手段,就像我之前说的,有些人甚至还去学了语言学 [笑声]。
在理清了基本思路之后,我们开始将注意力转向“噪声信道”( noisy channel )和源语言的统计建模问题。在这两个方面,核心问题都是:如何构建一个能够有效估计参数、同时又能合理刻画真实语言过程的模型?比如,一个词的翻译显然不仅仅依赖它自身,还取决于句子中其它词,甚至有时候还会受到前面几句话的影响——包括那些很久之前出现的句子。
同样地,源语言( source language )中下一个单词、词素( morph )或句法标签( syntactic tag )的概率,其影响因素远不止前两个单词或词素这么简单。在当年,我们缺乏足够数据来估计庞大条件模型( massive conditional models )的参数——即便如今拥有数十亿文档,我确信粗暴的 20 元语言模型( 20-gram language model )仍难以奏效。过去需要、现在依然需要更精巧的解决方案。
我们当时的想法是使用最大熵方法( maximum entropy methods )和决策树( decision trees )。决策树的思想是:从过去的语言环境中,找出最能减少我们对当前预测目标不确定性的因素。而最大熵的思想是:在已知模型所依赖的条件下,从数据中索取最少的假设( The idea behind maximum entropy is to demand as little as possible from the data, given the questions the model is conditioning on )。我们在 90 年代初期投入了大量时间,去开发用于源语言建模和噪声信道建模的决策树与最大熵模型。
为了准备这次会议,我们采纳了 Kevin Knight 的建议,阅读了 Philipp Koehn 所著的《 统计机器翻译 》这本极好的书。令我们感到最惊讶的是,书中对最大熵模型和决策树模型几乎没有什么强调。我们最近听说谷歌在使用——实际上是我们今天才听说的——五元语言模型,而在 Philipp 的书中我们看到,研究者们并没有将重点放在构建大型条件翻译模型上,而是转向了短语翻译。
而我们在二十年前显然走的是一条完全不同的道路。我们当时认为短语翻译最好还是通过条件翻译模型来实现;而在语言建模方面,我们认为应该通过决策树更巧妙地划分历史上下文( We thought that phrase translations could best be captured through conditional translation models, and we thought that the way forward in language modeling was to divide the past more deftly with decision trees )。不过,我们很高兴看到他的书中现在强调判别式训练。在我们之前的一些语音识别工作中,我们曾尝试过最大互信息估计( maximum mutual information estimation, MMIE ),但在翻译方面我们还没有走到足够远的阶段去应用这类判别式训练技术。当我们读到现在的系统会对源模型和信道模型的概率赋予权重或指数时,我们不禁反思:我们当年怎么会愚蠢到忽略这样一个自然的想法呢?毕竟,这两个模型都遗漏了很多数据中的相关性,只是遗漏的程度不同罢了。
这就是二十年前我们在 IBM 的工作情形。接着,在 1993 年初,我和 Bob 各自收到了一封来自长岛某投资公司的信,邀请我们转换职业跑道。我们当时都把信扔了,因为在 IBM 工作得很开心。但在三月十五日那天,Bob 的母亲在一场车祸中去世,二十天后的复活节,他的父亲也随之离世。几个月后,Nick Patterson 打电话问 Bob 为什么没有回复那封信,Bob 于是决定前往长岛看看。当他回来后,他告诉我,我也应该去看看。
我们所见到的是一家位于高科技孵化器中的小公司。那里的窗户开得很高很小,因为这些房间原本是化学实验室( a small company housed in a high-tech incubator with tiny windows that were high up on the walls because the rooms were originally designed to be chemistry labs )。这家公司由一位名叫 Jim Simons 的数学家领导,他因为几何领域的成果获得过一个很厉害的奖项。那时我和 Bob 都不是几何学家,所以这个奖项对我们并没有太大意义。后来我们才知道,Jim 最初的合伙人是 Lenny Baum,没错,就是那个 Lenny Baum,他和 IDA 的其他人一起,开发出了 EM 算法——也正是这个算法,让我们能够实现语音识别、打字纠错和机器翻译的所有工作。
接着,又发生了两件事。Bob 的第三个女儿上大学了,而我妻子生下了我们的第一个孩子。我看着刚出生的女儿,想到 Bob 正在为支付大学学费而发愁,心里开始觉得,也许真的有必要去投资领域干上几年。经过四个月的挣扎( After four months of agonizing),我给 George Doddington 打了电话——他是 Charles Wayne 在 DARPA 的接任者——向他解释了我们的情况。尤其是,这家投资公司给我们的薪水比我们在 IBM 多出 50%。George 只说了一句话:“再见啦。”( “Bye, bye.” )通话就此结束(笑声)。于是我们离开了 IBM,也离开了自然语言处理领域。
我们刚加入文艺复兴科技公司( Renaissance ) 时,很快就意识到金融世界和 IBM Research 是完全不同的地方。它非常残酷( It’s ruthless )。要么你的模型比别人好,能赚钱;要么就失败破产( Either your models work better than the other guy’s, and you make money, or they don’t, and you go broke )。这种压力会让人高度集中注意力( That kind of pressure really focuses one’s attention )。当我和 Bob,还有后来加入的 Stephen 和 Vincent Della Pietra,离开 IBM 时,我们根本没时间回头看。因为这份工作高度保密,我们与外界几乎断了联系。我们像进了茧一样,把全部精力都用来保证自己不被淘汰( We went into a cocoon and focused all our energy on just staying afloat )。
我们头一年几乎都住在办公室里。实际上,即使过了二十年,我现在每周还是有三天晚上睡在公司( Bob and I both lived at our offices for the first year, and in fact, after 20 years, I’m still sleeping there three nights a week )。除了有一次小的招聘旅行,这次其实是我们自从 1992 年在蒙特利尔参加机器翻译会议以来,第一次出差。这年夏天,我女儿在华盛顿的国家经济委员会实习。有一天晚上我问她在那里做什么,她说她在把一些文件从中文翻译成英文。我说:“哇,那肯定很花时间吧?”她说:“其实没什么,我就用 Google 翻译,然后修一修结果就行了。”(笑声)我惊讶地问:“什么?现在的机器翻译已经这么厉害了吗?”她说:“是啊,爸爸,你不知道吗?现在电脑是可以翻译语言的。”(笑声,掌声)我上网查了查,真是震惊了——你们在过去 20 年里取得的进展实在是太大了。这个领域已经从 IBM 时代的‘奢侈品’,变成了一个真实存在、极具价值的技术( The field has certainly moved from an IBM luxury to something very real and very valuable )。
不久前我读了一篇 Robert Gordon 的论文,标题是《 美国经济增长结束了吗?——创新乏力与六大阻力 》( Is US Economic Growth Over: Faltering Innovation Confronts the Six Headwinds )。他在文中认为,历史上的三次重大技术浪潮,比如蒸汽机、自来水和电力( steam engines, running water, electricity ),是推动经济增长的主因,但那种级别的创新已经一去不复返了。然而,站在这里,看着你们这二十年来取得的成就,我们意识到 Gordon 和那些唱衰“创新已死”的人完全错了。从你们的工作中可以清晰看出,科学家们在自然语言理解领域将会持续取得长足进步,这种发展才刚刚开始。
我们真的非常羡慕你们这些年来一定经历过的种种乐趣,以及未来仍将继续的探索。
非常感谢大家![掌声]
菲利普·雷斯尼克
Philip Resnik
哇,非常荣幸在今天早上的讨论后被邀请来主持这个环节,这真是太酷了。我想先为我自己设定一点背景;实际上,我也想为这些人设定一点背景,某种程度上。你们中的一些人可能知道或不知道瑞普·凡·温克尔( Rip Van Winkle )的故事。它是由同一位作家所写的,他还写了《沉睡谷的传说》( The Legend of Sleepy Hollow )和《无头骑士》( The Headless Horseman ),这些人可能更熟悉后者。
瑞普·凡·温克尔是一个住在纽约卡茨基尔山( Catskill Mountains )的人,离 T.J. Watson 不远。他在家里常常被妻子唠叨,而且他喜欢喝酒。有一天,他为了逃避这些琐事,决定上山去,在那里通过神奇的巧合睡了二十年。他醒来时,胡子长了一英尺,枪也生锈了,回到他的家乡,完全不知道发生了什么事。他立刻就惹了麻烦,因为他宣称自己效忠乔治三世( King George III )国王,实际上他在革命战争( Revolutionary War )前睡着了,醒来时已经是战后了。
经过一番误解后,他最终还是被社区欢迎,重新与大家团聚,逐渐适应了周围发生的一切。维基百科( Wikipedia )告诉我,这个故事在荷兰读者眼中是一个很安慰的故事,讲的是你实际上可以通过睡过一场战争,最后却拥有一个美好的结局( a wonderful comforting tale of how you can actually sleep your way through a war and have a happy ending at the end )。
这似乎有点像一个类比。我很幸运在 1991 年夏天和这些人一起实习,做关于决策树语言模型( decision tree language model )的工作,并且幸运地见到了 John Cocke。那时发生了巨大的变化。对我来说,有一件事挺奇怪的,那时我是语言学家。这些人说:“哦,对,你是我们小组里的语言学家。”然后我回到宾夕法尼亚大学( University of Pennsylvania ),和一群同样搞统计学的伙伴在一起,我们被传统语言学圈( linguistics community )视为“异端”,因为我们做的是统计学的东西(because we were doing this statistical stuff )。
还有一件事我想提到,关于那个时候的回忆。对于那些认识 Fred Jelinek 的人——这可能让你们有点惊讶——我发现 Fred 比这些人要不那么可怕,当时我在那儿的时候 [笑声]。
现在我想提一两个话题来开启讨论。一个观察是,Bob 提到的"1620 到 6600 机型演进"( IBM早期计算机型号 ):规模上的巨大变化可能会导致我们做事和思考方式的质变( The idea that big changes in scale can lead to big qualitative changes in the way we do things and our thinking )。Peter 在谈到"原始计算机的力量"( the force of crude computers )时也提到了这一点;当计算机不再原始,我们就能实现规模化的突破( once you get the computers to be less crude, you can do stuff on a scale )。这不仅是量变( scalability,可扩展性 ),更是可扩展性会引发认知方式的质变( it’s not just about scalability, it’s at some point scalability changes the way you think about things ),这场始于二十年前的革命确实带来了积极影响。
与此同时,另一方面也存在一些问题。我不知道你们中有多少人在 IT 行业工作过,有过这种经历:你花了一年时间做一个有趣的研究点子,但最后发现,如果你把语言模型训练数据( language model training data )的大小加倍,可能能获得更高的 BLEU 分数( BLEU score,机器翻译评价指标 )。我看到有几个人点了点头。可扩展性这枚硬币的两面都很有意思( There’s really two sides to this coin of scalability ),我认为这是一个可能值得讨论的话题。
我认为,让这些人来到这里,大家提问历史等方面的问题会非常好。我也认为,让大家讨论一下我们现在所处的背景中的一些更大问题会很好,结合他们今天所讲的内容( it would be great for people to talk about some of the bigger issues in where we are, in the context of the stuff that they’ve talked about today )。我有点想同时鼓励这两方面的讨论,也想听听他们的想法,因为瑞普·凡·温克尔回来的时候,尽管他睡了二十年,仍然有许多洞察和智慧可以传授。
我想提出三个问题供大家讨论,如果没人感兴趣也没关系。第一个是关于语义研究的复兴( this return of semantics )。现在参加自然语言处理会议时,人们频繁讨论语言理解( language understanding )这件事很不可思议——因为"理解"这个词曾长期被视为禁忌( 尽管"语义"本身也曾是禁忌词 )。这个问题确实值得探讨。
不过我要赶紧补充:如果还没读过的话,建议大家一定要看看几十年前那篇《人工智能遭遇自然愚蠢》( Artificial Intelligence Meets Natural Stupidity)的论文。它深刻指出:不要因为你的模型包含对人类有意义的符号( symbols ),就以为模型真的具备理解能力。就像我们把"EAT"大写字母放进模型,并不代表它自然就懂得"吃"的含义。
第二个问题是关于合适的处理单元(units)。我们讨论过单词( words )、短语( phrases )、层次化短语( hierarchal phrases ),甚至有人提议应该追溯到摩斯电码( Morse Code )的点划层面。在座也有人提出文档级一致性( document-level consistency )的概念,将词义消歧( sense disambiguition )领域的"单篇文本单义性"( one-sense-per-discourse )原则应用到机器翻译中。如果我们想真正解决问题,什么才是合适的单元?目前逐句翻译( sentence-by-sentence )和使用现有单元的做法未必正确。
第三个问题与菲利普·科恩( Philipp Koehn )的部分观点呼应。我要提出一个可能引发争议的观点:机器翻译( machine translation )本身可能不是我们要解决的真正问题。追求全自动机器翻译( fully automatic machine translation )根本就是错误命题。真正的需求是:在需要时能经济高效地获得符合要求的翻译。计算机生成译文只是实现手段之一——虽然是最直观的方式。但正如菲利普所说,人类具备计算机没有的能力,反之亦然。既然现场没有 DARPA( 美国国防高级研究计划局 )的人,我索性直言:今天整个上午讨论的机器翻译问题框架可能本身就是错的。我们需要的是解决方案,而机器翻译只是众多可能途径中的一种。
我只是抛砖引玉,希望能激发大家思考。如果各位不介意,我想邀请这几位专家上前来加入讨论。文森特(Vincent)、斯蒂芬(Stephen),如果你们愿意的话,我们非常希望你们能上台交流——当然,如果更习惯在原位发言也完全没问题。
Philip Resnik
谢谢大家。正如我所说,我认为这应该是一个更广泛的讨论;我也觉得人们可能对一些历史背景有问题。理论上,我现在是主持人,既然已经引出了话题,我就打开讨论,开始小组讨论。
Philip Resnik
是的,虽然房间很小,但如果你站起来大声说话,我想大家应该能听得见。如果麦克风妨碍了讨论,我会鼓励大家站起来大声说话。
Dan Jurafsky
我有一个非常简单的历史问题。我很喜欢这个弗雷德·杰利内克( Fred Jelinek )在海滩上的形象,你们悄悄地在做机器翻译( MT ),但你们没有说明为什么是机器翻译。为什么要转向机器翻译?是什么让你们从语音转向机器翻译的?
Bob Mercer
可能是因为加拿大议会记录 ( Hansards ) 数据。
我认为议会记录是研究"意义"的理想数据源( it is a great place in which to investigate meaning ),这里的“意义”指的是,至少我个人认为,法语的写法代表了英语在另一处的含义( the French that’s written there is the meaning of the English that’s written in the other place )。你不需要担心那些中间的东西,真正的意思是什么( You don’t need to worry about all that intermediate stuff of this what it really means )。我觉得,获取某人将 1 亿个英语命令( 比如做这做那 )翻译成某种正式的命令语言,可能会很有趣,这样你就可以利用这种方法来弄清楚从这个角度看英语的含义。这正是加拿大议会记录吸引我和约翰的地方。
某男性
是约翰带来数据后,你们才决定开展翻译研究的?
Bob Mercer
约翰指出了现成的数据源..
Kevin Knight
我有一个技术性问题。
Peter Brown
我记不住任何技术性内容了(笑声)。
Kevin Knight
我想我提到过这个问题,在你们 1993 年的论文中,你们给出了训练集的困惑度( perplexity ),这在某种程度上显示了你们的 EM 算法实现得很正确,并且显示了困惑度随着迭代不断改进。但你们没有给出测试集的困惑度。另一方面,在语言建模中,你们很频繁地给出测试集的困惑度,通常我们甚至不会考虑给出训练集的困惑度。在翻译领域,为什么没有给出测试集困惑度呢?
Peter Brown
不,其实完全应该...
Bob Mercer
没有借口(笑声)。
Robert Frederking
回忆一下,我见过最精彩的报告是彼得·布朗那次,弗雷德在台下不断质疑"没有语言学怎么实现这个"( he had Fred Jelinek in the audience heckling him about how can you this without linguistics )。他一遍又一遍地说,彼得,你肯定得有语言学才能做这个。大家都知道这里面的内部笑话,就是关于弗雷德的传闻,据说他曾说过,每当他解雇一个语言学家,系统错误率就下降( supposedly having said that every time he fired a linguist, his error rate went down ),所以这非常有趣。
Bob Mercer
他确实说过这话。这不是传闻,他确实说了,而且那是真的!(笑声)
Philip Resnik
我的很多好朋友都是语言学家。
Peter Brown
不,但他一直在找语言学家。
Bob Mercer
弗雷德始终期待能找到将语言数据点石成金的"语言学贤者之石"( Fred always hoped that he would find the linguistic philosopher’s stone that would turn all these things in to gold )。不幸的是,到目前为止,这还没实现。
Noah Smith
我在约翰霍普金斯与弗雷德共事时,他常说英法语本质是同种语言——既调侃议会记录的便利性,也暗示统计机器翻译的"肮脏小秘密":英法语是最简单的语言对。如今我们处理多种语言,你们当时是否也这样认为?或计划拓展其他语言?
Peter Brown
我认为我们真的很幸运,英语和法语基本上是相同的语言,第二点是数据。如果是日语的数据,我们可能就会做日语,但那样的结果可能就不那么成功了。直到你们解决了这个问题,才开始变得有成效。是的,我们只是幸运地有了这些数据。
Philip Resnik
也有一个类比,如果乔姆斯基( Chomsky )一开始就研究自由语序语言( if Chomsky had started out working with free word order languages )——世界上有很多这样的语言——那么经典的句法理论可能会看起来和今天完全不同。
Matt Post
好奇你们是否向女儿介绍过早期工作?她会感到钦佩吗?
Peter Brown
你一定没有孩子,他们其实根本不关心父母做过什么。(笑声)。是的,他们不关心。
Victoria Fossum
我注意到你们阅读菲利普的著作时,发现过去十年的一些进展后曾感叹"这么明显的方法我们当年怎么没想到"。在了解最新研究时,是否有特别让你们感到惊讶的突破性思路?
Peter Brown
我们原以为整个领域会朝着最大熵(maximum entropy)和决策树(decision trees)方向发展。离开这个领域后只能通过那本书了解进展。
某男性
那本书概括得不错。
Peter Brown
那真的是一本非常出色的书,我对那本书印象非常深刻。但书里对最大熵和决策树并没有太多描述,所以我们感觉这个领域的方向和我们原本设想的走向不一样。
Bob Mercer
我们之前发表过一篇论文。
Peter Brown
是指基于类别的语言模型(class-based language models)?
Bob Mercer
不,是20元语法 ( 20-grams )
Bob Mercer
总之,我们当时试图构建一个使用 20 元语言历史的决策树语言模型。那个时候,这个项目大概花费了一年的 CPU 时间,现在你可能一个下午就能跑完。但在当时,这确实是个非常耗时的任务。那个模型用了一个 5000 词的词表,并且比普通的三元组模型( trigram )有了显著的提升,模型规模却没有变大。三元组只用到实际出现过的二元历史,其实并没有那么多。而我们这个用相同状态数的模型,效果却更好。这就是我们原本以为大家会去做的事——因为现在有了那么多数据和计算资源。
Bob Moore
过去二十年我们主要在追赶电子化数据的爆炸增长( catching up with the amount of data that has become available to us in electronic form )。长期来看,采用简单粗暴的方法最经济( It has been most economical for us to do very naïve things for a very long time )。但如今高资源语言( high resources languages )的增长曲线已趋于平缓——看似指数增长实为 S 型曲线。即便是斯瓦希里语等低资源语言,我们也知道其数据上限。当数据规模可预估时,就必须转向建模创新( we know we have to deal with modeling )。但算力增长让我们安于现状,阻碍了更有趣的建模探索( we’re waiting for the machine to get bigger to deal with more data. That’s kept us from doing these more interesting model approaches )。
Peter Brown
我的感觉是——当然,这只是从读 Philipp 那本书得来的——大家转向了“短语”这条路,但这并不只是因为数据变多了……你看,我们原本会通过“提问”来处理这个问题。其实 Bob 一直想做的是“字母”而不是“单词”,他认为用单词就是一种妥协(笑)。我们倾向于通过提问的方式,用决策树或最大熵那种格式来处理,而不是直接对整个短语建模。但这只是一个不同的路径,我不认为这是……
Chris Dyer
确实如此,这种思路也影响了我们后来的创新,特别是那些带来直接收益的成果。我认为这确实把我们引导到了一条不同的方向上。我们当中有一群人还是对“提问机制”很感兴趣的,那个研究中最有趣的一个方面就是自动学习该问哪些问题。
Philip Resnik
我想插一句,我其实挺好奇的,你们想要以这种方式来做事的动机,是不是来自于……
Peter Brown
语言直觉( Linguistic intuition )(笑)。
Philip Resnik
这其实就是我想问的问题,因为我们已经掌握了一些行之有效的方法。比如说用条件模型来提出问题这些做法,与其说是我们觉得这是对的方式,不如说你们是觉得这是最合适的翻译单位?你们脑中有一个“正确单位”的概念,这才是你们选择这个方向的原因吗?
Peter Brown
如果你要处理“一致性”问题,我觉得回溯 5-gram 并不是正确的做法,你需要的数据量太大了。更应通过"名词位置在哪"这类提问机制解决...
彼得·布朗(Peter Brown)
我们原本以为一切都会朝那个方向发展,但结果并没有,我们对此感到很意外。
鲍勃·摩尔(Bob Moore)
我想试着解释一下,为什么这个领域没有朝决策树和最大熵的方向发展。我认为其中一个关键原因,是弗朗茨( Franz )在 2002 年左右写的一篇论文,也可能是 2003 年,我记不清了。还有就是 IBM 的一些人在你们离开之后提出的 BLEU 分数指标,这个指标后来成了机器翻译的标准评估指标。这个指标是非凸优化目标,而且它和概率之间的相关性并不高——这其实是弗朗茨展示出的一个结果。我记得你在 2002 年的那篇论文是关于最大熵的,2003 年那篇是关于 MERT 的。所以弗朗茨通过这两篇论文,一方面使用最大熵来优化他的整体翻译模型,另一方面在第二年又展示出,如果你直接优化像 BLEU 这样的指标,而不是优化概率,你在这个指标上的表现会更好。
所以这就是为什么该领域从优化概率的最大熵模型转向直接优化其他目标的原因。同时,他还提出了一个用于这个目的的“最小错误率训练”( MERT )算法。这个算法的问题在于它无法扩展到优化超过几十个权重参数。而直到大约三四年前,有两位作者发表了一篇论文,叫……抱歉……你不是 David Chiang 吧,David 刚才还坐在那边。他们发表了一篇论文,叫什么“11,001个新特征”之类的,之后人们才真正开始研究能够优化BLEU分数但可以处理大量参数的其他优化方法。虽然这方面也有很多工作,但它们都不是最大熵模型,因为我们发现直接优化所需目标比优化概率效果更好。
彼得·布朗
所以科研经费都流向 BLEU 指标了?
鲍勃·摩尔
我离开 DARPA 世界已经十五年了,所以我不太关心这些了。
菲利普·雷斯尼克(Philip Resnik)
但它确实高度相关。
男士发言
和困惑度问题高度相关。
菲利普·雷斯尼克
BLEU 确实与其他指标高度相关...这种趋势也出现在句法分析和主题建模等其他NLP领域。,比如句法分析、主题建模……
鲍勃·摩尔
补充决策树未被采纳的原因:当采用判别式训练直接优化时,可以自由添加各类特征而不受决策树的特征定义约束。人们发现不需要决策树的限制也能实现你们期望的效果。
彼得·布朗
当前最先进技术是什么?是原始 5-gram 模型吗?
弗朗茨·奥赫(Franz Och)
Google 的系统以前是四元模型,不久前改成了五元模型。
彼得·布朗
这真是靠电脑的蛮力( That’s really the crude force of computers )。
菲利普·科恩(Philipp Koehn)
我们也使用五元模型。
菲利普·雷斯尼克
值得注意的是,当前创新主要集中在翻译模型而非语言模型——从基于短语到层次化短语模型(本质是同步上下文无关文法)的演进,能更好捕捉语境关系。
鲍勃·摩尔
但必须指出,在菲利普写书时,领域还受限于 MERT 算法的参数规模限制,书中未能反映高维特征模型的爆发。
菲利普·科恩
那一章我写得特别痛苦。
鲍勃·摩尔
对,因为他完成那本书的时候,正赶上领域开始爆发。
菲利普·雷斯尼克
现在完全是爆炸期……
吴德凯(Dekai Wu)
我暂时先不讲技术细节,趁几位在场,我像 Dan 一样,对历史更感兴趣。我讲讲我的背景故事:1992年,我决定要复现 IBM 的模型,用于中英翻译,就先来到了香港科技大学。我发现香港政府也依法要保存双语会议记录,于是我说,我们去拿香港议会会议记录。我走进他们办公室——这可能对当时还在读高中的朋友们挺有意思的——我和他们聊。他们说,“是的,我们得保存这些记录……”他们有几十位全职翻译,把议会中说的英语翻译成中文,反之亦然。我问:“太好了,我可以拿这些数据吗?”他们说,“嗯,可以是可以……”我又问:“数据是什么格式的?”
他们说:“这是在香港,说的是粤语,不是真正的普通话。我们尽量转成普通话,但很多用词是粤语的,根本没有正式的汉字。”
我说:“那你们怎么办?”
记住,那时候还没有Unicode。香港用的是繁体中文和 Big5 编码。但Big5 没有粤语字的码位。我说:“你们怎么处理?”
他们说:“我们就在办公室里自己定义编码。”
我问:“有标准吗?”
“没有。”
“你们怎么造字?”
“我们自己用软件画字,生成字形。”
“你们用什么文字处理软件?”
“Macintosh。”他们是当时香港唯一在用 Mac 的单位。他们说:“我们用的这个文字处理软件,是某家公司开发的。”
我说:“那家公司四年前就倒闭了,软件也没法下载了。”
“是的,但我们还在继续用。”
“文件存在哪?”
“存在一堆 8 毫米的磁带里,是苹果那种早就淘汰的专用磁带格式。”
“数据在哪?”
“就在上面那个书架上的一堆盒子里。”(笑声)
“你们怎么读它?”
“我们只有一个读卡机。”
然后我花了五个月的时间,到处找一台能读这种磁带的机器,找到那早就消失的软件,还要搞清楚他们自己造的编码点。再做各种数据清洗,最后把数据还给他们,现在这些数据已经成了 LDC 的香港议会数据语料库。这个过程之后我们才开始复现 IBM 模型。你们在做英法议会数据时也遇到这种事了吗?
鲍勃·默瑟(Bob Mercer)
没有,那个还挺干净的。(笑)
马特·波斯特(Matt Post)
我对 Philipp 说你那篇论文虽然数学性强,但其实讲的是自然语言处理挺感兴趣的。我觉得这是大家常有的反应,但也有不少人觉得你的论文读起来非常有趣,虽然是技术性的文字,但写作方式也很吸引人。我想请你讲讲《 Computational Linguistics 》1993 年那篇文章是怎么写出来的。
彼得·布朗
我和 Bob 一起工作了大概三十年了,我们一起写了很多东西。即使在文艺复兴科技( Renaissance ),我们当管理层后写的法律文书比写程序还多。我们一直采用相同的方式写作:我写初稿——
鲍勃·默瑟
——大概五分钟写完。
彼得·布朗
——因为我写得很快,但写得不够好。Bob 写得很慢但非常好。另外我得提一句关于‘93那篇论文,他把文章给他兄弟看,他兄弟说,“是篇好文章,但天啊,写得真烂!”我们所有的文章都是这样写的,包括今天这个演讲。
诺亚·史密斯(Noah Smith)
回到为什么我们没有走最大熵和决策树那条路,我作为在场为数不多的非翻译方向的人之一,可以补充一点:这些想法在 NLP 其他方向的影响可能更大、更早。所以你不会在 Philipp 的书里看到,因为他写的是翻译领域的书。但如果你看当前句法分析、语义分析、词性标注、切分、形态分析的论文,会发现最大熵模型( 或其新版本 )仍然是主流。比如 John Lafferty 在 2001 年发表的那篇关于条件随机场( CRF )的论文,那其实就是最大熵模型在结构上的扩展,这个方法到现在仍然是有标注数据时的主流做法。
我们可能改变了一些目标函数,也换了优化算法。但你和 John 合作写的关于如何在随机场中诱导特征的论文,我们到现在在讲“如何做特征诱导”时还会推荐那篇文章。只是现在在离散语言建模方面,这条路线没有特别多的后续进展,虽然有一些例外,但总体上,那项工作对机器翻译以外的领域影响很大。而机器翻译反而一度落后于 NLP 其他领域。决策树嘛……我觉得我们或许该重新看看它。
莱恩·施瓦茨(Lane Schwartz)
我又有一个关于历史的问题。在论文中你们提到模型是相互建立在彼此之上的,早期的模型帮助构建了后期的模型。我想知道你们能否谈一谈这个发展的过程:这个序列是怎样的?是从模型 5 开始的吗?你们是不是一开始就有模型5的想法,然后意识到还需要前面的构建块?另外,你们当时实际上为哪些模型做了解码器?模型1纯粹是一个构建块吗?你们有没有想过为模型1做一个解码器?这个过程是怎么运作的?
彼得·布朗
嗯,我得试着回忆一下这些模型各自是干什么的(笑)。我只记得一些碎片信息,可能不完全能回答你的问题。我记得我们当时得知模型3是凸的(convex)时还挺高兴的,因此我们可以训练它达到全局最优。
Philip Resnik
那是模型 1 。
Peter Brown
模型 1。
Bob Moore
还有模型2。
Peter Brown
模型 2,也是(笑)……是只有模型1是凸的吗?
Chris Dyer
只有模型 1 是凸的。
Peter Brown
不管怎样,我们当时还挺开心的(笑)。
Stephen Della Pietra
我记得我们没有对模型 3 以下的模型做过任何解码。
Peter Brown
你什么意思?
我们等会再说这个(笑)。问题在于其他模型如果不做剪枝是无法计算的,而要做剪枝,就必须先有一个不错的估计结果。对于一个凸模型,我们知道可以进行全局优化。而模型4让我们非常反感,因为它会对根本不可能发生的事情赋予概率。我们用的词是什么来着?“有缺陷的”(deficient),对(笑)。我们知道模型4是错的,所以才要去构建模型5。
Chris Dyer
有个有趣的历史背景,当时统计推断领域的蒙特卡洛方法( Monte Carlo methods )开始流行起来。而你们当时也开发了一些自己的推断方法,现在看起来已经成了历史奇观。你们那时候知道统计界在干什么吗?你们为什么会觉得像 Gibbs 采样这类方法不太适合?
Bob Moore
是的,我想补充一点关于最大熵( maxent )在这个领域的发展历史。实际上,在你们发表那篇《 Computational Linguistics 》上的最大熵论文之后,大家都开始关注这个方法,但这个领域真正开始用最大熵获得好结果是在 90 年代末到 2000 年代初,那时大家终于意识到需要加一个正则化项来避免过拟合。我记得当时参加很多语音和自然语言的统计会议,很多人说:我们试了最大熵语言模型,但效果并不比简单的 N 元语法好。
Philip Resnik
你能不能用两个词总结一下这个正则化的进展?
Bob Moore
好。就是在优化准则上加入一个惩罚项,通常是对特征权重平方和的惩罚。这样可以防止模型“学得太好”,过度拟合训练数据,从而产生一些奇怪的特征权重组合。
Peter Brown
我们知道这些东西。
Bob Moore
总之,直到大家真正重视这点,并调整优化算法去包含正则项后,最大熵技术才真正开始表现出色。
观众
你们从做机器翻译转去做金融交易时,需要掌握哪些新技能?你们在语音和翻译方面的多年经验,有哪些是对现在的工作有帮助的( As you moved from doing machine translation to trading, what were the skill sets that you had to acquire, and also could you use anything that you learned in your ten years or twenty years in doing speech and machine translation that is relevant to what you’re doing today )?
Peter Brown
你是想了解金融领域的事情吗?当我们加入 Renaissance( 文艺复兴科技基金 )时,它是由一群数学家创立的。他们完全不会编程,是靠看计算机手册自学编程的。但那并不是个好方法,除非你是 Bob,看的是 Algol 手册(笑)。他们不知道怎么构建大型系统,无法保证系统的结果跟数学模型是一致的( they didn’t know how to build large systems where you could make sure that this system produced the same answers that the mathematics did )。而我们在做语音识别和机器翻译时,已经学会了如何构建大型系统,能让很多人同时协作工作( From building speech recognition systems and translation systems, we learned how to build pretty big systems where you can have a lot of people working simultaneously on them ),这项技能就用上了。剩下的就是从大量数据中估计参数( estimating parameters from a lot of data )。如果你看我们的黑板,和你们的黑板看起来一模一样——写满了各种类似的公式。金融领域唯一不同的是噪音大得多。金融领域基本全是噪音,而自然语言模型反而更具结构性( It’s all noise in finance and there’s more structure in natural language models )。
Bob Moore
至少不用争论评估标准( There’s no arguing about the evaluation parts )。
Peter Brown
我得说,这点还挺不错的。以前你们也许会吵谁的论文更重要,谁先提出了某个想法。但在我们金融领域完全不会发生这种事,因为没人写论文(笑)。除此之外其实都一样。你就是坐在那里,用数据构建模型,写程序优化目标函数,仅此而已( You’re just sitting there building models with data and writing programs to optimize functions based on the models and that’s that )。所以技能基本是一样的,只是金融领域需要更强的统计功底,因为你得更关注噪音问题( there’s more statistics because you have to worry about noise a lot more )。
Lane Schwartz
Peter,你刚才提到 Bob 说“单词是种妥协”?我好奇你对用字母建模的看法,因为我记得有论文尝试基于字母做统计翻译模型。你怎么看?
Peter Brown
你问我?
Lane Schwartz
是的,问你。
Bob Mercer
我喜欢字母的原因是,在英语中很少有词是单数一个样、复数完全不同的。比如 “cow” 是单数,“kine”是复数。但这种情况很少见。我觉得这不是巧合——我们不会叫一个“church”,但两个却叫“schlemiel”之类的(笑)。从单数变成复数、从原型变成各种时态形式,之间都是有简单联系的。所以我一直觉得我们应该建模的是字母,因为字母就那么二十几个( 或者二十四、三十个,取决于你用的是什么字母系统 ),远比英文里五十万甚至更多的词少得多。从这个角度看,字母是更清晰的建模方式。如果我们现在做得不好,那是因为我们还没找到正确的方法( To the extent that we can’t succeed at it, it’s because we haven’t had the right ideas about how to do it yet )。
Philip Resnik
语言学家做的一件事是思考抽象的层级( think about the levels of, you know, multiple levels of abstraction ),如果用字母建模,可能也会引出一部分抽象的层级,比如词组( word groups )等概念……
鲍勃·默瑟( Bob Mercer )
( 对语言抽象层级问题 )我持怀疑态度。
菲利普·雷斯尼克(Philip Resnik)
我很好奇。那时候,我在的时候,埃兹拉·布莱克(Ezra Black)也在那里。那时候有没有语言学家?
鲍勃·默瑟(Bob Mercer)
有的,确实有。
彼得·布朗(Peter Brown)
是弗雷德( Fred )不断把他们请进来。
菲利普·雷斯尼克(Philip Resnik)
能谈谈与语言学家共事的体验吗?这对你们的研究思路有影响吗?
鲍勃·默瑟(Bob Mercer)
不,我不会说完全无关紧要。我觉得语言学家关注的东西和那些试图识别语音或翻译句子之类的人是不一样的。嗯,我来讲讲我觉得语言学家和物理学家的区别。物理学家擅长发现表面无关事物的内在联系,而语言学家热衷揭示看似表面相同事物的深层本质差异( Physicists are people who find two completely unrelated things and point out to you how they’re really a manifestation of the same thing. Linguists are people who find some things that most anyone would think are just exactly the same and show you how tremendously different they are )。(笑声)。所以我觉得他们的思维方式和物理学家完全不同。我们更像物理学家,不像语言学家。
菲利普·雷斯尼克(Philip Resnik)
有人想补充点什么吗?
鲍勃·默瑟(Bob Mercer)
我希望没有冒犯到的语言学家。
鲍勃·摩尔(Bob Moore)
我觉得有意思的是,鲍勃证实了那个著名的“炒掉语言学家”的说法,而弗雷德(Fred)在他生命的最后几年一直在否认他曾经说过这话。
鲍勃·默瑟(Bob Mercer)
听到这个我并不感到惊讶。
观众
我有个问题,关于你之前的生活和你现在的生活之间的对比?在金融领域如何处理数据噪声与模型复杂度的平衡( What is the balance between those more complexity and just vasts amounts of data in your finance world )?
彼得·布朗(Peter Brown)
我们在这方面要小心自己能说什么。我想我们可以这样说:当噪声越多时,模型反而不需要那么复杂( When there’s more noise then the model is not as complex )。
某男性
英语和法语更像是一样的事物。但在金融领域,情况一直在变。
鲍勃·默瑟(Bob Mercer)
金融领域的真正问题在于你有竞争对手,如果有一个“非噪声”的信号冒了出来,有人可能会立刻发现它(The real problem in finance is that you’ve got competitors and if there’s some piece of not-noise that sticks its head out, someone may see it)。如果你发现比如说:如果我在下午 3:15 查看苹果( Apple )的股价,然后三周后就应该买某个东西——这种事很快就会被人发现。而一旦被发现,这种模式是非常赚钱的。但这种机会非常稀少,然后发现以后会被迅速套利消除。
彼得·布朗(Peter Brown)
我们可以举个例子,比如说我们的期刊俱乐部( journal club )……吉姆( Jim )和弗雷德( Fred )有些相似之处。吉姆·西蒙斯( Jim Simons ),我们文艺复兴科技投资公司的创始人,总认为我们应该从别的地方寻找点子,于是我们办了一个期刊俱乐部( we should look for more ideas elsewhere, and so we started a journal club )。
每周我们会读三篇金融领域的论文,这些论文是指定好的,然后大家会展示分享并且评价这些论文的内容,看是否有点子可以用。我们读了上百篇论文,我不觉得我们从中找到过一个真正可用的点子( We read hundreds of papers and I don’t think we found a single idea in the papers that actually worked )。这有几个原因。一是写这些论文的人,他们的目标是拿博士学位、获得终身教职或者成名之类的。他们不太关心怎么赚钱( the people who write these papers, their goal is to get their PhDs or to get tenure or to become famous or something. They’re not so much concerned about making money )。
因此他们往往对训练数据过度拟合( they tend to overfit the training data )。但另一个原因是,一旦某项发现公开发表,市场意识到其价值后,相关机会就会迅速被交易殆尽( the world sees that there actually is something there, then it’s traded out very quickly )。所以行业竞争确实是个大问题,这也是我们为什么不做关于金融策略的演讲。这是我们 20 年来首次参加学术会议,因为人们根本无法公开讨论交易思路,这些思路一旦曝光就会立即失效。( because people just can’t talk about ideas, because as soon as they’re out, they get traded out )。这也解释了为什么金融数据总是充满噪声。所以当你听到金融专家高谈阔论"市场因为某某原因上涨"时,请记住——这些都是无稽之谈。
菲利普·雷斯尼克(Philip Resnik)
顺便值得一提的是,我认为数据的这种非平稳性在机器翻译领域值得我们更多关注。实际上,我们对待语言的态度仿佛它比现实情况更静态。当然,您之前提到过高资源与低资源语言的讨论——随着我们不断碰壁,适应性的概念正变得越来越重要。这不仅涉及从高资源到低资源的跨越,更涉及从新闻通讯、政治文本或定期发布的会议纪要,转向那些我们根本缺乏数据的语言。我们必须设法从现有资源和已构建的模型中挖掘更多价值( We have to find ways of getting leverage from what we do have, the models we’ve already built )。
彼得·布朗(Peter Brown)
让我来指出金融和自然语言的一个区别。在自然语言中,你总是可以获得更多数据,比如输入一堆《灵犬莱西》( Lassie )的小说之类的文本。而金融数据的总量是固定的——你无法凭空创造更多价格波动数据,这令人沮丧( In financial data, there just is what there is and that’s it. You can’t create more data on price movements, and so that’s frustrating )。我们没法像谷歌那样采取数据扩张策略( You can’t take the Google approach )。
菲利普·雷斯尼克(Philip Resnik)
(若使用文本数据)其实可以搭便车...
彼得·布朗(Peter Brown)
前提是里面真的有信号。
克里斯·戴尔(Chris Dyer)
对啊,我们都听说过,现在成功的对冲基金的秘诀靠的是推特了( we’ve all heard that Twitter is the secret to successful hedge funds these days )。
彼得·布朗(Peter Brown)
我读过那篇推特的论文。有一位美国中西部、好像是爱荷华州的女性写了篇关于通过推特预测市场走势的论文。
克里斯·戴尔(Chris Dyer)
印第安纳州。
范阳注:Twitter mood predicts the stock market
https://www.sciencedirect.com/science/article/abs/pii/S187775031100007X
彼得·布朗(Peter Brown)
印第安纳州,我就知道是某个“I”开头的州。我记得她预测了标普指数( S&P index )在 12 月的 14 天走势……
克里斯·戴尔(Chris Dyer)
我记得是17天。
彼得·布朗(Peter Brown)
十七天。我的天!我不便置评。不过我听说谷歌(Google)决定不进入这个业务,是这样吗?你能确认一下吗?
弗朗茨·奥赫(Franz Och)
基本上是用像“谷歌趋势”(Google Trends)这样的东西……
彼得·布朗(Peter Brown)
来做交易,是吧?
弗朗茨·奥赫(Franz Och)
是的,有所耳闻。
彼得·布朗(Peter Brown)
他们声称是这么搞的……
弗朗茨·奥赫(Franz Och)
这当然是有可能的。不过“谷歌翻译”(Translate)是对所有人开放的。
菲利普·雷斯尼克(Philip Resnik)
我们也可以谈谈历史,或者一些更大的问题?
马特·波斯特(Matt Post)
说到这个,"到处喷洒概率质量"( spraying probability mass all over the place )那个说法还记得吗?93年那篇论文里的?
彼得·布朗(Peter Brown)
我记得……
马特·波斯特(Matt Post)
作为贝叶斯方法的理论依据?那个已经...
鲍勃·默瑟(Bob Mercer)
模型四(Model 4)。
彼得·布朗(Peter Brown)
那是关于“缺陷”(deficiency)的问题。
马特·波斯特(Matt Post)
我记得那是用来说明为什么要用贝叶斯法则分解模型……
彼得·布朗(Peter Brown)
哦,这就是为什么我们要用前向,而不是后向的原因。
马特·波斯特(Matt Post)
对。
某男性
不过不也要后向转前向嘛,对吧?
菲利普·雷斯尼克(Philip Resnik)
还有其他想法吗?
鲍勃·摩尔(Bob Moore)
我想试着让他们多讲一点你们现在到底在做些什么。
彼得·布朗(Peter Brown)
现在讲,还是……?
鲍勃·摩尔(Bob Moore)
现在。你之前说过,你们会找到一些可以利用的小机会,但最终大家都发现了,它对你来说就不值钱了( you find some little thing you can exploit and then eventually everyone finds out about it, and it’s not worth anything for you anymore )
彼得·布朗(Peter Brown)
所以我们才保持沉默。
鲍勃·摩尔
你能不能举一个具体的例子?
彼得·布朗
当然可以。我可以回答这个问题。在 2003 年,那时我们还有一些投资人。后来我们把所有投资人都赶走了。但在 2003 年最后一次投资人会议上,吉姆说:“你必须给他们一个例子。” 于是我们确实披露了一个例子,不过你也可以想象,那并不是一个特别有价值的例子,但它能让人感受到我们是怎么做事的。我们曾购买过一个数据集,是关于云层覆盖的。我们发现,当巴黎多云时,法国股市上涨的可能性会比晴天低一点。这在米兰也是这样,这个规律同样适用于东京、圣保罗和纽约。这竟是真的( One of the datasets we purchased is cloud cover data. It turns out that when it’s cloudy in Paris, the French market is less likely to go up than when it’s sunny in Paris. That’s true in Milan, it’s true in Tokyo, it’s true in Sao Paulo, it’s true in New York. It’s just true )。
当然,你不会从这种数据里赚到很多钱,因为上涨的概率只是略微高一点。但它在统计上是显著的( you can’t make a lot of money from that data because it’s only slightly more likely to go up. But it is statistically significant )。关键在于,如果有一些既合理又很强的信号,早就被人交易殆尽了( if there were signals that made a lot of sense that were very strong, they would have long ago been traded out )。所以,要么是存在一些我们无法理解的信号,但它们确实存在,而且可能还比较强——不过这样的信号很少;更常见的是,这些信号都非常弱,就像这个云层数据的信号一样。而我们所做的,就是找出很多很多这样的信号。我们有大概 90 位数学和物理学的博士,每天就在干这个工作。我们还有上万个处理器,日夜不停地运行,寻找这些信号( So either there are signals that you just can’t understand, but they’re there, and they can be relatively strong. There’s not many of those. Or, much more likely, it’s a very weak signal, such as this cloud cover data signal. What we do is look for lots and lots, and we have, I don’t know, like 90 PhDs in math and physics, who just sit there looking for these signals all day long. We have 10,000 processors in there that are constantly grinding away looking for signals )。
范阳注:最近从 Bloomberg 看到这条消息,对冲基金依然在招聘大气科学 x 机器学习多学科背景的人才。
想法是这样的:任意一个,或者一小组信号,可能不足以克服交易成本,但如果你组合了大量的弱信号,就可以超过成本,形成有效策略,从而获得收益( The idea is that any one of these or any handful of these wouldn’t be enough to overcome transaction costs, but if you combined lots and lots and lots of them together, then you can overcome transaction costs and you have something )。所以我们依靠的是很多这种微弱信号,像云层数据这种。不过就算你们再怎么追问,我也只会透露云层这个例子( it’s a lot of weak signals like this cloud cover data, but that’s the only one I’m going to disclose no matter how hard you push me )。(笑声)
鲍勃·摩尔
这个例子真的很有启发性,很实用。
彼得·布朗
本质上原理相同,只不过你们的工作更有趣。
丹·尤拉夫斯基(Dan Jurafsky)
我们这个领域的人之所以能互相发现这些微弱的信号,是因为我们写论文交流(the way we find out about these weak signals in our field from each other is we write papers)。但你们显然不会这么做。那么,是不是你们那边也存在一个完美的“知识市场”?也就是说,如果有人发现了什么,你们是怎么知道的( is there a perfect intellectual market for you where somebody figures out something, right, or how do you know when people are figuring out the things )?
鲍勃·默瑟(Bob Mercer)
我们有 90 位博士,每周开一次集体会议。
丹·尤拉夫斯基
不,我是指整个金融界...
菲利普·雷斯尼克(Philip Resnik)
金融领域是如何……
彼得·布朗
你们是问,我们怎么知道其他人是不是也发现了这些信号( how do we know whether other people are finding out these signals also )?
我们无法确知别人发现了哪些具体信号,但能观察到:十年前开发的交易系统会随时间逐渐失效( We don’t know which exactly signal they’re finding, but what we can see is that a system from 10 years ago or something like that, gradually degrades with time ),那一定说明别人也开始使用类似的东西也在进步了。所以我们只好不断扩展系统、雇更多人——挺烦人的,但现实就是这样( we just have to keep extending the building and hiring more people and it’s annoying but that’s the way it is )。
菲利普·雷斯尼克
类似地,我还有个好奇的点——既然我们指出了这么多相似之处,在方法论层面,这个房间里很多人( 弗朗兹,你算是这方面的大师 )都在做的一件事就是"基于错误的系统改进"( error driven improvement of systems )。这不仅仅是推动模型向前发展,而是会实际观察模型的输出,并利用这些反馈逆向优化。我想问的是——在你们能透露的范围内,这个问题应该足够宏观不会涉及敏感细节——从方法论来看:是单纯依靠大量数据运算和证据组合来试错?还是保留了传统错误分析的方式?虽然数据驱动,但需要人工研判"这条路径是否将我们引入歧途"?这种分析在你们的流程中占多大比重?
鲍勃·默瑟
这个问题我其实也不太确定。但我可以说这样一件事:彼得提到了“把事情做对”的重要性。我们刚加入文艺复兴科技基金的时候,当时那些人其实并不擅长构建大型系统( The people at Renaissance, when we arrived, didn’t really know how to make big systems )。许多来文艺复兴科技工作的人都以为自己会去发现信号,我想彼得和我当时也以为我们会预测“明天苹果的股价”这种事情。确实有些人就是干这个的,有些人干得比别人更好。我自己其实并不寻找信号。那些做这事的人,你可以把他们看作“淘金者”:他们能指出某个地方说,“我觉得那里可能有金子”,结果还真有。另外一些人就是随便挖个洞,然后说“再挖一个”,其实他根本不知道自己在干啥——但他也许也能挖出点东西。我觉得我们俩都没法详细评论这些“找信号”的过程,这真的是一种“直觉”,有些人就是有这种天赋。
大卫·亚罗斯基(David Yarowsky)
听起来你们像是在打仗啊。是不是和图灵破解“恩尼格玛”( Enigma )时一样紧张?如果赚钱不是问题,如果你们能保持现在的收入水平——你们更喜欢哪种工作?
彼得·布朗
你们做的事情其实更有意思。
鲍勃·默瑟
我肯定选现在的工作。虽然是一种战争,但比图灵那个和平多了。
彼得·布朗
我的梦想是退休后回归学术。你们干的事实在是太有趣了。不过鲍勃花钱太猛了,所以…… [笑声]
莱恩·施瓦茨(Lane Schwartz)
你们其中某篇论文里说过这么一句话,我记得是:“做统计自然语言处理的人,是统计建模里收入最低的;而做华尔街投机的,是收入最高的( it’s about the statistical NLP people are one of the least-paid statistical modelers, and that the Wall Street speculators are about the most paid )。”你们是这样觉得的吗?[笑声]
彼得·布朗
我觉得谷歌现在也赚了很多钱。那边肯定也有人做对了什么事情。虽然也许钱没流到具体员工手里,我就不知道了。
史蒂芬·德拉·皮特拉(Stephen Della Pietra)
我们刚进金融行业那会儿,公司才 30 个人。那时候真的很令人兴奋,因为我们又站在了一个新起点上。跟所有事情一样,随着时间发展、规模变大,就没那么令人兴奋了。所以现在不太一样了。
彼得·布朗
好,非常感谢大家邀请我们!
菲利普·雷斯尼克
谢谢你们![掌声]
克里斯·戴尔(Chris Dyer)
好的,午饭时间到三点,做海报展示的同学请提前回来。
原文链接:
https://web.archive.org/web/20240526093411/https://post3.net/bitext
适应力即阿尔法:2025 年优秀 VC 非共识的投资模式。| FOF Nomads 合伙人
预测生物学(Predictive Biology):AI 驱动生物学从“还原论”到“涌现性”的新范式。