按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
但事情不仅如此。李开复还觉得有必要开辟一个“两个人的课堂”。“学生”自然就是邸烁和陈正,而“老师”正是他自己。他花了很多时间和两个副研究员谈论书籍和论文的内容,尽可能用简单的方式给他们解释“语音识别”的来龙去脉。邸烁后来回忆道:“他很会讲课,讲334过一次以后,我们再看论文,就很顺利了。”但也有并不顺利的时候,但逢这种时刻,李开复总是笑眯眯地看着这两个人,怂恿他们“猜猜看”,然后笑道:“猜错了嘛!”
“这里的气氛真是好,没有一点压抑的感觉。”陈正说,“一个院长、一个很有名的科学家,没有想到他竟能给我们讲课。他真的是一点架子都没有。所以虽然我们经常会出错误,但却并不紧张。”两个“学生”开口闭口叫着“开复”,心里倒是真的把他当成老师了。当李开复在中国的报纸上成为一个“抢人才”的话题时,看来他在研究院里仍是受到尊敬的老板和导师。研究院的气氛既像学校,又像公司,按照通常的习惯,刚刚走出校门的博士们仍然会在嘴上叫“老师”,从其他公司里来的那些人则要称呼“老板”。事实上,李开复既不好“为师”,也不好“为官”,至少他在表面上不喜欢人家总是记得他的身份。他并没有告诉大家怎样称呼他,但奇怪得很,所有人一进来,全都异口同声地叫他“开复”,他也觉得这样的称呼很自然。
邸烁和陈正两个人在这里遇到的可以当作老师又不必称呼“老师”的人,至少还有黄昌宁。黄是研究院年335龄最长者,62岁这一年退休之后,来到研究院主持自然语言小组的研究工作,眼前这些人从年龄上说,差不多都是他的晚辈。不过,当他和这些年轻人在一起说笑的时候,谁也不会想到他在中国学术界乃是属于德高望重的老一辈人。他的名望不是由于他在计算机专业领域的成就,恰恰相反,用他自己的话说,他在计算机领域里是“半路出家,先天不足”。事实上他是语言学的专家,多年致力于从计算机的视角看语言,在中国的计算语言学界乃是首屈一指的人物。无论是语言学还是计算机学里的人,都会向他提出诸如“从计算角度看语言”之类的问题。黄昌宁总是要花费很多时间来解释:“计算语言学实际上是语言学,是用计算机来研究分析自然语言。”由于他的这种专长,他在国内外一些大学里成了很受欢迎的人。有一次,李开复对黄昌宁说,研究院需要他这样的人,因为“汉字的输入,看来是一个文字问题,但也涉及到语言问题”。仅仅一句话就让两个人彼此沟通。“让我到这里工作的一个原因,是李开复对语音识别的理解。”黄昌宁后来这样说。这情形真有些像王坚经历的重演,又有些像金庸小说中所说的“高手过招”。
336黄昌宁在1999年4月来到希格玛大厦。当邸烁和陈正在计算机方面向李开复不断求教的时候,黄昌宁也成为这两个年轻人在汉语语言方面的指导。下面这些话题,就是那个时候经常谈到的:“汉语和英语的共性”;“语音当中的文字问题和语言问题”;“单字概率与词组概率”;“中文输入习惯和思维习惯不能合拍”;“人的语言能力还是科学家的一个黑匣子”;“什么叫做计算语言中的‘观其半而知其意’”;“人脑子里的语言系统不是按照词典排列的”;“计算语言学为什么要同心理学和数学结合在一起”;“计算机语音科学家面对的最大挑战:把‘一对多’变成‘一对一’”;……
他倾心尽力将自己的语言学知识留在希格玛大厦337中。“我在清华干了这么多年,退休以后才走的,我觉得自己对得起清华。”他这样来回答向他质询的朋友。他整天混迹在年轻人中间,并非不知老之已至。恰恰相反,他对自己的年龄有充分的了解。“我老了,想像力不行了,但洞察力要比年轻人深一些。”他这样说。他似乎已经意识到,由于语言不同造成的文化隔膜行将终结,计算机技术的进步终有一天让人类超越这种隔膜。
但这个世界毕竟是属于年轻人的。“在这里,没有哪一种技术能有5年以上的生命,很快就会改朝换代。”他说,“在大学里面学的东西,出了校门就变了,何况我这把年纪?”后来者总是站在前人的肩膀上1999年6月,微软公司决定加快语音研究,比尔.盖茨也倾向于在微软原有的英文语音识别系统之外,增加日文和中文两大部分。时间相当明确并且迫在眉睫。初步的成果将在秋天拿出来,其中文部分,当然要由中国人来做。这让李开复极为兴奋,他在嘴上说“我们可以做,但不能保证”,心里却想着“舍我其谁”。研究院成立刚刚7个月,他领导的语音研究小组诞生不过两个星338期,小组的第一批成员,邸烁和陈正,又是外行。在这种情形下,比尔.盖茨一般是不会下命令的,但公司的产品部门却说,他们的确需要这个技术。李开复再回过头来看看身边,觉得中国人也的确需要。王坚依据他在国内从事研究多年的经验,认定这件事情“肯定做不成”。
他说:“现在还一行程序都没有,3个月后就要拿出一个像样的东西。这种事情在我们国家是不可想像的。”王坚当时并不了解,微软公司有一个“资源共享”的制度,并且有着“团队合作”的风尚。但李开复和凌小宁却对雷德蒙微软总部的情况有足够的了解,知道黄学东小组那里有什么东西,而且可以肯定北京的工作能够得到黄学东的全力支持。他们也知道微软公司以外的其他地方有什么东西。然而更加重要的是,微软中国研究院有李开复--世界领先的语音识别专家。研究院起步虽晚,但并非从头做起。这两个人在一起斟酌再三,都觉得虽无十足把握,但完全值得一试。当即决定,在7月份之前搞出一个基本框架。
对于李开复来说,现在的确是审时度势的时候了。
从他在卡内基梅隆大学实现的历史性突破算起,已有10339年。他花了3年的时间才制作出一台应用他的新理论的“小精灵”,但却没有能够让它真正进入千家万户,此后又花了7年的时间,苦心等待机会再次出现。这一期间,语音识别已经不再是让人们敬而远之的书斋里的技术,它在不知不觉当中与人们的生活日愈紧密。这一回,李开复已拥有微软这个庞大而又实力雄厚的舞台,如果能够如愿以偿,就决不会让这项技术继续束之高阁。
他对自己要做的事情并不仅仅抱有幻想。微软中国研究院以及李开复本人的加入,可能会更加激发其他公司在这一研究领域里快马加鞭。虽然你追我赶的热闹气氛和李开复的务实风格相悖,但他的确相信希格玛大厦的整个工作将以突飞猛进的步伐前进。他不仅拥有自己以往在这个领域中的全部经验和理论,而且还可以踩在微软公司过去若干年中的全部研究成果之上向前攀登。
他可以从雷德蒙的拼音小组拿来中文字典,还可以从黄学东小组那里拿来全套“维斯波”(Whisper)--英文语音识别系统。微软公司的制度本来就鼓励“小组合作”
和“资源共享”,黄学东和李开复的多年私交这个时候也340发生了作用。黄很痛快地答允,将“维斯波”的源码和语料库,全部调送李开复使用。“源码”和“语料”构成一个语音识别系统的最基本的部分,尽管它们全都属于英文而非李开复需要的中文,但有了这些,李开复小组的工作便有了一个很高的起点。这情景有如攀登一座100层的楼房,他们从一开始就已经站在第50层上。
可是,事情一开始就缓慢得令人揪心。
“维斯波”的“源码”和“语料”,容量大至“10G”。
就像物体的面积体积重量都有一个计量单位,信息的计量单位是“比特”。今天我们使用的个人电脑中,“比特”
的数量单位,以“G”为最大,以“B”为最小。中间又有“兆”和“K”作为过渡:1G等于1024兆;1兆等于1024K;1K等于1024B。
我们由此可以算出“维斯波”的容量为:1024×1024×1024×10=10;737;418;240(比特)
我们若将这些“比特”用汉字来衡量,并且放到一本32开的书中,那么这本书至少要有13;695;686页。如341此多的电子数据从雷德蒙微软总部传输到北京希格玛大厦,要依赖光缆构成的互联网络,也即我们所说的“信息高速公路”。高速公路上的汽车太多必会导致车速缓慢,“信息高速公路”的情形也是同样。当邸烁和陈正接通线路并启动