按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
在那一年的Director Review和第二年的TechFest,我们演示了这一技术,得到了广泛的好评。
跨越“100小时”这座大山
在我们演示了基于音素的音频检索技术之后,得到最重要的一条反馈是,这一技术要做到实用,必须解决数据集的尺度问题。在我们的解决方案中,搜索时间和数据集尺度是成正比的,这称之为“线型搜索”。在数据集小于10小时的情况下,搜索的时间在2秒以内。但当数据集到了100小时的时候,搜索时间就不可接受了。而100小时,是一个实际应用的基本要求。
其实在文本搜索领域,通过基于词的倒排索引,海量数据集的搜索早就不成为难题。但在我们的系统中,因为采用音素为基本单元,使得简单的倒排毫无用处:基本上一个音素会出现在所有的文件中。100小时难题成为横亘在我们面前的一座难以跨越的大山。
经过几次的推倒重来,反复的争辩讨论和大量的实验验证,最后我们提出了索引可变音素串的方法,即通过倒排较长的音素串实现加速,同时借鉴n元文法的backoff方法解决集外词问题,成功地解决了音素一级的索引问题。当最后的演示系统成功地在1秒以内搜索100小时数据集的时候,我们都情不自禁地欢呼起来。
(余鹏 (中) 与项目同事在一起展示语音搜索所用的道具)
出租车上写出来的程序
在微软做研究有一个别的地方无法比拟的优势,那就是,你会有机会把自己的想法和技术应用到微软的软件产品中去,真正做到改变人们的生活。在演示了我们最新的音频检索技术之后不久,Microsoft Office ? OneNote产品组找到我们,表示出应用这一技术的兴趣。
但是我们很快发现要把技术产品化并不那么简单。由于OneNote产品组自己的产品进度非常紧,他们没有足够的人力资源来把这一技术付诸实现。如果我们不想放弃将这一技术付诸产品的机会的话,我们必须亲自参与具体的产品开发,而那意味着我们需要付出大量的努力和时间在一个作为研究员来说并不熟悉的领域。
我们最终选择了全力以赴地将技术实现到产品中,因为我们都相信,没有实现的技术,终究只是技术。那段时间,是我进入MSRA后最为忙碌的日子。除了参与产品进度,我们还有其它的研究课题,加班是经常的事情。举一个例子可以看出当时的紧张程度,因为软件版权问题,我们需要重写音素识别的解码器,而这一工作是我的同事赛德用了一个月的时间,每天坐出租上班的路上用笔记本写的。后来我常常和他开玩笑说那是他的“Taxi Project”。
我们最后提交给OneNote产品组的代码整整有10万行。由于我们的努力,音频检索成功地随着OneNote软件于2006年底发布。那一年的Director Review,我们骄傲的宣布了这一消息,得到了院长们由衷的掌声。
迈出“技术改变生活”的第一步
OneNote的音频检索只是我们迈出的第一步,随后,我们的研究方向转向数据量更大,内容更复杂,需求更多样化的互联网音频/视频搜索和企业级音频/视频的搜索。微软庞大的产品线也让我们找到了更多连接语音技术和用户需求的渠道。
当我们致力于用语音技术改变人们生活这一目标的同时,我们发现这也同样指引我们做出更多更有用的研究。在我们摸索技术实用化的过程中所解决的很多问题,对于学术领域也带来非常大的影响。从2003年开始,我们发表的一系列关于音频检索的文章,现在正引起越来越多的关注。
在MSRA,“用语音技术改变人们的生活”,这一当初我选择语音识别作为我的专业课题时的梦想,正在一点点地成为现实。
作者介绍:
余鹏,浙江绍兴人,2002年毕业于清华大学,获信号于信息处理博士学位。之前于上海交通大学获通讯工程学士学位。现为微软亚洲研究院语音组研究员,研究方向包括信号处理,语音识别,音频搜索,信息检索等。最大的业余爱好是篮球,在球场上是一名出色的投手。
第92节:如何做一流的研究(1)
如何做一流的研究
作者:朱文武
从研究生阶段开始算起,我已经在计算机多媒体与通信领域做了近二十年的“研究工兵”了。做研究是我一直乐此不疲的事业,它源自于从小对科学的热爱。最近十几年中,由于工作的需要我前后指导了很多学生做研究,看到他们在学术上的成长和科研上的进步是最让我感到自豪的事情。对于一名学生如何起步做一流的研究,也是我非常乐意与朋友们探讨和分享的话题。
在谈怎样做一流的研究之前,我想先谈一下怎样认知自己和怎样在研究中发挥自己的优势(这一点不仅仅对研究实用,对一个人的职业成长也有用)。我觉得在确立研究事业或者任务之前,每一个人都最好去审视一下自己,达到一个对自己能力和兴趣的最好认知,在西方国家把这一过程称之为Identify your strength。通过分析自身的强势在哪里,对哪些方面更有兴趣,能力在哪方面,然后确定比较喜欢的能发挥自己优势的研究课题。我觉得做研究要积极与自己的优势相结合,并努力挖掘自己认知方面的潜能,这样才能在研究中发挥自己的优势。
做研究就好比爬山。首先,你必须热爱自己所从事的科学研究工作,就象爬山运动员首先必须热爱爬山运动,这是非常重要的一个前提。比如,我自己非常喜欢视频通讯,虽然我在纽约理工大学读博士期间导师分给我的论文题目是用激光成像探测肿瘤(因为这个题目有奖学金),可我对视频通讯有浓厚的兴趣,就一直利用其它时间从事视频通信的研究,这样相当于3年里我做了2个博士论文。另外,扎实地学好一些基础学科和掌握英语等语言技巧也是从事研究工作的必备条件。立志做研究的人,最好在数学、英文、逻辑思维能力等方面打下坚实的基础。从我个人的亲身经历而言,学好数学和英文对我的确是非常受益的。比如,我在伊里诺斯理工学院读硕士时,我的导师 (Nicklos Galatasnos和Aggelos Katasaggelos教授)是希腊人,希望能用数学来证明我们提出的图像复原理论。于是我花了几个月推公式证明了我们的观点,后来在世界上顶尖级学术杂志上发表了这个理论。
在开始做一个研究之前,选好一个题目和方向至关重要,就像爬山运动员确定爬山的方向及目标。一个好的题目和方向怎么选,这里面有很多的学问。当然,在大方向的把握上,导师的宏观指点会对你最初研究思路的展开起到拨开云雾的作用。要珍惜每一次与资深专家交流的机会,多听听领域内最前沿的技术讲座,这样才能有机会了解到领域内最好方向的研究题目。比如,1997年随着互联网的发展,视频在互联网上的传输是当时非常重要的方向及研究题目。当时视频在互联网上的传输都是block…based ; MPEG4是scene…based ,于是我认为MPEG4在互联网上的传输可能会具有突破性。当时我就找了张亚勤谈了我的想法,亚勤对这个想法给予了非常的肯定并进一步进行了方向的指导。我和亚勤的研究成果在2000年IEEE Transactions on Circuits and Systems on Video Technology (电路与系统视频技术学报) 发表,后来这篇文章获2001 IEEE Transactions on Circuits and Systems on Video Technology最佳论文奖。再举一个例子,随着无线通信的发展和互联网的成功,亚勤、我和张黔认为视频在移动互联网是当时发展的趋势,因为无线信道特性和功耗具有极大的挑战,于是我们选无线互联网视频通讯为主要研究方向并指导学生展开MPEG4在无线互联网上的研究工作,结果这篇论文发表在IEEE Journal of Selected Areas on munications(多媒体通信专辑)并获2004 IEEE munications Society (多媒体通信专业委员会)最佳论文奖。
第93节:如何做一流的研究(2)
在大方向明确了之后,在选题时你还要学会站在前辈巨人的肩膀上去做研究,这一点及其重要。在这个领域这个课题到底发展到什么程度了,已经有哪些方法出现了,还有没有可以突破的地方,哪里有。因此,在进入一个领域之前,要做一个详细的论文研究综述出来,才能知道这个领域内最前沿的技术是什么,大家讨论最