网站首页
IC库存
IC展台
电子资讯
技术资料
PDF文档
我的博客
IC72论坛
ic72 logo
搜索关键字: 所有资讯 行业动态 市场趋势 政策法规 新品发布 技术资讯 价格快报 展会资讯
  • 达普IC芯片交易网 > 新闻中心 > 新品发布 > 正文
  • RSS
  • 沃森也能DIY?打造你的专属超级计算机
    http://www.ic72.com 发布时间:2011/3/4 9:22:56

        在看完“危险边缘”的人机大战之后,你是否也想拥有一台自己的沃森问答系统呢?

        电影《迷失太空》中的机器人Robbie、《2001太空漫游》的HAL、星际迷航那个没有名字但相当厉害的计算机、Star Wars(星球大战)中的R2D2、The Terminato(终结者)的Ahh-nold、以及《星际争霸》中的Number Six…这些一直都在不断的进化机器人可谓数不胜数,是不是也让你渴望拥有一台沃森:能够回答你所有的问题,还可能征服世界的家伙,为什么不构建自己的沃森式问答系统呢?

        况且所需的基础部件还是可以找到现成的。

    沃森也能DIY?打造你的专属超级计算机

        让我们从服务器开始,其实并没有那么多的硬件。在开发出沃森软件的测试版本之后,IBM就开始着手了BlueGene/P并行超级计算机的部分框架,它是深蓝RS/6000 SP PowerParallel计算机的第三代版本,通俗的说就是深蓝的孙子辈。对于深蓝就不用过多介绍了,它因为在1997年战胜国际象棋冠军早已扬名万里。研制沃森不仅仅是一项技术挑战,还是具有杀伤力的市场营销活动,以宣传现在基于Power7的Power系统产品系列。正因为如此,IBM可能最后将把沃森DeepQA软件栈集成到Power 750中端服务器集群。

        为拥有足够的内存和带宽来储存所有必要的数据,IBM利用90台Power 750服务器组成了10个服务器栈。每个服务器装载了4个IBM 的8核Power7芯片,主频为3.55GHz。这样的配置赋予沃森2880核心和11520线程来运行软件栈。如果DeepQA软件注重线程能力,那么你也需要具有足够多线程的服务器。

        支撑沃森的90台服务器总共集合了16TB的主内存,但好像并不是均匀分布于每个节点的。稍加计算得出每台服务器可拥有182GB的内存。

        David Gondek是沃森项目中系统策略与算法团队中的一员,他表示DeepQA系统在主存内构建了信息数据库,其中的信息都将被输入到系统中。各个服务器之间是通过网络连接的,但显然,作为一名软件技术人员,Gondek并不知道IBM所使用的网络,不过笔者猜测是具有远程直接存取(Remote Direct Memory Access,RDMA)特性的40Gb InfiniBand或10Gb以太网,以此来加速节点间的通信。Gondek还表示,存放在内存和磁盘中的数据被复制,然后分布在系统各处,以此来获得高速度和高可用性。

        沃森服务器具有4TB的数据容量,实际上可能没有那么多。IBM并没指明这个容量到底是硬盘还是闪存的容量,但如果沃森所用的大部分数据都是保存在主内存,也就没必要再使用价格昂贵的闪存技术。不管怎样,使用闪存也是有好处的,至少它不会高温运行。

        Linux是 IBM POWER平台上运行速度最快的操作系统,因此IBM为Power 750选择了Linux的变体版本。在这种情况下,Novell的SUSE Linux Enterprise Server 11针对HPC负载做了许多调优以控制超级计算机,不过红帽软件在HPC领域可能技高一筹,Novell仿佛也有些前途未卜的意思:SGI公司已经证实将会在其最新的大规模并行服务器上搭载SLES 11 和RHEL 6以及Windows Server 2008,要知道它先前的服务器一般都只搭载SLES。

        然而,除非你是亿万富翁,你才会考虑买下所有的服务器。不过,如果你现在只能在地下室工作,或者只能在车库中进行此项宏伟计划,你完全可以找家人支援,以订购一些亚马逊EC2计算云的服务器应用。

        亚马逊在去年六月发布的Cluster Compute Instances可能是我们的首选,该集群计算实例提供33.5 EC2功率的计算单元,64位运行模式。它们还可为操作系统提供23GB的虚拟内存(这还不够),CCI下物理硬件使用的处理器插入双插槽x64服务器(基于英特尔2.93GHz 至强X5570)。

        这也意味着每个插片具有8核、16线程和23GB的内存。节点与这些10Gb以太网交换机相互连接。要达到基于Power的沃森核心数目,需要360块这样的插片。要达到沃森的线程数量,需要360块插片。要达到沃森的总主内存,需要712台服务器。如果基于Xen Amazon EC2管理程序价格不是太昂贵,这些服务器好像也可以达到理想结果。如果CCI价格为每小时1.60美元,那么你将需要花费每小时1152美元的费用。

        成就沃森的不仅是运行Linux的集群,由IBM开发的DeepQA算法也功不可没。DeepQA栈的两个关键要素都是Apache软件基金提供的可用开放源码程序。

        第一个是Apache Hadoop,这是由Doug Cutting在阅读Google后端基础架构之后创建的开发源码,分布在数据运算系统。Hadoop在2005年加入了Apache项目,在2008年左右成为可用系统。

        DeepQA栈另一个关键要素是Apache UIMA(非结构化信息管理架构),这是IBM数据库专家在2005年创建的信息管理框架,以帮助他们处理非结构信息,比如文本、音频和视频流。UIMA代码执行语法分析文本的自然语言进程,帮助沃森理解“危险边缘”的线索。

        IBM已经将UIMA功能嵌入到其销售的各种不同的系统项目中,第一个尝试的是OmniFind语义搜索引擎,IBM将其放入了DB2数据仓库。IBM已经提议将UIMA作为OASIS标准,还将进行开源,连同其用于管理非结构化数据的框架构建方式一起。UIMA具有用于Java 和 C++的框架,但毫无疑问,它也可被扩展至任何语言,无论你的沃森问答系统用哪种语言进行编码。

        Gondek表示,IBM应用Prolog处理问题分析,所以沃森算法都是用C或 C++编写,尤其是进程速度非常重要的地方。而用于处理问题分析和可信度评估的算法是用Java编写。所以可能你就会想到使用RHEL-Jboss栈。

        写到这里不得不提到DIY沃森将会遇到的问题:IBM的DeepQA团队为“教”沃森迎战“危险边缘”而编写的算法,这些算法由数百万行的代码组成。这就需要你和你的朋友花上好几个星期来完成。但是,如果你真能实现该算法,你就能创办一家深度分析公司,然后等着惠普或者微软找上门吧。

        Gondek也有些建议可以帮助你构造一台沃森:首先,不要将那些可以在网上找到的东西塞到设备中。在建造沃森的时候,IBM的研究人员发现权威文本,比如牛津英语词典、巴氏常用妙语辞典、维基百科及各种不同的百科全书是最适合参加“危险边缘”的数据集,你会更愿意要精确的数据,而不是过多无相关性的文本,系统可以专注于大量的文本找到答案。

        举例来说,你不会放入大白鲸这个词汇,而会用许多描述大白鲸的权威文本替代,并挑选出重要的章节。事实证明,为参加“危险边缘”沃森准备了2亿页内容,这相当于一百万本书。

        Gondek还提供了另外一个关键点:要专注于问题分析算法。在任何句子中找出关键词,省略干扰信息,不仅能快速得到答案,还有助于提出正确答案。

        以上两点正是沃森参加“危险边缘”后所总结的重要经验,希望它们能够帮助你建造属于你自己的“沃森”。


    www.ic72.com 达普IC芯片交易网
  • 行业动态
  • 市场趋势
  • 政策法规
  • 新品发布
  • Baidu

    IC快速检索:abcdefghijklmnopqrstuvwxyz0123456789
    COPYRIGHT:(1998-2010) IC72 达普IC芯片交易网
    客户服务:service@IC72.com 库存上载:IC72@IC72.com
    (北京)联系方式: 在线QQ咨询:点击这里给我发消息 联系电话:010-82614113 传真:010-82614123
    京ICP备06008810号-21 京公网安备 11010802032910 号 企业资质