庖丁科技罗平:“三位一体”推动AI科技产业化

2018-02-01 09:53:19 来源: 网易双创
0
分享到:
T + -

昔日庖丁解牛,秘诀在于“依乎天理,批大郤,导大窾,因其固然”,今日“庖丁”循理 “解文”,手中的刀也已经换作“人工智能”。作为庖丁科技的首席科学家,罗平教授有足够的自信“提‘刀’而立,为之四顾,为之踌躇满志”。这种自信不仅源于他带领的整个科研团队的研发能力,也不单单是因为他们选择了近年最炙手可热的人工智能赛道——庖丁科技打出的路数是一套“组合拳”。AI是真正属于未来的技术,近两年,全球科技巨头已经在人工智能领域总投入超过300亿美元,中国企业和投资界投入80亿美元。对庖丁科技而言,迅速建立起自己的技术和行业壁垒,精准选择金融这一垂直应用领域,可谓在异常激烈的竞争中抢占了先手。

庖丁科技罗平:“三位一体”推动AI科技产业化

罗平教授是典型的狮子座,喜欢将自己“约等于80后”,对科研怀着无限热情,把“不断努力,做到最好”作为人生信条。博士毕业后,他选择加入惠普实验室,后回到中科院计算技术研究院任博士生导师,曾担任过微信人工智能科学顾问。在人工智能领域数十年的深耕,让罗平成为人工智能基础算法领域首屈一指的科学家,学术圈和工业界的双重经验对他的创业更是助益良多,对于庖丁科技的研发,他最有发言权。

AI公司的人如果全做AI,这个公司肯定会倒

研究AI技术与开一家AI公司之间有很大的鸿沟需要跨越——曾经在工业界待过很长时间的罗平教授对此深有体会。他用了一个格外生动形象的比喻来解释学术研究和产业应用的区别:前者如同在一片未知的森林中行走,偶然拨开一丛芦苇,发现一汪如宝石般美丽的湖泊,若在湖边振臂一呼,可能很快有追随者云集响应,共同从事这一研究。在学术界,只要能发现新问题、实验数据的精确度有所提升,哪怕只有1%的变化,也是一种学术进步。但是,凭借这些数据让一项技术实现产业化,里面会有很多问题需要解决。罗平举例说,即使利用新方法使得某一个性能指标比原来提升了50%,从绝对数量来看,准确率可能只有80%,对科研而言是很大的进步了,但对一个产品来说,用户体验绝对不达标,学术界的成果无法覆盖产业实际的需求。公司只有兼顾科研与产业化,才能迈步稳健。

实际上,这正是庖丁科技努力的方向,也是面对市场竞争的优势所在——罗平将其总结为“三位一体”的打法。其一就是AI技术研究的能力,这主要仰仗于以罗平为首的一批人工智能领域最优秀的人才;其二是工程化落地的能力,庖丁科技拥有大量做工程的人员,他们的主要任务是搭建内部的数据平台,保证数据的质量和数量,服务于AI技术的研究。第二块工作主要由董事长林得苗先生负责,毕业于清华大学计算机系的他,不仅有着前惠普中国实验室顶尖工程师、前腾讯研究院研究员等一系列名头,将世界前沿技术真正落地为产品更是他的“独门秘技”。“这就是为什么我们的产品可以直接部署到各种金融机构内部,让他们顺利应用。”谈及这位共事多年的老友,罗平丝毫不吝赞誉之辞。林得苗是一位成功的连续创业者,赶上了第一波移动互联网的浪潮,制作的APP服务用户量过亿,利润达千万人民币。“我们认识很久了,彼此之间有良好的信任,这次共同创业,也可谓是一拍即合。”

庖丁科技的第三根顶梁柱是在垂直领域场景应用的能力。另一位联合创始人高大光是金融出身,对整个中国的金融体系、无论是监管、投行、还是投资都非常了解,在海外的经历更赋予了他难得的全球视野。能够瞄准金融领域的痛点,是庖丁科技的又一特长。罗平认为,当前移动互联网的格局基本确定,很难大展拳脚,而作为百业之母的金融行业与整个社会存在巨大的交织网络,沉淀了大量记录各种金融活动的文档,包括各类信息披露、金融交易、客户信息、市场分析、风险控制、投资等在内的文档数据,而且很多都是公开透明的,正是AI最合适的应用场景——尤其是对于致力于让计算机读懂金融文档的庖丁科技而言。

智慧迁移:让计算机真正“读懂”人类语言

一份500页的招股说明书,一位投行分析师至少需要1周时间进行全面复核,而庖丁推出的金融文档智能产品只需要5分钟就能生成准确率高达99.9%的纠错报告。庖丁科技的技术和产品为众多金融机构赋能,迈出了走向AI大规模工业化的关键一步。

那么,庖丁科技的创新依托于怎样的核心技术呢?罗平教授用简洁朴实的语言向我们介绍了他正在从事的工作:总的来说,他想要实现的目标就是让计算机将文档中非结构化的内容(包括大量的自然语言和供人阅读的表格等),转化为结构化的、可以被计算机处理的知识。

具体而言,对自然语言的语义理解和对文档表格的语义解析是庖丁科技目前掌握的“核心技术”。金融文档大多数是PDF格式,与WORD文档、html网页等相比,PDF缺少除视觉信息和文本信息之外的格式信息,“它只能告诉我们每一个字是什么、位置是什么,无法识别语义。而对于PDF中的表格,呈现出的是方便人阅读的二维或更高维度的布局形式,然而对于计算机来说,识别起来尤其困难。”人类很容易理解的表格属性、单位,如果不能将其变成一个计算机能够处理的数据库,计算机是无法理解的。罗平强调,表格的排版多种多样,其中还包含各种复杂的计算关系,“用AI做好表格的语义理解,是一件非常有挑战性的工作。”一旦实现技术突破,之后的应用场景层出不穷。他对这一进程饱含热情——这类型的研究在纯学术领域很难遇到,投身创业可谓罗平对自我的一次考验。

当所有的文档都统一为PDF格式,表格的语义理解也完成之后,智慧迁移的下一个步骤是“自然语言的语义理解”。“首先要切句,一句一句的识别。”罗平教授举例说,如“公司的第一大客户2013年至2015年的营业额分别是X、Y、Z”这样一句话,需要将时间(2013年等)、财务指标(营业额)、值(X、Y、Z)等信息转化为计算机能够处理的语言。对“营业额所占比例”等信息,还要让计算机了解背后计算的公式——将语义用公式表达出来,成为计算机语言,这一过程可称为“自然语言理解”。此外,AI还会从各个方面审查文档质量,例如识别常见的“同音异字”错误等。庖丁科技所从事的这一项AI事业,从技术到产品,都有突破性意义。

注重技术落地,结合金融场景,用AI取代人类基本感知能力

“如果只做好了这些技术,是做不成产品的。”罗平教授斩钉截铁地说,“还必须结合金融领域的专业知识。”技术是基础性的,当文档成功被结构化之后,如何应用于投资、监管等各个具体场景之中,还需要产品设计者的用心。自创建伊始就把技术落地放在关键位置的庖丁科技,与国内外大型金融机构、金融监管机构等的合作已经在紧锣密鼓地展开。

2017年5月10日,庖丁科技在微信公众号“债有主”发布了一篇文章,为所有投行的债券发行提供了一个免费的to C产品。文章甫一推出,很快达到了3万多的阅读量,在整个投行圈形成“刷屏”之势。产品的使用方法非常简单,只需扫码登录,上传一份债券募集说明书,AI就可以自动复核,将其中数字之间的关系错误等标红展示出来,生成一个新的文档。“发布当天就有人上传了一份‘逗你玩儿’募集说明书,来测试我们产品的性能,结果是非常完美的。”罗平教授介绍说,虽然金融行业付费能力高,但是对信用要求极高,通过这样的形式可以很好地将庖丁科技在圈内推广出去。

未来,罗平想把这一套技术做到国外去,进军广阔的英文市场。在金融体系内,海内外的需求是类似的,目前国外市场还没有出现类似的产品,庖丁科技非常希望去探索那一片蓝海。在可行性方面,相比于逻辑性较弱、规范性较差的中文文档,大多数英文金融文档都十分简单而规范,“国外的金融监管机构要求募集说明书等文件,必须用最平实的英文,要让一般老百姓都看得懂。”这就意味着对自然语言处理的要求会低一些。

短期来看,庖丁科技会着力提升用户对产品的认知,逐步培育、拓展市场,让金融机构逐渐了解庖丁科技。一般的模式是与各类金融机构进行深入合作,把产品部署到对方的私有化工作之后,然后再销售给对方。对于罗平教授而言,更重要的是不断在技术上取得突破。

披上创业者身份的罗平教授,身上还是带着明显的科学家气质。与人工智能打了十几年交道的他,并不认为AI的极速扩展会挤压人类的存在价值。他提纲挈领地指出,现在做AI做得非常好的公司,都是致力于取代人类最基本的听说读写等感知能力,包括人脸识别、自动驾驶等等。人的这些能力逐渐被取代是大势所趋,但是机器实际上拥有的智慧还是十分有限的,它们缺乏创造性、缺乏专业性。“没有必要感到恐慌。我们只是让计算机帮助人们处理繁琐的机械性工作,复核金融文档不需要清华北大毕业的高材生,我们也无法取代投资人、银行家的核心工作,我们只是让人们有更多的时间去进行创造性的劳动。”罗平教授的话,不禁让我们对人工智能时代的到来更加期待。

邢晨雨 本文来源:网易双创 责任编辑:邢晨雨_NBJS5139
分享到:
跟贴0
参与0
发贴
为您推荐
  • 推荐
  • 娱乐
  • 体育
  • 财经
  • 时尚
  • 科技
  • 军事
  • 汽车
+ 加载更多新闻
×

FBI找人专家:你的圈子就是你的财富

热点新闻

态度原创

阅读下一篇

返回网易首页返回新闻首页
用微信扫描二维码
分享至好友和朋友圈
x