长期以来,人们一直认为,Close只适合于马蹄铁,但对于大多数数据查询也足够好,特别是当您希望从千兆字节的数据中得出答案时。

这就是Infobright近似查询(Iaq)大规模数据环境解决方案背后的逻辑,这家总部位于多伦多的公司今天在西班牙巴塞罗那的世界移动大会上推出了该解决方案。
Infobright总裁兼首席执行官DonDeLoach表示,数据企业的快速指数增长才刚刚起步,而正在建设的大型数据湖体系结构实际上抑制了足够快地获取所需信息的能力。“您可能拥有中央数据湖体系结构的想法,并不能解释对该数据的即时洞察或对该数据的询问。”
IAQ采用统计建模方法为复杂数据集提供结果,并利用对数据垂直段的分析生成知识。DeLoach说,当数据被加载时,智能算法对数据进行评估并生成知识。“我们的论点并不是所有的疑问都需要一个准确的答案。”IAQ可以覆盖在传统的关系环境以及NoSQL环境之上,例如Hadoop、SPark、Teradata、Cassandra、MongoDB和其他环境。
DeLoach解释道,9年前,Infobright由四名波兰数学家在多伦多创建,其主要产品是一个基于列的数据存储,其独特设计用于存储机器生成的数据,通过吞并询问创建知识网格来创建数据集的统计元数据模型,DeLoach解释道。结合紧密压缩,Infobright能够大幅减少I/O需求。它还被设计成不需要数据库管理员的专门技能来使用它。
他说,Infobright在世界各地的大多数移动服务提供商都有安装,占公司业务的很大一部分。其他部门包括数字媒体、在线广告和金融服务。DeLoach说,随着像Hadoop这样的大数据系统正在成为主流,世界正在转向一种新的数据存储模式。他说,随着大量数据的收集,传统的数据湖将变得不可行或不够快。
不需要精确的答案,每次都会加快查询的过程,提高组织的效率。DeLoach把它比作一个侦探问了一系列问题;只有对最终问题的答案是正确的;到达那里的答案需要足够接近。
一个实际的业务示例可能是企业希望了解网络入侵是如何以及为什么发生的。“故障排除实质上是一种调查。”调查可能需要十几个可能需要数天时间的查询。DeLoach说,使用IAQ方法可以大大减少这种情况。使用基于云的数据湖体系结构的主要障碍之一是它禁止快速补救,因为针对越来越大的数据量的查询数量增加。“这是一个很大的限制。”
Infobright本质上是创建一个元数据抽象层,这样它就不必一次处理所有数据就能得到答案。布鲁尔集团(Bloor Group)首席分析师罗宾·布洛尔(RobinBloor)指出,使用不精确数据来获得答案的想法并不新鲜,因为抽样一直都是在统计分析中完成的。“它没有你想象的那么激进。”
改变的是机器学习算法,这些算法是在Hadoop上对千兆字节的数据进行查询时所需的。“通常情况下,你可以在几分钟内得到答案,而这通常需要几个小时。”
Bloor说,组织中完成查询的速度实际上取决于业务流程。“银行之间存在着一场技术战争,为了比其他人先完成一项交易。”他们正在研究纳秒的差异,“他说。“这是光谱的一端”
布鲁尔说,另一端是分析大型强子对撞机中粒子碰撞的所有数据。“如果你一天内得不到答案,那就无所谓了。重要的是你能处理所有的事情。“大多数做分析的企业都落在中间,预计预测分析将以人类的速度运行--大约十分之一秒。如果数据堆太大,这是不可能的,他说,而Infobright能够快速地咀嚼大量数据。
“没有人采取同样的方法,”布洛尔说。它的数学方法就是为什么IAQ比抽样更好的原因,而且公司可以向数学家证明这一点,这会让他们点头。“这就是区别所在。这不是噱头。“

