2020-02-20 15:13

随着越来越多的企业开始采用Hadoop大数据处理技术

导读2011年,查尔斯·博伊西(Charles Boicey)看了Twitter,Facebook,Yahoo和其他主要网络实体,对自己说:为什么这些人会玩得开心?加州大学欧

2011年,查尔斯·博伊西(Charles Boicey)看了Twitter,Facebook,Yahoo和其他主要网络实体,对自己说:“为什么这些人会玩得开心?”加州大学欧文分校医学中心的信息学解决方案架构师Boicey 说,他非常看到驱动大Web公司的基础大数据技术可以为医学中心的IT环境提供帮助。

Boicey告诉eWEEK:“我对数据量和他们访问数据的速度感到很感兴趣,我说,'为什么我们不能在医疗保健领域做到这一点?”

他在一份研究报告中写道:“我们得出的结论是,尽管特定领域的医疗数据与推文,Facebook发布或LinkedIn档案在结构上并没有太大不同,并且为这些应用程序提供支持的环境也应该能够对医疗数据进行相同的处理。” 2012年博客文章。

此外,他对eWEEK表示:“实验结果与Twitter消息没有太大不同。” “病理学和放射学报告的基本结构与具有标题,部分和小节的LinkedIn配置文件共享相同的基本结构。病历具有Facebook的特征,因为两者都代表了一段时间内的事件。”

实际上,在医疗保健中,数据具有许多与大型Web属性相同的质量。Boicey说,这两者似乎都有大量的数据要提取,并且涉及结构化,非结构化,视频和音频的所有类型和格式。“我们还注意到接近零的延迟非常重要,在延迟中不仅要提取数据而且还要将数据呈现给用户。情报也很明显,因为采用了算法来提出建议,例如您可能认识的人。”

那是在医疗中心采用Hadoop的策略的开始。Apache Hadoop是一个开源软件框架,支持数据密集型分布式应用程序。它支持在大型商用硬件群集上运行应用程序。源自Google的MapReduce和Google文件系统(GFS)论文的Hadoop成为目标技术,因为它具有极具吸引力的规模成本比并且是开源的。

UCI医疗中心的第一个大数据项目是建立一个环境,该环境能够通过JSON管道接收护理连续性文档(CCD),将它们存储在MongoDB中,然后通过具有搜索功能的Web用户界面进行呈现。从那里开始,名为Saritor的新系统上线。

Boicey说Saritor成为必需品,因为电子病历(EMR)无法处理诸如异常检测,机器学习,复杂算法或模式集识别之类的复杂操作,而企业数据仓库(EDW)支持质量控制,操作,临床医生和研究人员。

“与许多拥有数据仓库的组织一样,我们在晚上运行ETL(提取,转换,加载)流程,以最大程度地减少生产系统上的负载,” Boicey在他的帖子中说。“我们与数据仓库具有一些实时接口,但并非所有数据都是实时摄取的。反过来,我们的数据在许多情况下会受到长达24小时的延迟因素的影响,从而使该环境不是最佳选择。”