跳转到主要内容

TAKMI

使非结构化数据井然有序

100

1997年,IBM 东京研究院的研究员率先研发出一种能够分析文本的强大新工具的原型。该系统称为 TAKMI — 表示文本分析与只是挖掘 — 是一项具有分水岭意义的发明:研究员有史以来第一次能够高效地获取并利用庞大的文本数据库中的大量未充分利用的知识。

Mining the Talk: Unlocking the Business Value in Unstructured Information -Part 1 (audio) Mining the Talk: Unlocking the Business Value in Unstructured Information -Part 1 (audio)

整理非结构化数据

电子邮件、文字处理文档和网站等非结构化数据中包含大量的信息。在本播客中,Scott Spangler 介绍了如何挖掘数据的隐藏价值。


收听On BizTech播客的第一部分

Mining the Talk: Unlocking the Business Value in Unstructured Information -Part 2 (audio) Mining the Talk: Unlocking the Business Value in Unstructured Information -Part 2 (audio)

非结构化数据的业务价值

收听 Scott Spangler 播客的第二部分,更多了解如何挖掘非结构化数据的业务价值。


收听On BizTech播客的第二部分

A: Common entries B: Entries frequently appearing in data set A A: Common entries B: Entries frequently appearing in data set A

生命科学行业的知识发现

生命科学行业是一个新兴领域,在该领域中,制药领域中的药物发现和开发以及医疗领域中的临床记录管理最近成为具有巨大潜力的领域。 科学文献中的文档作为底层知识发现的潜在来源,在生命科学行业中扮演重要角色。这些文档是生物医学概念的各种关系的丰富信息库, 例如基因、蛋白质、疾病和其它多个关键方面。

阅读文章:文本挖掘系统帮助从生物医学文档中发现知识

Preprocessing Preprocessing

推动文本挖掘的技术

文本挖掘技术使得从大量非结构化文本中发现模式和趋势成为可能。它基于多种技术而开发,例如自然语言处理、信息检索、信息提取和数据挖掘。该领域中早期的论文提到了从生物医学文献中发现知识的可能性。随后,在生物医学概念提取(称为实体提取)、关系提取以及蛋白质相互作用的网络和通路建造方面进行了大量的研究。


语音分析实现了新的洞察

IBM开发了文本挖掘技术,用于分析客户中心日志和网页等包含的客户语音,并用这些分析结果寻找洞察力,以指导企业的活动。TAKMI 的商用版本 —— IBM 内容分析结合了自然语言处理技术、快速检索技术和交互式挖掘视图。

从那时起,如果您知道自己要寻找什么,就可以从文本中搜索。但是,问题在于了解数据库中包含什么,并知道如何利用您无法通过摘要而阅读的海量文本内容。

TAKMI 的开发默默地为即将到来的商业智能转型奠定了基础。1997年以前,分析领域的主要对象仅限于数字和其它“结构化”数据—即数据库、电子表格和其它数据集合中的固定字段内包含的、可以采用标准统计数据挖掘方法分析的有标记的信息。

TAKMI 的技术影响力在于其阅读“非结构化”数据的能力—词语、语法和其它文本元素中的数据和元数据,包括书籍、期刊、文本消息和电子邮件,以及病历和音视频文件。据分析人士估计,在任何一个机构中,80%-90%的数据都是非结构化数据。随着交互式 Web 技术的应用日益兴起,例如博客和社交媒体平台,所产生的内容数量不断增加,这些数据的增长速度达到了每年 40%-60%。

成功的关键是自然语言处理 (NLP) 技术。大部分数据挖掘研究员都根据空格从字符串中提取文字,从而将英文文本数据视为一个词袋。然而,由于日语文本数据并不包含作为词语分隔符的空格,IBM 东京研究院的研究员利用 NLP 提取文字,分析其语法特点,并识别字间的关系。这种深入分析推动数据挖掘取得了更好的效果。这正是最先进的文本挖掘技术是在日本产生的原因。

能够发掘这些数据的意义为各种类型的企业提供了大量的机遇。IBM 阿尔马登研究中心文本挖掘与软件开发高级研究员和《挖掘对话:探究非结构化信息的商业价值》(Mining the Talk: Unlocking the Business Value in Unstructured Information) 一书的共同作者 Scott Spangler 解释说:“结构化信息可以对您已经知道要提出的问题给出答案。但是,非结构化信息可以对您甚至不知道需要关注的问题给出答案。它让您知道您所不知道的事情。”

通过 TAKMI 的能力,数据可以被提取出来,并应用到工作中,用于确定趋势,监控关键的业务问题,包括从产品故障和收效甚微的广告到客户行为和员工敬业度。它为明智地解决问题和机遇上下文做出决策提供了一种方式,将信息管理的效率带到了知识管理领域。

从技术角度讲,TAKMI 框架将文档出来的关注点从搜索和组织文档转变为构建知识。尽管当时现有的战略和产品依赖信息检索和文档聚类技术而识别关键字,并分析其分布情况,但 TAKMI 更深入地挖掘,利用自然语言处理、数据挖掘和可视化识别规则和模式,并提取、在上下文中分析和展示概念。结果就是先进的—而且可行的—商业智能。

在系统最初的应用领域—分析 IBM 日本和美国公司 PC 帮助中心的呼叫中心记录—该系统采用语义分析成功地确定了1998年 6月和 7月间的大部分客户都是询问他们能否在机器上安全地安装 Microsoft® Windows® 98。通过在帮助中心网站上发布消息,IBM 提高了客户服务水平,同时减少了支持热线的工作量。

此外,TAKMI 通过在早期阶段识别产品故障而展示了其强大能力,使企业节约了大量成本,通常达到几百万美元。与个案分析不同,TAKMI 很容易识别呼叫记录中针对特定产品的与故障相关的表达的异常分布。由于故障通常都不可预计,因此,基于手工分配故障代码的传统故障检测方法有局限性。

除了 IBM 之外,TAKMI 技术还帮助医疗专业人员为患者提供更好的医疗服务。2007,年,IBM 研究院和 IBM 全球企业咨询服务部与日本国家癌症中心联手,开发了该系统的扩展产品,由于挖掘大量现有的生物医学信息。MedTAKMI-CDI 收集、解释并分析来自多个来源的临床数据,根据不同的类别提供患者分组的信息,例如诊断、实验室测试结果、年龄和治疗反应。通过分析这些模式,医生可以制订分析规则,帮助他们更好地治疗指定的患者。

2009年,TAKMI 以独立分析平台——IBM® 内容分析的形式正式推出。该系统为客户提供的特定价值是:它能够将以前孤立的结构化和非结构化数据联系起来,分析来自电子邮件、博客文章、聊天记录以及结构化数据中的企业内容,例如销售数字和客户邮政编码。

目前,IBM 在商业智能领域不断推动创新的承诺也在其它分析产品中得到了证明旨在发掘客户生成的内容中的价值—无论这些内容是在何处。2010年发布的预测分析软件进一步增强了文本挖掘能力,将来自社交媒体的文本和其它数据结合进来,用于检测、追踪、甚至预测客户的态度和行为。软件还能够解释俚语、行话以及无处不在的虚拟感情符号,即表情。

在当前的几乎每个行业中,分析都将在推动业务、科学和社会进步方面发挥关键的作用。事实上,IBM 商业价值研究院和MIT 斯隆管理评论在 2010年共同发表的白皮书指出,表现最优秀的企业使用分析产品的数量比表现较差者高五倍。

借助 TAKMI 及其后代这样的突破性技术,以前被隐藏的文本和其它非结构化数据如今被用在适当的地点,帮助我们创造更加美好的世界。

Content navigation