Structed vs Unstructed Data

Structed vs Unstructed Data

Structured Data

结构化数据是高度组织和整齐格式化的数据。它是可以放入表格和电子表格中的数据类型。结构化数据也被称为定量数据(Quantitative Data),在项目中,保存和管理这些的数据一般为关系数据库,当使用结构化查询语言(SQL)时,计算机程序很容易检索&操作数据。
结构化数据可以通过多种方式从多种来源生成。它可以来自企业软件,如客户关系管理(CRM)系统,会计程序和其他应用程序中使用的关键业务运营。它可以从在线来源生成,包括社交媒体平台和网络调查。它也可以来自人工输入。
此外,可以使用依赖于人工智能(AI)和自然语言处理(NLP)的商业智能(BI)工具从非结构化数据中提取结构化数据。

Unstructured Data

非结构化数据是没有固有结构或组织的信息。非结构化数据通常被称为“对象”,常见的非结构化数据包括各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等。这类数据占全球生成的所有数据的 80%到 90%。

Semi-Structured Data

在某种程度上,大多数数据是非结构化和结构化数据的混合。半结构化数据是结构化数据的一个松散定义的子集。可以将其视为添加了标签、关键字和元数据以使其更有用的非结构化数据

Semi-structured data occupies the middle ground between structured and unstructured data as data that has some degree of organization but is not fully organized into a fixed record format found in a traditional system or database

For example, you could add some structure to a natively unstructured XML document using metadata to explain who created the document and when, and keywords to describe the content and make it possible to be found in searches. In the case of HTML documents, which would otherwise be unstructured, H1 tags are used to identify their titles while H2 identify subsections, making it more easily searchable.

Ref

Datamation

Author

Efterklang

Posted on

2024-02-27

Updated on

2024-09-18

Licensed under

Comments