★学习要求:大数据的类型,了解每个类型的相关含义、特点
★考察方向:
1.大数据的类型有哪些?
2.通过场景判断是那种类型?
3.各类型的特点
★可能难以理解的点
●对于非专业考生来说,可能这些名词都比较陌生,所以有可能都比较难理解
●“先有结构,再有数据”
●“先有数据,再有结构”
●“自描述的结构”
☛考点讲解:
必须记住——从数据结构化的程度来看,大数据的类型可以分为:结构化数据、半结构化数据和非结构化数据。
什么是“数据的结构化”?
简单说,“结构化”就是数据的“组织形式”——就像咱们教室里的座位,每个位置都有固定的行和列,谁坐第几排第几号一目了然。数据的结构化程度,本质就是“数据有没有固定的、整齐的‘座位表’”。根据这个“座位表”的清晰程度,大数据分为三类:结构化数据、半结构化数据、非结构化数据。
结构化的数据一般是指可以使用关系型数据库表示和存储,可以用二维表来逻辑表达实现的数据。它就像咱们的“学生成绩表”:表头固定是“姓名、学号、语文、数学、英语”,每一行对应一个学生,每一列对应一个科目,数据必须填在对应的格子里,不能乱套。
怎么理解“先有结构,再有数据”
可以这样理解:比如学校要统计成绩,肯定是先设计好“姓名、学号、科目”这个表格结构(也就是先定好“座位表”),然后才把每个学生的成绩填进去。再比如银行的账户信息,一定是先有“卡号、户主、余额、开户日期”这些固定字段,再记录每个人的具体信息——结构是“框架”,数据是“填充的内容”,框架先于内容存在。
半结构化数据是个“中间派”——它不像结构化数据那样有严格的二维表格框架,但会用一些“标记”来区分数据的含义。比如咱们写作文,没有固定的“表头”,但会用“标题、段落、标点”来分隔内容,这些“标记”就帮数据形成了隐性的结构。
怎么理解“先有数据,再有结构”和“自描述的结构”
- 先有数据,再有结构:比如你发朋友圈,先写“今天去看了电影,超好看!”(这是数据),然后微信系统会自动用标记区分“发布人、内容、时间、点赞数”(这是结构)——数据先产生,结构是后续通过标记“提炼”出来的,和结构化数据正好相反。
- 自描述:数据自己会“说明”自己的含义。比如HTML文档里的“<标题>大数据分类”,这个“<标题>”标记就告诉电脑“后面的内容是标题”,不用依赖外部表格,数据自带“说明书”。
非结构化数据最大的特点就是“没有任何固定的结构”——你没法用表格拆分它,也没有明显的标记来区分语义,只能作为一个“整体”来处理。比如一张照片,你不能像拆成绩表那样把“人脸、背景、颜色”拆成固定字段;一段语音,也没法直接拆成“语气、内容、停顿”的表格形式。
因为没有固定结构,非结构化数据一般以“二进制格式的数据格式”存储——比如图片存成JPG/PNG,视频存成MP4,音频存成MP3,都是电脑能识别的二进制代码,直接整体保存,不用拆分字段。
信管网订阅号
信管网视频号
信管网抖音号
温馨提示:因考试政策、内容不断变化与调整,信管网网站提供的以上信息仅供参考,如有异议,请以权威部门公布的内容为准!
信管网致力于为广大信管从业人员、爱好者、大学生提供专业、高质量的课程和服务,解决其考试证书、技能提升和就业的需求。
信管网软考课程由信管网依托10年专业软考教研倾力打造,教材和资料参编作者和资深讲师坐镇,通过深研历年考试出题规律与考试大纲,深挖核心知识与高频考点,为学员考试保驾护航。面授、直播&录播,多种班型灵活学习,满足不同学员考证需求,降低课程学习难度,使学习效果事半功倍。
| 发表评论 查看完整评论 | |