博客
关于我
大数据概念
阅读量:520 次
发布时间:2019-03-07

本文共 966 字,大约阅读时间需要 3 分钟。

大数据计算技术

大数据概念

大数据概念是一个涵盖多个维度的复杂主题,涉及数据的产生、处理、分析和应用等多个方面。本文将从数据的定义、基本属性、技术特征等多个层面进行深入探讨。

数据的定义与特征

数据的基本定义

在计算机学科中,数据可以被定义为一个可以被理解、处理和存储的实体。数据的形式多样化,来源多样化,范围也呈现多样化特征。数据的转换过程是一个从数据到信息、知识再到价值的过程,这一过程决定了数据的价值。

数据的基本属性

  • Volume(规模体现)大数据的核心特征之一是数据量的庞大,通常达到petabytes(PB)级别。这种规模带来的影响体现在数据的存储架构和计算模型上:
    • 数据存储架构:传统上依赖于基于行键表格存储格式的关系型数据库,但大数据环境下更倾向于基于分布式文件系统的分布式数据库。
    • 数据计算模型:主要采用离线批处理框架(如MapReduce)和图并行计算框架(如Pregel、Hama),以及大内存计算系统。
    1. Variety(多样性)大数据的另一个关键特征是数据来源的多样性和异构化特性。数据类型划分可以从以下几个维度进行:
      • 结构特征
      • 时效性
      • 关联特性
      • 数据类型
      • 数据来源

      数据的多样性带来了数据存储、管理和快速查询的难度。

      1. Velocity(时效性)大数据处理往往需要高度的时效性,这意味着数据分析和处理需要在短时间内完成。

      2. Value(价值密度)传统统计学方法依赖于局部数据或数据子集,而大数据分析则是基于完整数据集进行分析。价值低密度特性使得大数据分析需要依赖机器学习方法,通过数据的积累来训练和改进算法和计算程序。

      3. 大数据技术特征

        大数据算法特性

        • 数据计算
        • 传统统计学与大数据计算的对比
        • 样本空间:整个数据集
        • 计算方法:机器学习方法
        • 优势:避免样本失真,预测结果的精度改进是一个动态过程。

        大数据计算系统特性

        • 基础模型:分布式文件系统、NoSQL非关系型数据库
        • 存储格式:基于键值对的列存储格式与基于主键的行存储格式
        • 优势:支持非结构化或异构数据的存储和处理,支持分布式系统部署,支持超大规模数据集完成快速查询操作。

        技术特性总结

        大数据技术在算法、计算系统和开发技术方面展现出独特的特征。这些特征不仅体现在技术实现上,更反映在解决实际问题的能力上。理解和掌握这些特征,是在大数据领域发展中不可或缺的基础。

    转载地址:http://meznz.baihongyu.com/

    你可能感兴趣的文章
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_实现数据插入数据到目标数据库_实际操作03---大数据之Nifi工作笔记0042
    查看>>
    NIFI从MySql中离线读取数据再导入到MySql中_03_来吧用NIFI实现_数据分页获取功能---大数据之Nifi工作笔记0038
    查看>>
    NIFI从PostGresql中离线读取数据再导入到MySql中_带有数据分页获取功能_不带分页不能用_NIFI资料太少了---大数据之Nifi工作笔记0039
    查看>>
    NIFI同步MySql数据_到SqlServer_错误_驱动程序无法通过使用安全套接字层(SSL)加密与SQL Server_Navicat连接SqlServer---大数据之Nifi工作笔记0047
    查看>>
    Nifi同步过程中报错create_time字段找不到_实际目标表和源表中没有这个字段---大数据之Nifi工作笔记0066
    查看>>
    NIFI大数据进阶_FlowFile拓扑_对FlowFile内容和属性的修改删除添加_介绍和描述_以及实际操作---大数据之Nifi工作笔记0023
    查看>>
    NIFI大数据进阶_NIFI的模板和组的使用-介绍和实际操作_创建组_嵌套组_模板创建下载_导入---大数据之Nifi工作笔记0022
    查看>>
    NIFI大数据进阶_NIFI监控的强大功能介绍_处理器面板_进程组面板_summary监控_data_provenance事件源---大数据之Nifi工作笔记0025
    查看>>
    NIFI大数据进阶_内嵌ZK模式集群1_搭建过程说明---大数据之Nifi工作笔记0015
    查看>>
    NIFI大数据进阶_外部ZK模式集群1_实际操作搭建NIFI外部ZK模式集群---大数据之Nifi工作笔记0017
    查看>>
    NIFI大数据进阶_离线同步MySql数据到HDFS_01_实际操作---大数据之Nifi工作笔记0029
    查看>>
    NIFI大数据进阶_离线同步MySql数据到HDFS_02_实际操作_splitjson处理器_puthdfs处理器_querydatabasetable处理器---大数据之Nifi工作笔记0030
    查看>>
    NIFI大数据进阶_连接与关系_设置数据流负载均衡_设置背压_设置展现弯曲_介绍以及实际操作---大数据之Nifi工作笔记0027
    查看>>
    NIFI数据库同步_多表_特定表同时同步_实际操作_MySqlToMysql_可推广到其他数据库_Postgresql_Hbase_SqlServer等----大数据之Nifi工作笔记0053
    查看>>
    NIFI汉化_替换logo_二次开发_Idea编译NIFI最新源码_详细过程记录_全解析_Maven编译NIFI避坑指南001---大数据之Nifi工作笔记0068
    查看>>
    NIFI集群_内存溢出_CPU占用100%修复_GC overhead limit exceeded_NIFI: out of memory error ---大数据之Nifi工作笔记0017
    查看>>
    NIFI集群_队列Queue中数据无法清空_清除队列数据报错_无法删除queue_解决_集群中机器交替重启删除---大数据之Nifi工作笔记0061
    查看>>
    NIH发布包含10600张CT图像数据库 为AI算法测试铺路
    查看>>
    Nim教程【十二】
    查看>>
    Nim游戏
    查看>>