• 一、理论知识(一)加载数据到HBase的三种方法: 通过MR job,使用TableOutputFormat加载到表中。(效率较低)核心的原理还是使用htable的put方法,不过由于使用了mapreduce分布式提交到hbase,速度比单线程效...
  • 原因是spark-sql执行sql有三中模式:ANSI, LEGACY, STRICT。 ANSI模式是标准sql,不允许不合理的类型转换,与PostgreSQL相同。 LEGACY模式允许类型强制转换,只要它是有效的'Cast' 这也是Spar...
  • 原因是linux root执行spark-sql,但是root用户对hdfs文件没有相应权限。解决方法是:在ranger权限管理对HDFS添加root用户
  • 全局参数:1. --master yarn-cluster (or yarn-client) 参数说明:制定yarn的执行模式,分集群模式和客户端模式,一般使用集群模式 2. --num-executors 50 参数说明:  该参数...
  • 执行数据量较大的spark任务时经常会出现MetadataFetchFailedException: org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output...
  • mapreduce运行中发现有任务被kill掉,多半是因为内存分配不足造成,所有需要修改内存配置。 首先在yarn-site.xml中添加下面内容: <property> <name>yarn.nodemanager.re...
  • 架构对比 HBase和Cassandra几乎是一个年份发起,又都是在2010年成为Apache的顶级项目,不过如果我们去细品其内部机制,我们会发现其实两者是完全不同的架构风格。 HBASE起源于Google BigTable,几乎遵从了BigTa...
  • 1
  • 2