`
文章列表
http://www.oschina.net/question/158170_29368

hadoop学习总结

HDFS简介 http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.html   HDFS读写过程解析 http://www.cnblogs.com/forfuture1978/archive/2010/11/10/1874222.html   Map-Reduce入门 http://www.cnblogs.com/forfuture1978/archive/2010/11/14/1877086.html  

hadoop 官方文档

hadoop: http://wiki.apache.org/hadoop/PerformanceTuning (调优) wiki:http://wiki.apache.org/hadoop/ http://wiki.apache.org/hadoop/Hbase?action=show&redirect=HBase book:http://hbase.apache.org/book.html https://cwiki.apache.org/confluence/display/Hive/Home https://cwiki.apache.org/conf ...
You can suppress the key or the value (or both, making this output format equivalent to NullOutputFormat, which emits nothing) from the output using a NullWritable type. This also causes no separator to be written, which makes the output suitable for reading in using TextInputFormat.
Actually stdout only shows the System.out.println() of the non map reduce classes. The System.out.println() for map and reduce phases can be seen in the logs. Easy way to access the logs is http://localhost:50030/jobtracker.jsp- >click on the completed job->click on map or reduce task-> ...

Stringtokenizer和split

    博客分类:
  • java
建议:   (1)如果要用正则表达式作为分隔符来拆分字符串,则必须使用String.split(String regExp)来处理; 
tips 1. create external table ext_user(id int, mail String, count int) partitioned by (ds string) row format delimited fields terminated by '\t' stored as textfile location '/dsap/rawdata/user';  hdfs location 路径需为文件夹,或不存在(执行后会自动创建文件夹),另 date ...

Hadoop生态图谱

http://blog.nosqlfan.com/html/3675.html 当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。 这一切,都起源自Web数据爆炸时代的来临 数据抓取系统 -  Nutch 海量数据怎么存,当然是用分布式文件系统 -  HDFS 数据怎么用呢,分析,处理

wiki hive doc

    博客分类:
  • bak
https://cwiki.apache.org/confluence/display/Hive/Home
BODY { FONT-FAMILY:Tahoma; FONT-SIZE:10pt } P { FONT-FAMILY:Tahoma; FONT-SIZE:10pt } DIV { FONT-FAMILY:Tahoma; FONT-SIZE:10pt } TD { FONT-FAMILY:Tahoma; FONT-SIZE:10pt }  安装MySQL: # tar -zxvf mysql-5.1.37.tar.gz -C /usr/local #  cd /usr/local/mysql-5.1.37/ # ./configure --prefix=/usr/loc ...

HBase技术介绍

http://www.searchtb.com/2011/01/understanding-hbase.html http://www.open-open.com/lib/view/open1328755780186.html HBase简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文 ...
  Apache Zookeeper入门1 http://www.javabloger.com/article/apache-zookeeper-hadoop.html Apache ZooKeeper入门2 http://www.javabloger.com/article/zookeeper-hapood-apache.html Apache ZooKeeper入门3 http://www.javabloger.com/article/apache-zookeeper-hbase-hadoop-3.html     ZK session客户端过期(Exp ...
1. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 2. HBase的表结构 HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/列簇(column family)。  
在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer管理哪个Region,那么它是如何找到相应的RegionServer的?本文就是在研究源码的基础上揭秘这个过程。 在前面的文章“HBase存储架构”中我们已经讨论了HBase基本的存储架构。在此基础上我们引入两个特殊的概念:-ROOT-和.META.。这是什么?它们是HBase的两张内置表,从 ...

linux 重定向技巧

  linux 环境中支持输入输出重定向,用符号<和>来表示。 0、1和2分别表示标准输入、标准输出和标准错误信息输出, 可以用来指定需要重定向的标准输入或输出,比如 2>a.txt 表示将错误信息输出到文件a.txt中。 同时,还可以在这三个标准输入输出之间实现重定向,比如将错误信息重定向到标准输出,可以用 2>&1来实现。 Linux下还有一个特殊的文件/dev/null,它就像一个无底洞,所有重定向到它的信息都会消失得无影无踪。这一点非常有用,当我们不需要回显程序的所有信息时,就可以将输出重定向到/dev/null。 如果想要正 ...
Global site tag (gtag.js) - Google Analytics