- 2011/1/2 13:33:32Hadoop的map/reduce作业输入非UTF-8编码数据的处理原理...
- 从刚毕业开始接触hadoop写map/reduce作业开始,就遇到了输入数据是gbk编码的问题,找了身边的牛人搞到了一句代码解决。 string line=new string(value.getbytes(),0,value.getlength(),”gbk”); //这里的value是text类型。 然后一直在用,却也没有想过其中的原由。最近埋下头来学习hadoop的基础知识,又联想到了这里[阅读全文]
- 专题:作者:武文智
- 2011/1/1 23:44:27SSH无密码登录
- 一直都有用到这个,但是每次用都要去查一下,干脆现在记下来。除了通过交互式的方式输入用户名和密码以为,ssh中还可以通过一种“公私钥”的方式进行登录,具体的原理为:首先在客户端上创建一对公私钥 (公钥文件:~/.ssh/id_rsa.pub; 私钥文件:~/.ssh/id_rsa) 然后把公钥放到服务器上(~/.ssh/authorized_keys), 自己保留好私钥 当ssh登录时,ssh程序会[阅读全文]
- 专题:作者:bbiao
- 2011/1/1 23:38:35Linux高速缓存使用率调查
- linux的高速缓存pagecache对性能的影响至关重要,但是实际系统中我们的利用率如何呢,特别是具体到每个设备的利用情况。从下图我们可以很清楚的看到: 我们知道io请求由vfs发起,经过pagecache缓存,挡不住的就落实到io设备去,那么统计这个利用率就很简单。 我们只要知道挡不住的io的比例就好了。我写了个systemtap脚本来解决这个问题: $ uname -r2.6.18-164.[阅读全文]
- 专题:缓存作者:Yu Feng
- 2011/1/1 13:46:23curl快速实现网速测试
- 为了实现cdn同步需求常常才对节点之间的下载速度做写测试,这项工作其实很简单。能使用工具也很多,不过目前公司节点已经突破百位数啦,尤其是很多合作厂商的加入,是的网速测试变的越来越重要。网站cdn资源同步效率的也变的要求也越来越高。所以很多时候需要快速反映和马上能出结果的测试,变的更加符合现在的需求。一般linux服务器上都会安装curl,这个工具非常好用,网上对这个介绍也很多,这里就不在重复了。我[阅读全文]
- 专题:安装和配置作者:Michael Field
- 2011/1/1 13:38:18网络数据的背后――网络日志的分析指标
- 常用的定量分析是问卷调查,这可以收集到用户对产品的主观反馈,它的结果受问卷题目的影响,不能完全客观地反映用户如何使用产品,他们在实际环境中遇到了哪些问题。而针对网站的定量分析,网络服务器的日志文件能真实反映用户的当前体验,解释行为的深层特点,能够更有效地改进产品。 网络日志可以帮我们回答很多问题,比如用户在什么时间段浏览网站;对网站的什么板块比较感兴趣;是怎样了解到网站;多少用户会转成重复用[阅读全文]
- 专题:作者:CDCer
- 2011/1/1 13:36:56流量统计方法分类
- 一、什么是web server log 和 page taggingweb server log:使用软件将原始数据解析为有用的数据。主要的工具有awstats、webtrends(收费)。以下为具体的服务器日志:222.79.245.84 - - [10/apr/2010:01:29:59 -0700] "get www.domain.com/index.php http/1.1" 200 99[阅读全文]
- 专题:作者:标点符
- 2010/12/30 13:56:44redis运维的一些知识点
- 最近在线上实际使用了一些redis服务,总结下运维的相关知识.1:redis的生产机主要为2颗cpu,8个核心,内存32g,单盘700g的sata盘.2:存储的数据为博客系统的积分数据.积分代表是用户的发文章积分,发评论积分,登录积分,特点即每天单个用户相关数据至多增加一次,是一个典型的读多写少系统.虽然在这个项目中将redis作为内存系统使用,本质上是落地存储.3:redis版本为2.2.5,使[阅读全文]
- 专题:缓存作者:ywdblog
- 2010/12/30 13:52:59Super Smack
- super smack 是一个强大的压力测试工具,支持 mysql, postgresql, oracle。最开始的版本是由sasha pachev写成,由jeremy zawodny在维护,而现在,是 tony bourke在维护,根据 tony bourke 的 开发 log 来看,2005-08-30 后,super smack 就已经停止发布新的版本,但这并不妨碍我们现在继续使用它(这个工[阅读全文]
- 专题:作者:gettyying