由于最近的一些业务在linux系统上高并发的情况下发生了很多问题,最终都是使用strace跟踪找到了问题所在,便整理了一份strace的使用方法和详解,也拿出来给大家分享一下

功能说明:

strace 命令是一种强大的工具, 能够显示任何由用户空间程式发出的系统调用. strace 显示这些调用的参数并返回符号形式的值. strace 从内核接收信息, 而且无需以任何特别的方式来构建内核. strace 的每一行输出包括系统调用名称, 然后是参数和返回值.
下面记录几个常用option:
-f -F选项告诉strace同时跟踪fork和vfork出来的进程
-o xxx.txt 输出到某个文档.
-e execve 只记录 execve 这类系统调用.

实例说明:

配置php将其开户一个进程,方便每次都能跟踪到数据,如开户多个将刷新多次才可能分配到你监听的进程上
用以下php来做一个示例保存为test2.php(因facebook在国空被gfw,所以请求肯定会超时,特拿来做试验)
<?php
$a = exec(“curl -I www.facebook.com”,$out,$status);
print_r($a);
print_r($out);
print_r($status);
?>

使用curl请求地址或是通过ie请求
Curl –I http://100.100.100.6/test2.php
在服务端监听其端口(可使用ps –auxf|grep php-fpm)来确定其进程号
Strace –p 32448(也可使用strace –T –p 32448看每个执行的时间)

如果执行请求后,可看在上图看到php当执行到
$a = exec(“curl -I www.facebook.com”,$out,$status);
时开始等待返回,25秒左右后才返回结果
另一种测试方法,也可以直接用php去执行跟踪
Strace /usr/bin/php test2.php

以上图可看到,程序也是在执行
exec(“curl -I www.facebook.com”,$out,$status);的时候开始等待返回,耗费21秒时间

Strace还可以跟踪服务启动过程,帮我们解决一些服务在启动过程中遇到的问题,以下以nginx配置错误为例
以下是不存在/log根目录的、我们来跟踪启动看是什么效果

Strace /usr/local/nginx/sbin/nginx
以下是其返回结果,也可以看到提示目录有误

Strace在跟踪时返回0则程序执行正常,如返回其它数字则会继续查找,直到所有默认文件或是设置都不存在时才会报错

详细参数说明 :

-c 统计每一系统调用的所执行的时间,次数和出错的次数等.
-d 输出strace关于标准错误的调试信息.
-f 跟踪由fork调用所产生的子进程.
-ff 如果提供-o filename,则所有进程的跟踪结果输出到相应的filename.pid中,pid是各进程的进程号.
-F 尝试跟踪vfork调用.在-f时,vfork不被跟踪.
-h 输出简要的帮助信息.
-i 输出系统调用的入口指针.
-q 禁止输出关于脱离的消息.
-r 打印出相对时间关于每一个系统调用.
-t 在输出中的每一行前加上时间信息.
-tt 在输出中的每一行前加上时间信息,微秒级.
-ttt 微秒级输出,以秒了表示时间.
-T 显示每一调用所耗的时间.
-v 输出所有的系统调用.一些调用关于环境变量,状态,输入输出等调用由于使用频繁,默认不输出.
-V 输出strace的版本信息.
-x 以十六进制形式输出非标准字符串.
-xx 所有字符串以十六进制形式输出.
-a column 设置返回值的输出位置.默认 为40.
-e expr 指定一个表达式,用来控制如何跟踪.格式如下:
[qualifier=][!]value1[,value2]…
qualifier只能是 trace,abbrev,verbose,raw,signal,read,write其中之一.value是用来限定的符号或数字.默认的 qualifier是 trace.感叹号是否定符号.例如-eopen等价于 -e trace=open,表示只跟踪open调用.而-etrace!=open表示跟踪除了open以外的其它调用.有两个特殊的符号 all 和 none. 注意有些shell使用!来执行历史记录里的命令,所以要使用\.
-e trace=set 只跟踪指定的系统调用.例如:-e trace=open,close,rean,write表示只跟踪这四个系统调用.默认的为set=all.
-e trace=file 只跟踪有关文件操作的系统调用.
-e trace=process 只跟踪有关进程控制的系统调用.
-e trace=network 跟踪与网络有关的所有系统调用.
-e strace=signal 跟踪所有与系统信号有关的系统调用.
-e trace=ipc 跟踪所有与进程通讯有关的系统调用.
-e abbrev=set 设定strace输出的系统调用的结果集.-v 等与 abbrev=none.默认为abbrev=all.
-e raw=set 将指定的系统调用的参数以十六进制显示.
-e signal=set 指定跟踪的系统信号.默认为all.如 signal=!SIGIO(或者signal=!io),表示不跟踪SIGIO信号.
-e read=set 输出从指定文件中读出的数据.例如-e read=3,5
-e write=set 输出写入到指定文件中的数据.
-o filename 将strace的输出写入文件filename
-p pid 跟踪指定的进程pid.
-s strsize 指定输出的字符串的最大长度.默认为32.文件名一直全部输出.
-u username 以username 的UID和GID执行被跟踪的命令.

苦咖啡原创
转载请注明出处:http://www.kukafei520.net

十一月 30th, 2011

Posted In: 未分类

早上上班第一件事就是看邮件,发现game、shop、pay全部报500错误,这个不是一件小事,增值业务是公司赢利的命脉,第一件事打电话给相关同事,随后登上服务器查看服务器当前情况,负载,CPU等使用都很低,为何还报服务器内部错误,重启服务,发现正常,两分钟后又报500,top下找到一个CPU使用最高的php进程记录下进程号

使用strace -p "进程号"就开始进程跟踪了,一会就显示完跟踪结果,结果如下:

poll([{fd=8, events=POLLIN|POLLPRI}], 1, 0) = 0 (Timeout)
setsockopt(8, SOL_SOCKET, SO_SNDTIMEO, "20033411", 16) = 0
write(8, "373select get_Lock(114180,1) n"…, 35) = 35
setsockopt(8, SOL_SOCKET, SO_RCVTIMEO, "20033411", 16) = 0
read(8, "1113223def4namef?110200"…, 16384) = 59
setsockopt(8, SOL_SOCKET, SO_RCVTIMEO, "20033411", 16) = 0
setsockopt(8, SOL_SOCKET, SO_RCVTIMEO, "20033411", 16) = 0
setsockopt(8, SOL_SOCKET, SO_RCVTIMEO, "20033411", 16) = 0
setsockopt(8, SOL_SOCKET, SO_RCVTIMEO, "20033411", 16) = 0
poll([{fd=8, events=POLLIN|POLLPRI}], 1, 0) = 0 (Timeout)
setsockopt(8, SOL_SOCKET, SO_SNDTIMEO, "20033411", 16) = 0
write(8, "33713update fs_user_account a, f"…, 483) = 483
setsockopt(8, SOL_SOCKET, SO_RCVTIMEO, "20033411", 16) = 0
read(8, "012(Rows matched: 0 Cha"…, 16384) = 52
poll([{fd=8, events=POLLIN|POLLPRI}], 1, 0) = 0 (Timeout)
setsockopt(8, SOL_SOCKET, SO_SNDTIMEO, "20033411", 16) = 0
write(8, "343select RELEASE_LOCK(114180)", 32) = 32
setsockopt(8, SOL_SOCKET, SO_RCVTIMEO, "20033411", 16) = 0
read(8, "111*23def24RELEASE_LOCK(11"…, 16384) = 75
setsockopt(8, SOL_SOCKET, SO_RCVTIMEO, "20033411", 16) = 0
setsockopt(8, SOL_SOCKET, SO_RCVTIMEO, "20033411", 16) = 0
setsockopt(8, SOL_SOCKET, SO_RCVTIMEO, "20033411", 16) = 0
setsockopt(8, SOL_SOCKET, SO_RCVTIMEO, "20033411", 16) = 0
lstat("/mnt", {st_mode=S_IFDIR|0755, st_size=4096, …}) = 0
lstat("/mnt/NAS", {st_mode=S_IFDIR|0755, st_size=4096, …}) = 0
lstat("/mnt/NAS/pay.funshion.com", {st_mode=S_IFDIR|0755, st_size=4096, …}) = 0
lstat("/mnt/NAS/pay.funshion.com/log", {st_mode=S_IFDIR|0755, st_size=20480, …}) = 0
lstat("/mnt/NAS/pay.funshion.com/log/pay_20111117.log", {st_mode=S_IFREG|0644, st_size=1762494, …}) = 0
open("/mnt/NAS/pay.funshion.com/log/pay_20111117.log", O_WRONLY|O_CREAT|O_APPEND, 0666) = 9
fstat(9, {st_mode=S_IFREG|0644, st_size=1762494, …}) = 0
lseek(9, 0, SEEK_CUR) = 0
lseek(9, 0, SEEK_CUR) = 0
flock(9, LOCK_EX <unfinished …>
Process 1212 detached

很明显程序在写入pay_20111117.log向nas写文件时进程阻塞了,问题就明显了,nas上多组业务都在大量读写,因此nas后来改为只做文件挂载,而日志等其它东西全部本地化,马上修改其配置文件,业务全部恢复正常,大家在遇到一些自己找不到问题原因的时候,可以多试一下strace跟踪命令,比如你一个服务无法启动,可使用strace service mysqld start,一样可以显示跟踪结果,很容易就问题定位了,至此已完美解决问题

十一月 17th, 2011

Posted In: 未分类

以下全为虚拟环境测试,建意使用ruby1.86,puppet为2.7.3版本,特别强调ruby不要使用1.87版本,在跨机房传输中会存在问题

本文全部为tar包编译,适合于centos及redhat系统,特别强调安装完puppet客户端后修改手动编译位置,文中做了说明

实验环境:Vmware +centos 5.4/64 redhat 4.5/64

软件环境: ruby 1.86 mysql为yum包 puppet 2.7.3 facter-1.6.0

服务端:192.168.8.207 puppet

客户端:192.168.8.208 redhat4

客户端服务端配置:

本地解析配置

vi /etc/hosts

192.168.8.207 puppet

192.168.8.208 redhat4

puppet 需要时间同步

yum install -y ntp

ntpdate ntp.api.bz

下载所需tar包 (更多…)

十一月 9th, 2011

Posted In: 未分类

icinga是nagios升级版,其开发人员全部为nagios原小组成员,其绝对免费,在nagios基础上进行二次开发,优化一些文件,其nagios原配置文件直接无缝对接,其安装配置方法如下

中文项目地址

http://icinga-cn.sourceforge.net/

安装基础依赖

yum install libdbi-devel libdbi libdbi-drivers libdbi-dbd-mysql

新增用户组及用户

groupadd www
useradd -g www www

wget http://jaist.dl.sourceforge.net/project/icinga-cn/icinga-cn/icinga-cn-1.5.1/icinga-cn-1.5.1.tar.bz2
tar jxvf icinga-cn-1.5.1.tar.bz2
cd icinga-cn-1.5.1
./configure –prefix=/usr/local/icinga –enable-idoutils –enable-embedded-perl –enable-ssl –with-icinga-user=www –with-icinga-group=www –with-command-user=www –with-command-group=www –with-web-user=www –with-web-group=www –with-httpd-conf=/etc/httpd/conf/conf.d
make all
make install
make install-init
make install-commandmode
make install-idoutils
make install-api
make install-config
make install-webconf

安装nagios插件

tar zxvf nagios-plugins-1.4.15.tar.gz
cd nagios-plugins-1.4.15/
./configure –prefix=/usr/local/icinga –with-cgiurl=/icinga/cgi-bin –with-htmurl=/www –with-nagios-user=www –with-nagios-group=www
make && make install

安装nrpe

tar zxvf icinga-nrpe-HEAD.tar.gz
cd icinga-nrpe
./configure –with-nrpe-user=www –with-nrpe-group=www –with-icinga-user=www –with-icinga-group=www
make
make install

拷贝nrpe文件:

cp src/nrpe /usr/local/icinga/bin
cp sample-config/nrpe.cfg /usr/local/icinga/etc

启动nrpe病检查:

/usr/local/icinga/bin/nrpe -n -c /usr/local/icinga/etc/nrpe.cfg -d
/usr/local/icinga/libexec/check_nrpe -H 127.0.0.1 -n

默认其icinga用户名
user:icingaadmin
pass:admin
如修改密码则使用
htpasswd -c /usr/local/icinga/etc/htpasswd.users icingaadmin

如修改用户名,则须修改cgi.cfg文件,将里面的icingaadm修改为你修改的用户,否则无权限查看主机服务

在其它客户机安装nrpe及nagios插件即可,nrpe配置文件允许监控主机进行数据采集

在客户机安装完成插件及nrpe后,可从服务端向客户端进行连接测试

usr/local/icinga/libexec/check_nrpe -H 192.168.1.128 -c check_load
OK – load average: 0.16, 0.14, 0.06|load1=0.160;1.500;3.000;0; load5=0.140;1.100;2.200;0; load15=0.060;0.900;1.900;0;

如测试硬盘空间check_disk或swap交换分区check_swap等,最后界面如下

icinga.jpg

十一月 7th, 2011

Posted In: 网络技术

无觅相关文章插件,快速提升流量