goaccess 日志分析 nginx

2023-09-14 14:11:23

分析命令:

goaccess -a -d -f /mnt/winshare/access-2023070112.log -p goaccess.conf  -o /mydata/nginx/html/2023070112_new.html

分析日志时的参数

goaccess使用参数详解

-a	 开启 UserAgent 列表。开启后会降低解析速度
-c	 在程序开始运行时显示 日志/日期 配置窗口
-d	 输出 HTML 或者 JSON 报告时开启 IP 解析
-f	 指定输入日志文件的路径
-p	 指定使用自定义配置文件

面板统计含义:

官网描述:goaccess.io/man#description

界面测试统计地址(我本机)

Server Statistics

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

nginx 日志参数详解

参数  说明  示例
$remote_addr   客户端地址   172.17.0.1
$remote_user   客户端用户名称 --
$time_local    访问时间和时区 [29/Dec/2022:10:17:14 +0000]
$request   请求的URI和HTTP协议   "GET /test/nginx/proxy HTTP/1.1"
$http_host 请求地址,即浏览器中你输入的地址(IP或域名) 10.1.7.33
$status    HTTP请求状态    200
$upstream_status   upstream状态  200
$body_bytes_sent   发送给客户端文件内容大小    38
$http_referer  url跳转来源 - 
$http_user_agent   用户终端浏览器等信息  "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"
$http_cookie	用户cookie信息  "grafana_session=73d13d456cb4363f8a48f5501348669e" 
$ssl_protocol  SSL协议版本 TLSv1
$ssl_cipher    交换数据中的算法    RC4-SHA
$upstream_addr 后台upstream的地址,即真正提供服务的主机地址  "10.1.7.33:8102"
$request_time  整个请求的总时间    0.012
$upstream_response_time    请求过程中,upstream响应时间  0.012
重点说一下 request_time

$request_time是Nginx日志中的一个变量,表示请求处理时间,单位是秒,精度是毫秒。它反映了从Nginx开始接收客户端请求的第一个字节,到发送完响应数据给客户端的时间。这个时间包括了接收请求数据的时间、后端程序响应的时间、发送响应数据给客户端的时间,但不包括写日志的时间。

如果你想使用$request_time变量,你需要在Nginx的配置文件中设置log_format指令,定义你想要记录的日志格式。例如,你可以这样设置:

log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" '
'"$request_time"';

这样,你就可以在每条日志中看到$request_time的值。例如:

192.168.1.100 - - [23/Sep/2023:10:15:32 +0800] "GET /index.html HTTP/1.1" 200 612 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36" "-" "0.012"

这里,最后一个字段"0.012"就是$request_time的值,表示这个请求处理了12毫秒。

r e q u e s t t i m e 变量可以帮助你分析 N g i n x 的性能和吞吐量,以及后端程序的响应情况。你可以根据 request_time变量可以帮助你分析Nginx的性能和吞吐量,以及后端程序的响应情况。你可以根据 requesttime变量可以帮助你分析Nginx的性能和吞吐量,以及后端程序的响应情况。你可以根据request_time的值来判断哪些请求比较慢,是否有超时或错误发生,是否需要优化程序或调整配置等。

Nginx: PV、UV、独立IP

做网站的都知道,平常经常要查询下网站PV、UV等网站的访问数据,当然如果网站做了CDN的话,nginx本地的日志就没什么意义了,下面就对nginx网站的日志访问数据做下统计;

**UV(Unique Visitor):**独立访客,将每个独立上网电脑(以cookie为依据)视为一位访客,一天之内(00:00-24:00),访问您网站的访客数量。一天之内相同cookie的访问只被计算1次
**PV(Page View):**访问量,即页面浏览量或者点击量,用户每次对网站的访问均被记录1次。用户对同一页面的多次访问,访问量值累计
统计独立IP:00:00-24:00内相同IP地址只被计算一次,做网站优化的朋友最关心这个

goaccess中统计的指标参数解释

TX AMOUNT 是性能测试中的一个指标,表示每秒事务数(Transaction Per Second),也就是单位时间内系统能处理的事务数量。事务是指用户和系统之间的一次交互,比如登录、查询、支付等。TX AMOUNT 反映了系统的处理能力和吞吐量,与响应时间、并发数等指标有关。

HITS 是性能测试中的一个指标,表示Hits Per Second,也就是每秒请求数。HITS反映了系统的吞吐量,也就是单位时间内系统能处理的请求数量。HITS与TPS(每秒事务数)有一定的关系,但不完全相同。一个事务可能包含多个请求,比如一个网页可能包含多个图片、CSS、JS等文件的请求。因此,HITS一般会大于TPS。

AVG.T.S:Average Time Served,表示每个请求的平均服务时间,单位是秒。它反映了从Nginx开始接收客户端请求的第一个字节,到发送完响应数据给客户端的平均时间。这个时间包括了接收请求数据的时间、后端程序响应的时间、发送响应数据给客户端的时间,但不包括写日志的时间。

CUM.T.S:Cumulative Time Served,表示每个请求的累计服务时间,单位是秒。它反映了从Nginx开始接收客户端请求的第一个字节,到发送完响应数据给客户端的总时间。它是所有请求的AVG.T.S之和。

MAX.T.S:Maximum Time Served,表示每个请求的最大服务时间,单位是秒。它反映了从Nginx开始接收客户端请求的第一个字节,到发送完响应数据给客户端的最长时间。它是所有请求中最慢的一个。

要显示这三列,你需要在你的日志格式中包含服务时间字段,你可以使用%T%D指定符来解析这个字段。 例如,如果你使用Apache的combined日志格式,你可以在字符串的末尾添加%D来启用这三列。

标准配置

如何让goaccess统计出请求的服务时间

配置nginx日志格式如下:

 log_format main '$remote_addr - $remote_user [$time_local] "$request" '
                    '$status $body_bytes_sent "$http_referer" '
                    '"$http_user_agent" "$http_x_forwarded_for" '
                    '$upstream_addr $request_time $upstream_response_time ';

配置goaccess log-format的格式如下

time-format %H:%M:%S
date-format %d/%b/%Y
log-format %h - %^ [%d:%t %^] "%r" %s %b "%R" "%u" "%^" %^ %T %T

nginx日志输出格式如下

192.168.56.1 - - [14/Sep/2023:03:02:53 +0000] "GET /cc/ HTTP/1.1" 200 15567 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.76" "-" 123.121.155.167:16002 0.433 0.432
192.168.56.1 - - [14/Sep/2023:03:02:56 +0000] "GET /cc/ HTTP/1.1" 200 15567 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.76" "-" 123.121.155.167:16002 0.330 0.330
192.168.56.1 - - [14/Sep/2023:03:02:57 +0000] "GET /cc/ HTTP/1.1" 200 15567 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.76" "-" 123.121.155.167:16002 0.367 0.367

以后goaccess 会支持到什么程度,以下是我在官网提出的问题并給出的答复

github.com/allinurl/goaccess/issues/2556

有关实际应用

问题:goaccess 如何做到自动分析 nginx日志,nginx日志是按天切割的。我如果想借助python去自动分析每天的日志,并输出每天的报告。并且也能通过界面的方式 分析某段时间的报告,比如将好几天的报告整合到一起 一并分析。下面提供一个详细的设计和开发方案

**回答:**goaccess是一款开源的实时Web日志分析工具,可以通过终端或浏览器查看Web服务器的统计信息。goaccess支持多种日志格式,包括nginx的日志格式,也可以自定义日志格式。goaccess可以生成静态的HTML报告,也可以生成实时的HTML报告,还可以生成JSON和CSV格式的报告。

要实现你的需求,我为你提供一个可能的设计和开发方案,如下:

  • 第一步:编写python脚本。你需要编写一个python脚本,用于自动分析每天的nginx日志,并输出每天的报告。你可以参考

    这篇文章

    来了解如何使用python调用goaccess。你的脚本大致需要实现以下功能:

    • 定义一个函数,用于根据日期获取对应的nginx日志文件名。例如,如果你的nginx日志是按天切割的,并且命名为access.log-20210901这样的格式,那么你可以根据日期参数拼接出文件名。
    • 定义一个函数,用于根据日期获取对应的报告文件名。例如,如果你想生成HTML报告,并且命名为report-20210901.html这样的格式,那么你也可以根据日期参数拼接出文件名。
    • 定义一个函数,用于调用goaccess命令,传入日志文件名和报告文件名作为参数,执行日志分析并输出报告。例如,你可以使用类似于os.system('goaccess -f {} -o {} --log-format=COMBINED'.format(log_file, report_file))这样的语句来执行goaccess命令。
    • 定义一个主函数,用于遍历指定的日期范围,对每一天的日志进行分析,并生成每一天的报告。例如,你可以使用类似于for date in pd.date_range(start_date, end_date):这样的循环来遍历日期范围,并调用前面定义的函数来获取文件名和执行分析。
  • 第二步:运行python脚本。你需要在服务器上运行你编写的python脚本,或者将其设置为定时任务,每天自动运行。5 这样就可以实现自动分析每天的nginx日志,并输出每天的报告了。

  • 第三步:查看报告。需要在浏览器上查看生成的HTML报告,或者使用其他工具查看JSON或CSV格式的报告。12 如果你想通过界面的方式分析某段时间的报告,比如将好几天的报告整合到一起一并分析,那么你可以使用goaccess提供的增长日志处理功能。6 这个功能允许你将多个日志文件合并到一个数据库中,并从中生成一个综合报告。6

还会持续补充。。

志处理功能。](about:blank#)6 这个功能允许你将多个日志文件合并到一个数据库中,并从中生成一个综合报告。6

还会持续补充。。

更多推荐

R语言RSTAN MCMC:NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据...

全文链接:http://tecdat.cn/?p=24456如果你正在进行统计分析:想要加一些先验信息,最终你想要的是预测。所以你决定使用贝叶斯(点击文末“阅读原文”获取完整代码数据)。相关视频但是,你没有共轭先验。你可能会花费很长时间编写Metropolis-Hastings代码,优化接受率和提议分布,或者你可以使用

【医学影像数据处理】 Dicom 文件格式处理汇总

在医学影像的数据存储领域,是存在一定的行业标准的。X光、CT机器等等医疗器械等生产企业,会依据行业标准,对采集的数据进行规范化的存储。这里面就包括了大名鼎鼎的DICOM3.0协议,上述的摄影形式大部分也都是以这种形式进行存储和传播的。但是呢,在医学领域进行数据处理的时候,经常会遇到除DICOM外其他的数据形式,比如常见

gateway之断言的使用详解

文章目录gateway产生的背景,为什么要是用gateway什么是网关gateway带来的好处功能特征gateway在项目中使用的依赖什么是断言断言分类内置自定义示例断言和过滤器的不同gateway产生的背景,为什么要是用gateway一个系统会被拆分为多个微服务,作为客户端要如何去调用这么多的微服务?如果没有网关的存

使用 Amazon EC2 预留实例最大限度地节省成本和提高灵活性

简介:随着云计算不断改变企业的运营方式,优化成本已成为首要任务。利用AmazonEC2预留实例是实现云端成本节约最有效的方法之一。本文将探讨什么是AmazonEC2预留实例,它与按需实例的区别,以及它在成本节约和灵活性方面提供的好处。背景:云计算改变了IT格局,使企业能够按需扩展基础设施,仅为所消耗的资源付费。但是,随

短视频矩阵系统源代码开发搭建分享--代码开源SaaS

一、什么是短视频矩阵系统?短视频矩阵系统是专门为企业号商家、普通号商家提供帐号运营从流量到转化成交的一站式服务方案,具体包含:点赞关注评论主动私信,评论区回复,自动潜客户挖掘,矩阵号营销,自动化营销,粉丝管理等功能,可以帮助企业或商家快速批量制作高质量短视频,扩大企业宣传,提升企业经营效果。通过短视频矩阵系统的运营,可

React面试题总结(一)

1、redux本来是同步的,为什么它能执行异步代码?实现原理是什么?中间件的实现原理是什么?1、Redux-thunk这个中间件支持异步操作2、执行异步的操作首先需要下载一个thunk,通过thunk来进行异步的一个操作,支持异步操作,可以使用dispatch和getState来进行数据的获取或状态3、Redux是一个

【C++】STL—— unordered_map的介绍和使用、 unordered_map的构造函数和迭代器、 unordered_map的增删查改函数

文章目录1.unordered_map的介绍2.unordered_map的使用2.1unordered_map的构造函数2.2unordered_map的迭代器2.3unordered_map的容量和访问函数2.4unordered_map的增删查改函数1.unordered_map的介绍unordered_map的

【Java 基础篇】Java多线程编程详解:线程创建、同步、线程池与性能优化

Java是一门强大的编程语言,其中最引人注目的特性之一是多线程支持。多线程允许我们在同一程序中同时执行多个任务,这大大提高了应用程序的性能和响应能力。本文将深入介绍Java线程的基础知识,无论您是初学者还是有一些经验的开发人员,都将从中获益。什么是线程?在计算机科学领域,线程是指在一个进程内部执行的独立单元。一个进程可

多线程设计模式【线程安全、 Future 设计模式、Master-Worker 设计模式 】(一)-全面详解(学习总结---从入门到深化)

目录SingleThreadExecution设计模式线程安全Future设计模式Master-Worker设计模式生产者消费者设计模式定义不可变对象的策略SingleThreadExecution设计模式机场过安检SingleThreadExecution模式是指在同一时刻只能有一个线程去访问共享资源,就像独木桥一样

runc和docker

在Docker中,runc是一个轻量级的运行时工具,用于创建和运行容器。它是OpenContainerInitiative(OCI)的一部分,负责管理和执行容器中的进程。runc负责创建和管理Linux命名空间、控制组(cgroups)和文件系统挂载等功能,以便隔离容器中的进程、资源和文件系统。它还提供了容器的生命周期

在项目中,关于前端实现数据可视化的技术选择

前言在项目中,数据可视化以图表、报表类型为主。需求背景技术框架是Vue2.x版本,组件库是AntDesignofVue能够支撑足够多的图表类型开发图表大小/位置能够随意变动图表样式需要支持丰富多样的用户配置强大、开放的图表语法支持复杂的数据可视化场景兼顾电脑端和手机端、同时兼顾开发周期和后期维护版本稳定、社区活跃,方便

热文推荐