签名字体在线生成器_开发动态网站有哪些技术_网站建设教程免费夕滋湖南岚鸿官网_广州海珠区租房子一般多少钱

1. 网站点击流数据分析项目业务背景

1.1 什么是点击流数据

1.1.1 WEB访问日志

即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。

日志的生成渠道:

1)是网站的web服务器所记录的web访问日志;

2)是通过在页面嵌入自定义的js代码来获取用户的所有访问行为(比如鼠标悬停的位置,点击的页面组件等),然后通过ajax请求到后台记录日志;这种方式所能采集的信息最全面;

3)通过在页面上埋点1像素的图片,将相关页面访问信息请求到后台记录日志;

日志数据内容详述:

在实际操作中,有以下几个方面的数据可以被采集:

1) 访客的系统属性特征。比如所采用的操作系统、浏览器、域名和访问速度等。

2) 访问特征。包括停留时间、点击的URL等。

3) 来源特征。包括网络内容信息类型、内容分类和来访URL等。

4) 产品特征。包括所访问的产品编号、产品类别、产品颜色、产品价格、产品利润、产品数量和特价等级等。

以电商某东为例,其点击日志格式如下:

GET /log.gif?t=item.010001&m=UA-J2011-1&pin=-&uid=1679790178&sid=1679790178|12&v=je=1$sc=24-bit$sr=1600x900$ul=zh-cn$cs=GBK$dt=【云南白药套装】云南白药 牙膏 1803 (留兰香型)【行情 报价 价格 评测】-京东$hn=item.jd.com$fl=16.0 r0$os=win$br=chrome$bv=39.0.2171.95$wb=1437269412$xb=1449548587$yb=1456186252$zb=12$cb=4$usc=direct$ucp=-$umd=none$uct=-$ct=1456186505411$lt=0$tad=-$sku=1326523$cid1=1316$cid2=1384$cid3=1405$brand=20583$pinid=-&ref=&rm=1456186505411 HTTP/1.1

1.1.2 点击流数据模型

点击流概念

点击流这个概念更注重用户浏览网站的整个流程,网站日志中记录的用户点击就像是图上的“点”,而点击流更像是将这些“点”串起来形成的“线”。也可以把“点”认为是网站的Page,而“线”则是访问网站的Session。所以点击流数据是由网站日志中整理得到的,它可以比网站日志包含更多的信息,从而使基于点击流数据统计得到的结果更加丰富和高效。

点击流模型生成

点击流数据在具体操作上是由散点状的点击日志数据梳理所得,从而,点击数据在数据建模时应该存在两张模型表(Pageviews和visits):

1、用于生成点击流的访问日志表

时间戳IP地址CookieSession请求URLReferal
2012-01-01 12:31:12101.0.0.1User01S001/a/…somesite.com
2012-01-01 12:31:16201.0.0.2User02S002/a/…-
2012-01-01 12:33:06101.0.0.2User03S002/b/…baidu.com
2012-01-01 15:16:39234.0.0.3User01S003/c/…google.com
2012-01-01 15:17:11101.0.0.1User01S004/d/…/c/…
2012-01-01 15:19:23101.0.0.1User01S004/e/…/d/….

2、页面点击流模型Pageviews表

Sessionuserid时间访问页面URL停留时长第几步
S001User012012-01-01 12:31:12/a/….301
S002User022012-01-01 12:31:16/a/….101
S002User022012-01-01 12:33:06/b/….1102
S002User022012-01-01 12:35:06/e/….303

3、点击流模型Visits表

Session起始时间结束时间进入页面离开页面访问页面数IPcookiereferal
S0012012-01-01 12:31:122012-01-01 12:31:12/a/…/a/…1101.0.0.1User01somesite.com
S0022012-01-01 12:31:162012-01-01 12:35:06/a/…/e/…3201.0.0.2User02-
S0032012-01-01 12:35:422012-01-01 12:35:42/c/…/c/…1234.0.0.3User03baidu.com
S0032012-01-01 15:16:392012-01-01 15:19:23/c/…/e/…3101.0.0.1User01google.com
………………………………………………

这就是点击流模型。当WEB日志转化成点击流数据的时候,很多网站分析度量的计算变得简单了,这就是点击流的“魔力”所在。基于点击流数据我们可以统计出许多常见的网站分析度量

1.2网站流量数据分析的意义

网站流量统计分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。

如下表:

网站的眼睛网站的神经网站的大脑
访问者来自哪里?访问者在寻找什么?哪些页面最受欢迎?访问者从哪里进入?网页布局合理吗?网站导航清晰吗?哪些功能存在问题网站内容有效吗转化路径靠谱吗?如何分解目标?如何分配广告预算?如何衡量产品表现?哪些产品需要优化?哪些指标需要关注?

点击流分析的意义可分为两大方面:

1、技术上

可以合理修改网站结构及适度分配资源,构建后台服务器群组,比如

辅助改进网络的拓扑设计,提高性能

在有高度相关性的节点之间安排快速有效的访问路径

帮助企业更好地设计网站主页和安排网页内容

2、业务上

1) 帮助企业改善市场营销决策,如把广告放在适当的Web页面上。

2) 优化页面及业务流程设计,提高流量转化率。

3) 帮助企业更好地根据客户的兴趣来安排内容。

4) 帮助企业对客户群进行细分,针对不同客户制定个性化的促销策略等。

终极目标是:改善网站(电商、社交、电影、小说)的运营,获取更高投资回报率(ROI)

1.3 如何进行网站流量分析**

流量分析整体来说是一个内涵非常丰富的体系,其整体过程是一个金字塔结构:

1.3.1 流量分析模型举例

通常有以下几大类的分析需求:

1)网站流量质量分析

流量对于每个网站来说都是很重要,但流量并不是越多越好,应该更加看重流量的质量,换句话来说就是流量可以为我们带来多少收入。

2)网站流量多维度细分

细分是指通过不同维度对指标进行分割,查看同一个指标在不同维度下的表现,进而找出有问题的那部分指标,对这部分指标进行优化。

3)网站内容及导航分析

对于所有网站来说,页面都可以被划分为三个类别:

​ 导航页

​ 功能页

​ 内容页

首页和列表页都是典型的导航页;

站内搜索页面、注册表单页面和购物车页面都是典型的功能页,

而产品详情页、新闻和文章页都是典型的内容页。

比如从内容导航分析中,以下两类行为就是网站运营者不希望看到的行为:

第一个问题:访问者从导航页进入,在还没有看到内容页面之前就从导航页离开网站,需要分析导航页造成访问者中途离开的原因。

第二个问题:访问者从导航页进入内容页后,又返回到导航页,说明需要分析内容页的最初设计,并考虑中内容页提供交叉的信息推荐

4)网站转化及漏斗分析

所谓转化,即网站业务流程中的一个封闭渠道,引导用户按照流程最终实现业务目标(比如商品成交);而漏斗模型则是指进入渠道的用户在各环节递进过程中逐渐流失的形象描述;

对于转化渠道,主要进行两部分的分析:

访问者的流失和迷失

1、阻力和流失

造成流失的原因很多,如:

不恰当的商品或活动推荐

对支付环节中专业名词的解释、帮助信息等内容不当

2、迷失

造成迷失的主要原因是转化流量设计不合理,访问者在特定阶段得不到需要的信息,并且不能根据现有的信息作出决策

总之,网站流量分析是一门内容非常丰富的学科,本课程中主要关注网站分析过程中的技术运用,更多关于网站流量分析的业务知识可学习推荐资料。

1.3.2 流量分析常见指标

课程中涉及的分析指标主要位于以下几大方面:

1)基础分析(PV,IP,UV)

趋势分析:根据选定的时段,提供网站流量数据,通过流量趋势变化形态,为您分析网站访客的访问规律、网站发展状况提供参考。

对比分析:根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发现网站发展状况、发展规律、流量变化率等。

当前在线:提供当前时刻站点上的访客量,以及最近15分钟流量、来源、受访、访客变化情况等,方便用户及时了解当前网站流量状况。

访问明细:提供最近7日的访客访问记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照来源、搜索词等条件进行筛选。 通过访问明细,用户可以详细了解网站流量的累计过程,从而为用户快速找出流量变动原因提供最原始、最准确的依据。

2)来源分析

来源分类:提供不同来源形式(直接输入、搜索引擎、其他外部链接、站内来源)、不同来源项引入流量的比例情况。通过精确的量化数据,帮助用户分析什么类型的来路产生的流量多、效果好,进而合理优化推广方案。

搜索引擎:提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。从搜索引擎引入流量的的角度,帮助用户了解网站的SEO、SEM效果,从而为制定下一步SEO、SEM计划提供依据。

搜索词:提供访客通过搜索引擎进入网站所使用的搜索词,以及各搜索词引入流量的特征和分布。帮助用户了解各搜索词引入流量的质量,进而了解访客的兴趣关注点、网站与访客兴趣点的匹配度,为优化SEO方案及SEM提词方案提供详细依据。

最近7日的访客搜索记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。

来路域名:提供具体来路域名引入流量的分布情况,并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。 帮助用户了解哪类推广渠道产生的流量多、效果好,进而合理优化网站推广方案。

来路页面:提供具体来路页面引入流量的分布情况。 尤其对于通过流量置换、包广告位等方式从其他网站引入流量的用户,该功能可以方便、清晰地展现广告引入的流量及效果,为优化推广方案提供依据。

来源升降榜:提供开通统计后任意两日的TOP10000搜索词、来路域名引入流量的对比情况,并按照变化的剧烈程度提供排行榜。 用户可通过此功能快速找到哪些来路对网站流量的影响比较大,从而及时排查相应来路问题。

3)受访分析

受访域名:提供访客对网站中各个域名的访问情况。 一般情况下,网站不同域名提供的产品、内容各有差异,通过此功能用户可以了解不同内容的受欢迎程度以及网站运营成效。

受访页面:提供访客对网站中各个页面的访问情况。 站内入口页面为访客进入网站时浏览的第一个页面,如果入口页面的跳出率较高则需要关注并优化;站内出口页面为访客访问网站的最后一个页面,对于离开率较高的页面需要关注并优化。

受访升降榜:提供开通统计后任意两日的TOP10000受访页面的浏览情况对比,并按照变化的剧烈程度提供排行榜。 可通过此功能验证经过改版的页面是否有流量提升或哪些页面有巨大流量波动,从而及时排查相应问题。

热点图:记录访客在页面上的鼠标点击行为,通过颜色区分不同区域的点击热度;支持将一组页面设置为”关注范围”,并可按来路细分点击热度。 通过访客在页面上的点击量统计,可以了解页面设计是否合理、广告位的安排能否获取更多佣金等。

用户视点:提供受访页面对页面上链接的其他站内页面的输出流量,并通过输出流量的高低绘制热度图,与热点图不同的是,所有记录都是实际打开了下一页面产生了浏览次数(PV)的数据,而不仅仅是拥有鼠标点击行为。

访问轨迹:提供观察焦点页面的上下游页面,了解访客从哪些途径进入页面,又流向了哪里。 通过上游页面列表比较出不同流量引入渠道的效果;通过下游页面列表了解用户的浏览习惯,哪些页面元素、内容更吸引访客点击。

4)访客分析

地区运营商:提供各地区访客、各网络运营商访客的访问情况分布。 地方网站、下载站等与地域性、网络链路等结合较为紧密的网站,可以参考此功能数据,合理优化推广运营方案。

终端详情:提供网站访客所使用的浏览终端的配置情况。 参考此数据进行网页设计、开发,可更好地提高网站兼容性,以达到良好的用户交互体验。

新老访客:当日访客中,历史上第一次访问该网站的访客记为当日新访客;历史上已经访问过该网站的访客记为老访客。 新访客与老访客进入网站的途径和浏览行为往往存在差异。该功能可以辅助分析不同访客的行为习惯,针对不同访客优化网站,例如为制作新手导航提供数据支持等。

忠诚度:从访客一天内回访网站的次数(日访问频度)与访客上次访问网站的时间两个角度,分析访客对网站的访问粘性、忠诚度、吸引程度。 由于提升网站内容的更新频率、增强用户体验与用户价值可以有更高的忠诚度,因此该功能在网站内容更新及用户体验方面提供了重要参考。

活跃度:从访客单次访问浏览网站的时间与网页数两个角度,分析访客在网站上的活跃程度。 由于提升网站内容的质量与数量可以获得更高的活跃度,因此该功能是网站内容分析的关键指标之一。

5)转化路径分析

转化定义

·访客在您的网站完成了某项您期望的活动,记为一次转化,如注册或下载。

目标示例

·获得用户目标:在线注册、创建账号等。

·咨询目标:咨询、留言、电话等。

·互动目标:视频播放、加入购物车、分享等。

·收入目标:在线订单、付款等。

转化数据的应用

·在报告的自定义指标中勾选转化指标,实时掌握网站的推广及运营情况。

·结合“全部来源”、“转化路径”、“页面上下游”等报告分析访问漏斗,提高转化率。

·对“转化目标”设置价值,预估转化收益,衡量ROI。


路径分析:根据设置的特定路线,监测某一流程的完成转化情况,算出每步的转换率和流失率数据,如注册流程,购买流程等。

转化类型:

1、页面

2、事件

2 整体技术流程及架构

2.1 数据处理流程

该项目是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行,依此有以下几个大的步骤:

1) 数据采集

首先,通过页面嵌入JS代码的方式获取用户访问行为,并发送到web服务的后台记录日志

然后,将各服务器上生成的点击流日志通过实时或批量的方式汇聚到HDFS文件系统中

当然,一个综合分析系统,数据源可能不仅包含点击流数据,还有数据库中的业务数据(如用户信息、商品信息、订单信息等)及对分析有益的外部数据

2) 数据预处理

通过mapreduce程序对采集到的点击流数据进行预处理,比如清洗,格式整理,滤除脏数据等

3) 数据入库

将预处理之后的数据导入到HIVE仓库中相应的库和表中

4) 数据分析

项目的核心内容,即根据需求开发ETL分析语句,得出各种统计结果

5) 数据展现

将分析所得数据进行可视化

2.2 项目结构

由于本项目是一个纯粹数据分析项目,其整体结构亦跟分析流程匹配,并没有特别复杂的结构,如下图:

其中,需要强调的是:

系统的数据分析不是一次性的,而是按照一定的时间频率反复计算,因而整个处理链条中的各个环节需要按照一定的先后依赖关系紧密衔接,即涉及到大量任务单元的管理调度,所以,项目中需要添加一个任务调度模块

2.3 数据展现

数据展现的目的是将分析所得的数据进行可视化,以便运营决策人员能更方便地获取数据,更快更简单地理解数据

3 模块开发——数据采集

3.1 需求

数据采集的需求广义上来说分为两大部分。

1)是在页面采集用户的访问行为,具体开发工作:

​ 1、开发页面埋点js,采集用户访问行为

​ 2、后台接受页面js请求记录日志

此部分工作也可以归属为“数据源”,其开发工作通常由web开发团队负责

2)是从web服务器上汇聚日志到HDFS,是数据分析系统的数据采集,此部分工作由数据分析平台建设团队负责,具体的技术实现有很多方式:

​ Shell脚本

​ 优点:轻量级,开发简单

​ 缺点:对日志采集过程中的容错处理不便控制

​ Java采集程序

​ 优点:可对采集过程实现精细控制

​ 缺点:开发工作量大

​ Flume日志采集框架

​ 成熟的开源日志采集系统,且本身就是hadoop生态体系中的一员,与hadoop体系中的各种框架组件具有天生的亲和力,可扩展性强

3.2 技术选型

在点击流日志分析这种场景中,对数据采集部分的可靠性、容错能力要求通常不会非常严苛,因此使用通用的flume日志采集框架完全可以满足需求。

本项目即使用flume来实现日志采集。

3.3 Flume日志采集系统搭建

1、数据源信息

本项目分析的数据用nginx服务器所生成的流量日志,存放在各台nginx服务器上,如:

/var/log/httpd/access_log.3-00.log

/var/log/httpd/access_log.4-00.log

/var/log/httpd/access_log.5-00.log

/var/log/httpd/access_log.6-00.log

2、数据内容样例

数据的具体内容在采集阶段其实不用太关心。

58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"

字段解析:

1、访客ip地址: 58.215.204.118

2、访客用户信息: - -

3、请求时间:[18/Sep/2013:06:51:35 +0000]

4、请求方式:GET

5、请求的url:/wp-includes/js/jquery/jquery.js?ver=1.10.2

6、请求所用协议:HTTP/1.1

7、响应码:304

8、返回的数据流量:0

9、访客的来源url:http://blog.fens.me/nodejs-socketio-chat/

10、访客所用浏览器:Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0

3、日志文件生成规律

基本规律为:

当前正在写的文件为access_log;

文件体积达到64M,或时间间隔达到60分钟,即滚动重命名切换成历史日志文件;

形如: access_log.2015-11-10-13-00.log

当然,每个公司的web服务器日志策略不同,可在web程序的log4j.properties中定义,如下:

log4j.appender.logDailyFile = org.apache.log4j.DailyRollingFileAppender">
    
    




    


    
        
    

深圳专业网站建设免费送域名空间

创艺装饰公司、企业所得税计算方式、永久使用、不限域名、深圳地铁优化

效果图网站模板?

签名字体在线生成器_开发动态网站有哪些技术_网站建设教程免费夕滋湖南岚鸿官网_广州海珠区租房子一般多少钱

天津做大健康的公司头像模板在线制作软件在腾讯云怎样建设网站创意策划是做什么的网站制作公司品牌国内外ai设计素材网站凡客诚品网日本门户网站宁波怎么建网站模板站推动高质量发展发言材料怎么开发一个网站系统高级seo是什么职位百度电话客服24小时优惠云服务器网易企业邮箱密码格式高端办公室装修公司石家庄站在哪个区烟台网站建设诚信臻动传媒html所有代码大全小程序制作那个好网页设计学科门类是啥b2b平台操作流程上海注册子公司流程和费用标准详情页模板psd合肥市人民政府国有资产监督管理委员会企业网站优化方案范本网站安装温州网站关键词推广深圳市住房和建设局统一认证平台一般通过什么来进行知识点挖掘威海推广

猜你喜欢

  • 友情链接:
  • 我开网店一天亏几百 深圳专业网站建设定制 淘宝代运营服务 大气的建筑公司名字 企业网站管理系统asp 郴州网站建设费用价格