谈闻财经 > 技巧 > 优的美国数据分析.现在的数据分析

优的美国数据分析.现在的数据分析

2024-05-08 01:47:28技巧

股票市场是一个需要长期持有的市场，投资者需要有耐心和毅力，不断学习和调整自己的投资策略，才能在市场中获得长期的稳定回报。接下来，谈闻财经带大家认识并深入了解优的美国数据分析，希望能帮你解决当下所遇到的难题。

本文目录：

1、现在有一批数据要进行分析,可以从哪些方面进行?
2、常用的数据分析方法有哪些？
3、常用的数据分析思路是什么?
4、大数据时代的数据分析师该了解哪些事情
5、主流数据分析工具有哪些?

现在有一批数据要进行分析,可以从哪些方面进行?

优质回答可以从如下三个方面：现状分析、原因分析、预测分析。

1.明确分析目的与思路：一切以解决业务问题为中心，依据分析目标明确思路，打开分析视角，使数据分析框架体系化。

2.数据收集与预处理：数据来源有Excel/CSV/SQL数据库/NoSQL数据库/Hive数据仓库/外部数据，从数据来源收集数据后需要做清洗工作，包括缺失值、错误值、重复值、异常值等都要处理好，当然还有转换、拆分、合并等等工作也可能要做，这样才能满足后续数据分析的要求。

3.数据分析与挖掘：使用各种数据分析方法与分析工具（如Excel/SQL/SPSS/SAS/Tableau/PowerBI/Python）进行分析挖掘。

4.数据可视化并生成报告：使用专业化图表，也可以结合表格，最后以报告方式输出数据分析成果。

常用的数据分析方法有哪些？

优质回答常用的列了九种供参考:

一、公式拆解

所谓公式拆解法就是针对某个指标，用公式层层分解该指标的影响因素。

举例：分析某产品的销售额较低的原因，用公式法分解

二、对比分析

对比法就是用两组或两组的数据进行比较，是最通用的方法。

我们知道孤立的数据没有意义，有对比才有差异。比如在时间维度上的同比和环比、增长率、定基比，与竞争对手的对比、类别之间的对比、特征和属性对比等。对比法可以发现数据变化规律，使用频繁，经常和其他方法搭配使用。

下图的AB公司销售额对比，虽然A公司销售额总体上涨且高于B公司，但是B公司的增速迅猛，高于A公司，即使后期增速下降了，最后的销售额还是赶超。

三、A/Btest

A/Btest，是将Web或App界面或流程的两个或多个版本，在同一时间维度，分别让类似访客群组来访问，收集各群组的用户体验数据和业务数据，最后分析评估出最好版本正式采用。A/Btest的流程如下：

（1）现状分析并建立假设：分析业务数据，确定当前最关键的改进点，作出优化改进的假设，提出优化建议；比如说我们发现用户的转化率不高，我们假设是因为推广的着陆页面带来的转化率太低，下面就要想办法来进行改进了

（2）设定目标，制定方案：设置主要目标，用来衡量各优化版本的优劣；设置辅助目标，用来评估优化版本对其他方面的影响。

（3）设计与开发：制作2个或多个优化版本的设计原型并完成技术实现。

（4）分配流量：确定每个线上测试版本的分流比例，初始阶段，优化方案的流量设置可以较小，根据情况逐渐增加流量。

（5）采集并分析数据：收集实验数据，进行有效性和效果判断：统计显著性达到95%或并且维持一段时间，实验可以结束；如果在95%以下，则可能需要延长测试时间；如果很长时间统计显著性不能达到95%甚至90%，则需要决定是否中止试验。

（6）最后：根据试验结果确定发布新版本、调整分流比例继续测试或者在试验效果未达成的情况下继续优化迭代方案重新开发上线试验。

流程图如下：

四、象限分析

通过对两种及维度的划分，运用坐标的方式表达出想要的价值。由价值直接转变为策略，从而进行一些落地的推动。象限法是一种策略驱动的思维，常与产品分析、市场分析、客户管理、商品管理等。比如，下图是一个广告点击的四象限分布，X轴从左到右表示从低到高，Y轴从下到上表示从低到高。

高点击率高转化的广告，说明人群相对精准，是一个高效率的广告。高点击率低转化的广告，说明点击进来的人大多被广告吸引了，转化低说明广告内容针对的人群和产品实际受众有些不符。高转化低点击的广告，说明广告内容针对的人群和产品实际受众符合程度较高，但需要优化广告内容，吸引更多人点击。低点击率低转化的广告，可以放弃了。还有经典的RFM模型，把客户按最近一次消费(Recency)、消费频率(Frequency)、消费金额 (Monetary)三个维度分成八个象限。

象限法的优势：

（1）找到问题的共性原因

通过象限分析法，将有相同特征的事件进行归因分析，总结其中的共性原因。例如上面广告的案例中，第一象限的事件可以提炼出有效的推广渠道与推广策略，第三和第四象限可以排除一些无效的推广渠道；

（2）建立分组优化策略

针对投放的象限分析法可以针对不同象限建立优化策略，例如RFM客户管理模型中按照象限将客户分为重点发展客户、重点保持客户、一般发展客户、一般保持客户等不同类型。给重点发展客户倾斜更多的资源，比如VIP服务、个性化服务、附加销售等。给潜力客户销售价值更高的产品，或一些优惠措施来吸引他们回归。

五、帕累托分析

帕累托法则，源于经典的二八法则。比如在个人财富上可以说世界上20%的人掌握着80%的财富。而在数据分析中，则可以理解为20%的数据产生了80%的效果需要围绕这20%的数据进行挖掘。往往在使用二八法则的时候和排名有关系，排在前20%的才算是有效数据。二八法是抓重点分析，适用于任何行业。找到重点，发现其特征，然后可以思考如何让其余的80%向这20%转化，提高效果。

一般地，会用在产品分类上，去测量并构建ABC模型。比如某零售企业有500个SKU以及这些SKU对应的销售额，那么哪些SKU是重要的呢，这就是在业务运营中分清主次的问题。

常见的做法是将产品SKU作为维度，并将对应的销售额作为基础度量指标，将这些销售额指标从大到小排列，并计算截止当前产品SKU的销售额累计合计占总销售额的百分比。

百分比在 70%（含）以内，划分为 A 类。百分比在 70~90%（含）以内，划分为 B 类。百分比在 90~100%（含）以内，划分为 C 类。百分比也可以根据自己的实际情况调整。

ABC分析模型，不光可以用来划分产品和销售额，还可以划分客户及客户交易额等。比如给企业贡献80%利润的客户是哪些，占比多少。假设有20%，那么在资源有限的情况下，就知道要重点维护这20%类客户。

六、漏斗分析

漏斗法即是漏斗图，有点像倒金字塔，是一个流程化的思考方式，常用于像新用户的开发、购物转化率这些有变化和一定流程的分析中。

上图是经典的营销漏斗，形象展示了从获取用户到最终转化成购买这整个流程中的一个个子环节。相邻环节的转化率则就是指用数据指标来量化每一个步骤的表现。所以整个漏斗模型就是先将整个购买流程拆分成一个个步骤，然后用转化率来衡量每一个步骤的表现，最后通过异常的数据指标找出有问题的环节，从而解决问题，优化该步骤，最终达到提升整体购买转化率的目的。

整体漏斗模型的核心思想其实可以归为分解和量化。比如分析电商的转化，我们要做的就是监控每个层级上的用户转化，寻找每个层级的可优化点。对于没有按照流程操作的用户，专门绘制他们的转化模型，缩短路径提升用户体验。

还有经典的黑客增长模型，AARRR模型，指Acquisition、Activation、Retention、Revenue、Referral，即用户获取、用户激活、用户留存、用户收益以及用户传播。这是产品运营中比较常见的一个模型，结合产品本身的特点以及产品的生命周期位置，来关注不同的数据指标，最终制定不同的运营策略。

从下面这幅AARRR模型图中，能够比较明显的看出来整个用户的生命周期是呈现逐渐递减趋势的。通过拆解和量化整个用户生命周期各环节，可以进行数据的横向和纵向对比，从而发现对应的问题，最终进行不断的优化迭代。

七、路径分析

用户路径分析追踪用户从某个开始事件直到结束事件的行为路径，即对用户流向进行监测，可以用来衡量网站优化的效果或营销推广的效果，以及了解用户行为偏好，其最终目的是达成业务目标，引导用户更高效地完成产品的最优路径，最终促使用户付费。如何进行用户行为路径分析？

（1）计算用户使用网站或APP时的每个第一步，然后依次计算每一步的流向和转化，通过数据，真实地再现用户从打开APP到离开的整个过程。

（2）查看用户在使用产品时的路径分布情况。例如：在访问了某个电商产品首页的用户后，有多大比例的用户进行了搜索，有多大比例的用户访问了分类页，有多大比例的用户直接访问的商品详情页。

（3）进行路径优化分析。例如：哪条路径是用户最多访问的；走到哪一步时，用户最容易流失。

（4）通过路径识别用户行为特征。例如：分析用户是用完即走的目标导向型，还是无目的浏览型。

（5）对用户进行细分。通常按照APP的使用目的来对用户进行分类。如汽车APP的用户可以细分为关注型、意向型、购买型用户，并对每类用户进行不同访问任务的路径分析，比如意向型的用户，他进行不同车型的比较都有哪些路径，存在什么问题。还有一种方法是利用算法，基于用户所有访问路径进行聚类分析，依据访问路径的相似性对用户进行分类，再对每类用户进行分析。

以电商为例，买家从登录网站／APP到支付成功要经过首页浏览、搜索商品、加入购物车、提交订单、支付订单等过程。而在用户真实的选购过程是一个交缠反复的过程，例如提交订单后，用户可能会返回首页继续搜索商品，也可能去取消订单，每一个路径背后都有不同的动机。与其他分析模型配合进行深入分析后，能为找到快速用户动机，从而引领用户走向最优路径或者期望中的路径。

用户行为路径图示例：

八、留存分析

用户留存指的是新会员/用户在经过一定时间之后，仍然具有访问、登录、使用或转化等特定属性和行为，留存用户占当时新用户的比例就是留存率。留存率按照不同的周期分为三类，以登录行为认定的留存为例：

第一种日留存，日留存又可以细分为以下几种：

（1）次日留存率：（当天新增的用户中，第2天还登录的用户数）/第一天新增总用户数

（2）第3日留存率：（第一天新增用户中，第3天还有登录的用户数）/第一天新增总用户数

（3）第7日留存率：（第一天新增用户中，第7天还有登录的用户数）/第一天新增总用户数

（4）第14日留存率：（第一天新增用户中，第14天还有登录的用户数）/第一天新增总用户数

（5）第30日留存率：（第一天新增用户中，第30天还有登录的用户数）/第一天新增总用户数

第二种周留存，以周度为单位的留存率，指的是每个周相对于第一个周的新增用户中，仍然还有登录的用户数。

第三种月留存，以月度为单位的留存率，指的是每个月相对于第一个周的新增用户中，仍然还有登录的用户数。留存率是针对新用户的，其结果是一个矩阵式半面报告（只有一半有数据），每个数据记录行是日期、列为对应的不同时间周期下的留存率。正常情况下，留存率会随着时间周期的推移而逐渐降低。下面以月留存为例生成的月用户留存曲线：

九、聚类分析

聚类分析属于探索性的数据分析方法。通常，我们利用聚类分析将看似无序的对象进行分组、归类，以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高，组间对象相似性较低。在用户研究中，很多问题可以借助聚类分析来解决，比如，网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中，用户分类是最常见的情况。

常见的聚类方法有不少，比如K均值（K-Means），谱聚类（Spectral Clustering），层次聚类（Hierarchical Clustering）。以最为常见的K-means为例，如下图：

可以看到，数据可以被分到红蓝绿三个不同的簇（cluster）中，每个簇应有其特有的性质。显然，聚类分析是一种无监督学习，是在缺乏标签的前提下的一种分类模型。当我们对数据进行聚类后并得到簇后，一般会单独对每个簇进行深入分析，从而得到更加细致的结果。

常用的数据分析思路是什么?

优质回答【导读】现在，数据的重要性日益凸显。在使用数据的同时，数据的使用和挖掘也决定着企业的竞争价值。数据分析应该以业务场景为起始思考点，以业务决策作为终点。那么，常用的数据分析思路是什么呢今天就跟随小编一起来了解下吧!

1、明确思路

明确数据分析的目的以及思路是确保数据分析过程有效进行的首要条件。它作用的是可以为数据的收集、处理及分析提供清晰的指引方向。可以说思路是整个分析流程的起点。首先目的不明确则会导致方向性的错误。当明确目的后，就要建分析框架，把分析目的分解成若干个不同的分析要点，即如何具体开展数据分析，需要从哪几个角度进行分析，采用哪些分析指标。

2、收集数据

收集数据是按照确定的数据分析框架收集相关数据的过程，它为数据分析提供了素材和依据。这里所说的数据包括第一手数据与第二手数据，第一手数据主要指可直接获取的数据比如公司自己的业务数据库中的业务数据，第二手数据主要指经过加工整理后得到的数据例如一些公开出版物或者第三方的数据网站。

3、处理数据

处理数据是指对收集到的数据进行加工整理，形成适合数据分析的样式，它是数据分析前必不可少的阶段。数据处理的基本目的是从大量的、杂乱无章、难以理解的数据中，抽取并推导出对解决问题有价值、有意义的数据。数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。

4、分析数据

分析数据是指用适当的分析方法及工具，对处理过的数据进行分析，提取有价值的信息，形成有效结论的过程。由于数据分析多是通过软件来完成的，这就要求数据分析师不仅要掌握各种数据分析方法，还要熟悉数据分析软件的操作。

5、可视化

一般情况下，数据是通过表格和图形的方式来呈现的，我们常说用图表说话就是这个意思。常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等，当然可以对这些图表进一步整理加工，使之变为我们所需要的图形，例如金字塔图、矩阵图、漏斗图等。

6、撰写报告

撰写数据分析报告其实是对整个数据分析过程的一个总结与呈现，通过清晰的结构和图文并茂的展现方式去展具有建设意义的解决方案。

就是小编今天给大家整理发送的关于“常用的数据分析思路是什么”的全部内容，希望对大家有所帮助。所谓不做不打无准备之仗，总的来说随着大数据在众多行业中的应用，大数据技术工作能力的工程师和开发人员是很吃香的。

大数据时代的数据分析师该了解哪些事情

优质回答大数据时代的数据分析师该了解哪些事情

近几年来，大数据养精蓄锐，从刚开始的无人谈及，到现在的盛行谈论，就这样走进了公众的视野。什么是大数据呢对于数据分析师，它有意味着什么处在人人高谈的大数据时代，数据分析师该了解哪些内容，本文将为您解答。

用Google搜索了一下“BigData”，得到了19,600,000个结果……而使用同样的词语，在两年前你几乎搜索不到什么内容，而现在大数据的内容被大肆宣传，内容多得让人眼花缭乱。而这些内容主要是来自IBM、麦肯锡和O’Reilly ，大多数文章都是基于营销目的的夸夸其谈，对真实的情况并不了解，有些观点甚至是完全错误的。我问自己…… 大数据之于数据分析师，它意味着什么呢如下图所示，谷歌趋势显示，与“网站分析”(web analytics)和”商业智能”(business intelligence)较为平稳的搜索曲线相比，“大数据”(big data)的搜索量迎来了火箭式的大幅度增长。

被神话的大数据

Gartner把“大数据”的发展阶段定位在“社交电视”和“移动机器人”之间，正向着中部期望的高峰点迈进，而现在是达到较为成熟的阶段前的二至五年。这种定位有着其合理性。各种奏唱着“大数据”颂歌的产品数量正在迅速增长，大众媒体也进入了“大数据”主题的论辩中，比如纽约时报的“大数据的时代“，以及一系列在福布斯上发布的题为” 大数据技术评估检查表“的文章。

进步的一面体现在

，大数据的概念正在促使内部组织的文化发生转变，对过时的“商务智能”形成挑战，并促进了“分析”意识的提升。

基于大数据的创新技术可以很容易地被应用到类似数据分析的各种环境中。值得一提的是，企业组织通过应用先进的业务分析，业务将变得更广泛、更复杂，价值也更高，而传统的网站分析受到的关注将会有所减弱。

大数据的定义

什么是“大数据”，目前并没有统一的定义。维基百科提供的定义有些拙劣，也不完整：“ 大数据，指的是所涉及的数据量规模巨大到无法通过主流的工具，在合理的时间内撷取、管理、处理、并整理成为人们所能解读的信息 “。

IBM 提供了一个充分的简单易懂的概述：

大数据有以下三个特点：大批量(Volume)、高(Velocity)和多样化(Variety) 。大批量 – 大数据体积庞大。企业里到处充斥着数据，信息动不动就达到了TB级，甚至是PB级。高 – 大数据通常对时间敏感。为了最大限度地发挥其业务价值，大数据必须及时使用起来。多样化 – 大数据超越了结构化数据，它包括所有种类的非结构化数据，如文本、音频、视频、点击流、日志文件等等都可以是大数据的组成部分。 MSDN的布莱恩·史密斯在IBM的基础上增加了第四点：变异性 – 数据可以使用不同的定义方式来进行解释。不同的问题需要不同的阐释。

从技术角度看大数据

大数据包括了以下几个方面：数据采集、存储、搜索、共享、分析和可视化，而这些步骤在商务智能中也可以找到。在皮特·沃登的“ 大数据词汇表 “中，囊括了60种创新技术，并提供了相关的大数据技术概念的简要概述。

获取：数据的获取包括了各种数据源、内部或外部的、结构化或非结构化的数据。“大多数公共数据源的结构都不清晰，充满了噪音，而且还很难获得。” 技术： Google Refine、Needlebase、ScraperWiki、BloomReach 。

序列化：“你在努力把你的数据变成有用的东西，而这些数据会在不同的系统间传递，并可能存储在不同节点的文件中。这些操作都需要某种序列化，因为数据处理的不同阶段可能需要不同的语言和API。当你在处理非常大量的记录时，该如何表示和存储数据，你所做的选择对你的存储要求和性能将产生巨大影响。技术： JSON、BSON、Thrift、Avro、Google Protocol Buffers 。

存储：“大规模的数据处理操作使用了全新的方式来访问数据，而传统的文件系统并不适用。它要求数据能即时大批量的读取和写入。效率优先，而那些有助于组织信息的易于用户使用的目录功能可能就显得没那么重要。因为数据的规模巨大，这也意味着它需要被存储在多台分布式计算机上。“ 技术： Amazon S3、Hadoop分布式文件系统。

服务器：“云”是一个非常模糊的术语，我们可能对它所表示的内容并不很了解，但目前在计算资源的可用性方面已有了真正突破性的发展。以前我们都习惯于购买或长期租赁实体机器，而现在更常见的情况是直接租用正运行着虚拟实例的计算机来作为服务器。这样供应商可以以较为经济的价格为用户提供一些短期的灵活的机器租赁服务，这对于很多数据处理应用程序来说这是再理想不过的事情。因为有了能够快速启动的大型集群，这样使用非常小的预算处理非常大的数据问题就可能成为现实。“ 技术： Amazon EC2、Google App Engine、Amazon Elastic Beanstalk、Heroku 。

NoSQL：在IT行为中，NoSQL(实际上意味着“不只是SQL”)是一类广泛的数据库管理系统，它与关系型数据库管理系统(RDBMS)的传统模型有着一些显著不同，而最重要的是，它们并不使用SQL作为其主要的查询语言。这些数据存储可能并不需要固定的表格模式，通常不支持连接操作，也可能无法提供完整的ACID(原子性—Atomicity、一致性—Consistency、隔离性—Isolation、持久性—Durability)的保证，而且通常从水平方向扩展(即通过添加新的服务器以分摊工作量，而不是升级现有的服务器)。技术： Apache Hadoop、Apache Casandra、MongoDB、Apache CouchDB、Redis、BigTable、HBase、Hypertable、Voldemort 。

处理：“从数据的海洋中获取你想要的简洁而有价值的信息是一件挑战性的事情，不过现在的数据系统已经有了长足的进步，这可以帮助你把数据集到转变成为清晰而有意义的内容。在数据处理的过程中你会遇上很多不同的障碍，你需要使用到的工具包括了快速统计分析系统以及一些支持性的助手程序。“ 技术： R、Yahoo! Pipes、Mechanical Turk、Solr/ Lucene、ElasticSearch、Datameer、Bigsheets、Tinkerpop 。初创公司： Continuuity、Wibidata、Platfora 。

MapReduce ：“在传统的关系数据库的世界里，在信息被加载到存储器后，所有的数据处理工作才能开始，使用的是一门专用的基于高度结构化和优化过的数据结构的查询语言。这种方法由Google首创，并已被许多网络公司所采用，创建一个读取和写入任意文件格式的管道，中间的结果横跨多台计算机进行计算，以文件的形式在不同的阶段之间传送。“ 技术： Hadoop和Hive、Pig、Cascading、Cascalog、mrjob、Caffeine、S4、MapR、Acunu、Flume、Kafka、Azkaban、Oozie、Greenplum 。

自然语言处理：“自然语言处理(NLP)……重点是利用好凌乱的、由人类创造的文本并提取有意义的信息。” 技术：自然语言工具包Natural Language Toolkit、Apache OpenNLP、Boilerpipe、OpenCalais。

机器学习：“机器学习系统根据数据作出自动化决策。系统利用训练的信息来处理后续的数据点，自动生成类似于推荐或分组的输出结果。当你想把一次性的数据分析转化成生产服务的行为，而且这些行为在没有监督的情况下也能根据新的数据执行类似的动作，这些系统就显得特别有用。亚马逊的产品推荐功能就是这其中最著名的一项技术应用。“ 技术： WEKA、Mahout、scikits.learn、SkyTree 。

可视化：“要把数据的含义表达出来，一个最好的方法是从数据中提取出重要的组成部分，然后以图形的方式呈现出来。这样就可以让大家快速探索其中的规律而不是仅仅笼统的展示原始数值，并以此简洁地向最终用户展示易于理解的结果。随着Web技术的发展，静态图像甚至交互式对象都可以用于数据可视化的工作中，展示和探索之间的界限已经模糊。“ 技术： GraphViz、Processing、Protovis、Google Fusion Tables、Tableau 。

大数据的挑战

最近举行的世界经济论坛也在讨论大数据，会议确定了一些大数据应用的机会，但在数据共用的道路上仍有两个主要的问题和障碍。

1.隐私和安全

正如Craig & Ludloff在“隐私和大数据“的专题中所提到的，一个难以避免的危机正在形成，大数据将瓦解并冲击着我们生活的很多方面，这些方面包括私隐权、政府或国际法规、隐私权的安全性和商业化、市场营销和广告……试想一下欧盟的cookie法规，或是这样的一个简单情景，一个公司可以轻易地在社交网络上收集各种信息并建立完整的资料档案，这其中包括了人们详细的电子邮箱地址、姓名、地理位置、兴趣等等。这真是一件吓人的事情!

2.人力资本

麦肯锡全球研究所的报告显示，美国的数据人才的缺口非常大，还将需要140,000到190,000个有着“深度分析”专业技能的工作人员和1.500个精通数据的经理。寻找熟练的“网站分析”人力资源是一个挑战，另外，要培养自己的真正拥有分析技能的人员，需要学习的内容很多，这无疑是另一个大挑战。

大数据的价值创造

很多大数据的内容都提及了价值创造、竞争优势和生产率的提高。要利用大数据创造价值，主要有以下六种方式。

透明度：让利益相关人员都可以及时快速访问数据。实验：启用实验以发现需求，展示不同的变体并提升效果。随着越来越多的交易数据以数字形式存储，企业可以收集更准确、更详细的绩效数据。决策支持：使用自动化算法替换/支持人类决策，这可以改善决策，减少风险，并发掘被隐藏的但有价值的见解。创新：大数据有助于企业创造出新的产品和服务，或提升现有的产品和服务，发明新的商业模式或完善原来的商业模式。细分：更精细的种群细分，可以带来不同的自定义行为。

工业领域的增长：有了足够的和经过适当培训的人力资源，那些重要的成果才会成为现实并产生价值。

数据分析的机会领域

当“网站分析”发展到“数据智能“，毫无疑问，数据分析人员也工作也应该发生一些转变，过去的工作主要是以网站为中心并制定渠道的具体战术，而在将来则需要负责更具战略性的、面向业务和(大)数据专业知识的工作。

数据分析师的主要关注点不应该是较低层的基础设施和工具开发。以下几点是数据分析的机会领域：

处理：掌握正确的工具以便可以在不同条件下(不同的数据集、不同的业务环境等)进行高效的分析。目前网站分析专家们最常用的工具无疑是各类网站分析工具，大多数人并不熟悉商业智能和统计分析工具如Tableau、SAS、Cognos等的使用。拥有这些工具的专业技能将对数据分析人员的发展大有好处。

NLP：学习非结构化数据分析的专业技能，比如社交媒体、呼叫中心日志和邮件的数据多为非结构化数据。从数据处理的角度来看，在这个行业中我们的目标应该是确定和掌握一些最合适的分析方法和工具，无论是社会化媒体情感分析还是一些更复杂的平台。

可视化：掌握仪表板的展示技能，或者宽泛点来说，掌握数据可视化的技术是摆在数据分析师面前一个明显的机会(注：不要把数据可视化与现在网络营销中常用的“信息图”infographics相混淆)。

行动计划

在大数时代，其中一个最大的挑战将是满足需求和技术资源的供给。当前的“网站分析”的基础普遍并不足够成熟以支持真正的大数据的使用，填补技能差距，越来越多的“网站分析师”将成长为“数据分析师”。