手机版
扫描查看手机站

探索性数据分析:决定人工智能与机器学习效果的第一步

来源:互联网/编辑:IT世界网/时间:2021-12-10

在手机上看

扫一扫进入手机端

低数据质量正在严重损害人工智能(AI)和机器学习(ML)技术的实际性能。这个问题困扰着不同规模的企业,从小型初创企业到像谷歌这样的科技巨头。但是为什么数据质量总是不可靠呢?人为因素可能是关键。

如今,企业拥有的数据比以往任何时候都多,但仍然很难将这些数据转化为实际价值。AI和ML带来的自动化功能被广泛认为是解决真实数据复杂问题的有效手段。许多公司都渴望利用它们来提升业务。然而,这股热潮本身也造成了大量上游数据分析项目的匆忙上马。

探索性数据分析:决定人工智能与机器学习效果的第一步

自动管道构建完成后,算法已经能够完成大部分工作,几乎不需要更新数据采集流程。但是,请注意,管道的完成并不意味着它可以永远运行。我们需要随着时间的推移不断探索和分析底层数据,并注意哪些漂移模式正在侵蚀管道性能。

好消息是,数据团队完全有能力降低这种侵蚀风险,但代价是必要的时间和精力。为了保持自动化管道的执行效率,我们必须定期进行探索性数据分析(EDA),以确保整个系统始终准确运行。

探索性数据分析是什么?

EDA是成功实现AI和ML的第一步。在分析算法本体之前,我们首先需要了解数据内容。数据质量将最终决定下游分析管道的实际效果。在它正常工作后,EDA将帮助用户识别数据中不必要的模式和噪声,同时指导企业更准确地选择合适的算法。

在EDA阶段,我们需要主动查询数据,确保行为模式符合预期。首先从以下十个需要综合分析的重要问题入手:

1.你有足够的数据点吗?

2.数据中心和离散测量是否符合预期?

3.有多少数据点质量好,可以用于实际分析?

4.是否有任何缺失值?这些坏值是否构成数据的重要部分?

5.数据的经验分布是怎样的?数据是否符合正态分布?

6.数值中是否有特殊的聚类或分组?

7.有没有异常值?如何处理这些异常值?

8.不同维度之间是否存在相关性?

9.是否有必要通过重新格式化等方式转换数据进行下游分析解释?

10.如果数据是高维形式,是否可以在不丢失太多信息的情况下降维?有些维度是噪音吗?

这些问题会导致更多的问题。这不是一个完整的问题列表,只是思考的开始。最后,希望大家能够对现有的数据模式建立更好的理解,然后正确处理数据,选择最适合的处理算法。

底层数据是不断变化的,这就要求我们在EDA中引入更多的时间来保证算法接收到的输入特性始终稳定。例如,Airbnb发现数据科学家在模型开发周期中有近70%的时间都花在了数据收集和特征工程上,并通过大量分析确定了数据结构和模式。总之,如果不花时间去了解这些数据,那么AI和ML的计划就会很容易失控。

唯一不变的,只有变化

目前,数字服务最重要的应用集中在网络安全和欺诈检测方面,这部分市场的总价值已经超过300亿美元。预计到2030年,总市值有望突破千亿美元。尽管亚马逊欺诈检测器和贝宝欺诈管理过滤器等工具已经在打击在线欺诈中发挥了作用,但欺诈检测中唯一不变的是变化本身。企业需要不断为新的欺诈做准备,欺诈者也在努力“创新”,以确保自己的攻击能力。

每一种新类型的欺诈通常都包含前所未有的数据模式。比如注册交易时,新用户往往对应的是AI系统从未见过的邮政编码。虽然新用户可能来自四面八方,但如果注册的地方真的很少,我们最好保持警惕。

这种计算最困难的部分是让AI模型准确区分欺诈交易和正常交易。作为数据科学家,我们需要引导底层算法了解正常交易和欺诈交易的特征,进而探索更多的欺诈检测方式。随访研究离不开统计技术检索的大量数据。用户可以分析客户群体,确定普通客户和诈骗者的区别。之后提取有助于准确分类的信息,包括注册信息、交易内容、客户年龄、收入水平、姓名等。需要注意的是,将正常交易标记为欺诈行为往往比欺诈本身对客户体验和产品声誉造成更大的损害。

更有趣的是,EDA是一个需要在整个产品生命周期中不断重复的过程。新的欺诈活动必须符合新的数据模型。最后,企业需要投入大量的时间和精力来推广EDA,以保持最佳的欺诈检测能力,维持AI和ML管道的正常运行。

总之,AI和ML的成功来自于对数据的深刻理解,而不是大量算法的盲目堆砌。

AI和ML管道应该适应数据,不要指望数据适应用户现有的管道。只有满足这些条件,AI和ML支持的新业务才有望勇往直前,一路向前。

IT世界网 www.hnce.org 版权所有 豫ICP备10007855号-1

IT世界网游戏下载基地温馨提示:适度游戏娱乐,沉迷游戏伤身,合理安排时间,享受健康生活

免责声明:本站部分内容、图片来自于网络及其他公共渠道,内容仅供参考。版权归原作者所有,如涉及作品内容、版权和其它问题,请发邮件通知我们,我们将在第一时间处理。