cioreview.
CIOREVIEW>>认知 >>

机器思维

Ashish Bansal,高级总监,企业商家见解领先,首都一
Ashish Bansal,高级总监,企业商家见解领先,首都一

Ashish Bansal,高级总监,企业商家见解领先,首都一

机器学习和人工智能(AI)是今天最热门的术语。18新利app公司,大或小,正在追求如何在他们的方式或工作中融入机器学习和AI。虽然这有很多炒作,但重要的是要了解机器学习,以及如何智能地将其应用于企业中。应用机器学习智能地需要改进它的正确心理模型,并以正确的方式思考其适用性。简而言之,它需要机器思考。

什么是机器学习

Tom Mitchell在他的《机器学习》一书中给出了以下定义:

“据说一个计算机程序在某些类别的任务T和性能测量P中学习了来自体验E,如果它在T的任务的性能,通过P测量,通过经验E.”

换句话说,可以在机器学习类别中考虑通过执行更多任务来提高其执行的程序。让我们考虑一下查看信用卡交易并检测欺诈的程序。这可以构建为一组规则,依赖于交易金额,交易的位置,日期的时间等。这些的某些组合将被归类为欺诈。这些规则被人类分析到先前的模式的软件。该计划将交易分类为欺诈或不欺诈。但是,更多事务IT流程不会提高该算法的准确性。为了提高,需要执行离线分析,并且需要编码新规则,或者在算法之前修改的现有规则变得更好。

神经网络和深度学习目前正在占主导地位

在机器学习制度中,每个交易正确或错误地标识为欺诈导致算法的较小改进。因此,在处理大量和大量交易之后,该算法变得非常擅长检测欺诈。它还适应用于进行欺诈的技术。这种方法可能适用于许多类问题,例如在语言之间进行翻译,检测图像中的对象,诊断来自X射线的疾病,验证人的概况,估计房价等。如果有问题完成任务的经验应导致性能提高。不是每个问题都适合此描述

锤,指甲……

由此推论,并不是每个问题都是机器学习问题。使用基于规则的系统可以解决许多问题。例如,验证表单字段和所填数据的正确性可以简单地使用规则进行编码。

无论是否存在机器学习解决方案,机器思维都需要将传统的软件工程解决方法构建对问题的问题。至少,这提供了一种基线,即机器学习解决方案应该击败。此外,通过使用简单的算法(如线性或逻辑回归)在为随机林或神经网络/深度学习等更复杂的方法之前迭代机器学习解决方案。要记住的关键是复杂的机器学习算法应该为完成任务的准确性提供增量效益。

了解您的数据

近来有很多进展归因于深度学习。本领域今天取决于拥有大量数据可用于深度学习,有效地工作。并非所有问题和组织都有此类大数据集可供使用。数据科学状态是60-70%的时间都花在争吵数据上,以及30-40%的建模和调整时间。因此,在构建模型之前了解数据集是至关重要的。数据通常存在数据质量问题,不完整的集合,标签的不平衡或围绕数据分发。纠正这将需要清洁数据,抵消缺失值,并归一化偏斜。这是过程中的关键步骤,在从机器学习中获取值的过程中很重要。

如果使用的数据集很小,那么就需要特性工程。特征工程是一门从数据中提取潜在信息的艺术/科学,这样机器学习算法就可以使用它来学习。让我们举一个例子——考虑一个来自商店的零售事务的数据集。该数据集可能包含交易的日期时间戳、所购买产品的一组skus(库存单位)、商店ID、客户ID、交易的美元值以及其他字段。每个领域都有很多潜在的信息。考虑数据时间戳——它包含诸如星期几(简化场景中的星期日或周末)、事务时间(或日间部分,如上午、下午、晚上、晚上)、是否为公共假日等信息。如果客户是忠诚度计划的一部分,可能会显示客户ID。使用商店ID来获取商店的位置和客户地址,可以设计一个特性来计算客户进行此特定购买所经过的距离。这些特性可能对机器学习非常重要。这些特性可以由了解业务领域以及正在解决的问题的数据科学家提取。 Success of a machine learning initiative can often depend on feature engineering and understanding of the data.

深度学习和深思熟虑

神经网络和深度学习目前在电波中占主导地位。有人可能会觉得,如果不使用这些技巧,他们就会错失良机。让我们通过Kaggle 2017年数据科学和机器学习现状调查来了解这个观点:

此图表显示正在使用的前三种方法不是深度学习方法。最新的深度学习方法今天需要大量的数据来训练。在他们的深入学习账面上的Goodfellow等人提出:

截至2016年,一个粗略的经验法则是,一个有监督的深度学习算法在每个类别约5000个带标签的示例时通常可以达到可接受的性能,而在一个包含至少1000万个带标签示例的数据集训练时,它将与人类的性能匹配或超过人类的性能。

这里要注意的关键是每个类别。将任务转化为监督学习问题的能力,以及确保有足够的例子来训练深度学习算法是一项非常具有挑战性的任务。

机器思维

在应用最新算法中取得成功的关键是将问题施放为监督问题。监督学习是一类机器学习问题,其中所需输出是用输入数据已知的。例如,输入可以是图像,并且期望的输出是标签的“CAT”。这两者都需要进入深度学习网络,实际上是数千个,更有可能的成千上万的算法有效地学习和工作。短语这个问题的另一种方法是考虑形式对(a - > b)。B代表机器正在学习歧视的许多类型标签之一。在猫探测器的情况下,这些可能是两个可能的值(猫,而不是猫)。在训练期间,提供多个(A,B)对。训练算法后,通过输入表单(a,a,a),机器猜测正确的标签。

为了成功,开始将您的问题投入到监督的学习问题中。这通常是机器思维的努力部分。一旦您能够这样做,就很少阻止您建立惊人的机器学习解决方案和产品。

读也

健康的图片:为什么我们需要一个统一的方法来加入安全的航空旅行

健康图景:为什么我们需要统一应对新冠肺炎安全空气…

Brandon Balcom,创新业务发展高级总监,CWT
资产管理中的人工智能——超越炒作

资产管理中的人工智能——超越炒作

NN投资合作伙伴自动智能投资负责人Rani Piputi
如果你买不到独角兽,你如何创造一个独角兽?

如果你买不到独角兽,你如何创造一个独角兽?

Iacopo Ghisio, Gruppo MutuiOnline人工智能和机器学习部门负责人
释放您智能自动化(IA)倡议的全部潜力的策略

释放智能潜力的策略......

Adrian Iaiza,以前是流程自动化和改进,Tal Australia
智能驱动的商业:实现它

智能驱动的商业:实现它

Ramshanker Krishnan,SR.企业服务总监和数据和AI,微软