机器学习的挑战:开始之前要了解的知识
时间: 2019-11-28来源: Sherry Tiao
机器学习的回报是众所周知的,它可能会让您想现在就开始。然而,与此同时,在开始自己的项目之前,您应该考虑一下机器学习的挑战。
这篇文章并不是要吓跑您,相反,这样做是为了确保您做好了准备,并在开始之前仔细考虑所需注意的事项。
本文据与Oracle信息管理平台团队的数据科学家Brian MacDonald访谈,他谈到了他所看到的陷阱,以及公司可以采取哪些措施来避免这些陷阱。
这些机器学习的挑战包括:
• 解决技能差距
• 知道如何管理您的数据
• 数据运作
1. 解决机器学习技能的差距
当然,较大的困难是在大数据环境中使用机器学习的技能差距。有一群人认为大数据让生活更美好,而且很容易上手。
您将发现较大的挑战是找到合适的人。机器学习的人才需求量很大,可供选择的人才很少。但获得高管的支持是实现这一目标的关键。如果您有高层管理人员的支持,那么您还将获得寻找和招募这些宝贵人才的资金。
这是要考虑的事情:如果您处于一种由于经验丰富的数据科学家很昂贵而对成本非常敏感的情况,那么你可能没有足够大的商业问题来让机器学习变得值得去做。
假设一位经验丰富的数据科学家要花费您公司3-40万美元(包括所有的福利和奖励)。如果该人不能帮助您解决每年至少价值一百万美元的问题,那么您可能不需要他。对吗?
另一方面,如果您真的相信这个人(或团队)可以帮助您解决数千万的问题,那么您还在等什么呢?
很难找到人。但如果这对您的公司真的很重要,您可以找到他们。
这里还有一个需要考虑的问题:工具和软件。当然,有一些工具会有所帮助,但您很难立即找到您需要的:准确的、完美的、开箱即用的机器学习工具。您必须考虑将要使用的工具。
Python, R, SQL, TensorFlow…如果您使用它们,它们将如何与您的数据湖一起工作?您将如何处理可能带来挑战的设置和配置?开始之前请仔细考虑所有细节,并确保您有足够的资金。
2.知道如何管理大数据
机器学习是一个混乱的过程。仅仅拥有一个大数据平台并不意味着它会变得更容易。事实上,这可能会使它变得更混乱,因为您将拥有更多的数据。这些数据使您能够做更多的工作,但这也意味着必须完成更多的数据准备工作。
你必须全盘考虑如何处理这个问题。以下是一些需要思考的问题:
• 您的数据来自哪里?
• 您打算怎样处理这个问题?
• 您希望如何处理数据准备工作?
• 完成后,您将如何构建模型并实现所有操作?
如果您还没有一个好的BI实践或分析实践,如果您还没有以您能想到的所有方式使用数据,那么跳到机器学习将是一个真正的挑战。已经有数据驱动的决策绝对至关重要。如果您还没有,我们建议您在开始机器学习之前就做好了准备。
如果您决定开始,那么这里还有其他一些注意事项。在开始之前,请仔细考虑它们:
快速变化:在机器学习的世界里,创新来的很快,这意味着快速的变化。今天的好东西明天可能就不那么好了,而且你不能总是依赖软件,因为它是一个更不稳定的空间。不同的版本和冲突可能会带来更多的问题。
庞大的数据量:借助机器学习,您将不得不处理大量数据以及许多不同类型的数据。了解您是否使用所有这些信息,过程,是否采样等都是挑战,尤其是当您深入了解数据并处理数据移动时。
确保您已准备好应对挑战,并制定了计划。
3.大数据的运作
大多数数据科学家面临的较大问题是什么?是数据的运作。
假设您已经建立了一个模型,它可以预测导致客户流失的因素。您如何把这个模型推广给那些能影响这些数字的人?您如何将其导入CRM系统或移动应用?
如果您拥有可以预测设备故障的模型,那么如何及时将其告知操作员以防止发生故障?建立模型并使之可行具有许多挑战。对于当今的数据科学家来说,这可能是较大的技术挑战。
您可以建立世界上非常漂亮的模型。但是,您的管理层真的会真正在意这是否会对公司的利润产生影响吗?您可能认为您的部分交易只是提供数据。但事实并非如此。您必须确保实际使用您的数据,获得主管的支持对此很有帮助。
因此,机器学习并不是很容易。但这可以成就大事。为了激发您的灵感并提醒您可行的方法,我们分享了一个真实的客户示例及其机器学习项目。
现实生活中的机器学习和大数据示例
该公司是美国较大的无线语音和数据通信服务提供商。
业务挑战:
• 信用风险:他们通过融资部门进行的设备租赁和贷款项目每年都要冲销大量坏账。他们希望减少坏账和违约,这将大大增加他们每年数以百万计的利润。此外,影响未决收款的能力将更大地帮助现金流。
• 客户体验和个性化:客户流失使公司每年损失数百万美元。通过个性化和细分,尽早识别和定位潜在的客户流失和新的高价值客户,可以显著增加新用户的数量,并减少客户流失率。
• 运营效率:该公司通过网络优化和数据货币化来寻求有针对性的营销和营销活动有效性。
技术挑战:
• 该电信公司希望更早地检测欺诈活动,并集成来自多个结构化和非结构化数据源的数据,以改进客户评分。这将使公司能够提供定制的报价,并降低风险。
• 他们还希望能够存储和分析大量的客户数据,以帮助企业发展更好的能力来细分客户并预测其个性化报价的行为。
• 他们试图通过新的假设分析来优化定价。
为了实现这一目标,公司购买了包括多种大数据产品。
解决技能差距,管理数据并对其进行运作是尝试机器学习技术需要解决的挑战,但可以解决,且结果令人惊喜的。