南京网站建设制作,wordpress 英文 企业网站模板,ueditor 插件wordpress,郸城建设银行网站Kaggle 是一个流行的数据科学竞赛平台#xff0c;已被谷歌收购#xff0c;参阅《业界 | 谷歌云官方正式宣布收购数据科学社区 Kaggle》。作为一个竞赛平台#xff0c;Kaggle 对于初学者来说可能有些难度。毕竟其中的一些竞赛有高达 100 万美元的奖金池和数百位参赛者。顶级的…Kaggle 是一个流行的数据科学竞赛平台已被谷歌收购参阅《业界 | 谷歌云官方正式宣布收购数据科学社区 Kaggle》。作为一个竞赛平台Kaggle 对于初学者来说可能有些难度。毕竟其中的一些竞赛有高达 100 万美元的奖金池和数百位参赛者。顶级的团队在处理机场安全提升或卫星数据分析等任务上拥有数十年积累的经验。为了帮助初学者入门 KaggleEliteDataScience 近日发表了一篇入门介绍文章解答了一些初学者最常遇到的问题。机器之心对这篇文章进行了编译介绍另外也增加了一些机器之心之前发过的文章作为补充资源。 一些初学者会犹豫要不要参加 Kaggle 竞赛这并不让人奇怪他们通常有以下顾虑 我该如何开始我要和经验丰富的博士研究者比赛吗如果没有获胜的机会还值得参与吗这就是数据科学吗如果我在 Kaggle 上表现不好我在数据科学领域还有希望吗未来我该如何提升我的排名如果你有其中任何问题你就看对了文章。在这篇指南中我们会解读上手 Kaggle、提升技能和享受 Kaggle 所需要了解的一切。 Kaggle vs.「经典的」数据科学 首先我们要清楚了解 Kaggle 竞赛和「经典的」数据科学有一些重要的不同之处但只要你以正确的心态接触它就也能收获有价值的经验。 让我们解释一下 Kaggle 竞赛 本质上带有奖金池的竞赛必须满足一些标准 问题必须困难竞赛不应该是一个下午就能解决的任务。为了得到最好的投资回报主办公司会提交他们最大最难的问题。解决方案必须新要赢得最新的竞赛你通常需要进行扩展研究、定制算法、训练先进的模型等等。表现必须能比较竞赛必须要决出优胜者所以你和其他对手的解决方案必须要被评分。 「经典的」数据科学 相对而言日常所用的数据科学并不需要满足这些标准。 问题可能简单。实际上数据科学家应该尽力确认易于实现的成果可以快速解决的富有成效的项目。解决方案可以是成熟的。大多数常见任务比如探索分析、数据清理、A/B 测试、经典算法都已经有了已得到证明的框架。没必要重新发明轮子。表现可以是绝对的。即使一个解决方案只是简单地超越了之前的基准那也非常有价值。Kaggle 竞赛鼓励你竭尽所能而经典数据科学则推崇效率和最大化的业务效果。 Kaggle 竞赛值得参加吗 尽管 Kaggle 和经典数据科学之间存在差异但 Kaggle 仍然是一种很好的入门工具。 每个竞赛都是独立的。无需设置项目范围然后收集数据这让你有时间专注其它技能。 练习就是实践。学习数据科学的最好方法是在做中学。只要没有每场竞赛都获胜的压力你就可以练习各种有趣的问题。 讨论和获胜者采访很有启发性。每个竞赛都有自己的讨论板块与获胜者简报。你可以窥见更有经验的数据科学家的思考过程。 Kaggle 获胜者采访 怎样入门 Kaggle 接下来我们将给出一个按步进行的行动规划然后慢慢上升到 Kaggle 竞赛中。 第一步选择一种编程语言 首先我们推荐你选择一种编程语言并坚持使用。Python 和 R 在 Kaggle 和更广泛的数据科学社区上都很流行。 如果你是一个毫无经验的新手我们推荐 Python因为这是一种通用编程语言你可以在整个流程中都使用它。 参考 数据科学领域 R vs Pythonhttp://elitedatascience.com/r-vs-python-for-data-science如何为数据科学学习 Pythonhttp://elitedatascience.com/learn-python-for-data-science 深度 | R vs PythonR 是现在最好的数据科学语言吗业界 | 超越 RPython 成为最受欢迎的机器学习语言 第二步学习探索数据的基础 加载、浏览和绘制你的数据即探索性分析的能力是数据科学的第一步因为它可以为你将在模型训练过程中做的各种决策提供信息。 如果你选择了 Python 路线那么我们推荐你使用专门为这个目的设计的 Seaborn 库。其中有高层面的绘图函数可以绘制许多最常见和有用的图表。 参考 Seaborn 库https://seaborn.pydata.org/Python Seaborn 教程http://elitedatascience.com/python-seaborn-tutorial 资源 | 2017 年最流行的 15 个数据科学 Python 库 第三步训练你的第一个机器学习模型 在进入 Kaggle 之前我们推荐你先在更简单更容易管理的数据集上训练一个模型。这能让你熟悉机器学习库为以后的工作做铺垫。 关键在于培养良好的习惯比如将你的数据集分成独立的训练集和测试集交叉验证避免过拟合以及使用合适的表现评价指标。 对于 Python最好的通用机器学习库是 Scikit-Learn。 参考 Scikit-Learn 库http://scikit-learn.org/stable/Python Scikit-Learn 教程http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn7 天应用机器学习速成课http://elitedatascience.com/只需十四步从零开始掌握 Python 机器学习附资源教程 | Kaggle CTO Ben Hamner 机器学习的八个步骤 第四步解决入门级竞赛 现在我们已经准备好尝试 Kaggle 竞赛了这些竞赛分成几个类别。最常见的类别是 Featured这些通常是由公司、组织甚至政府赞助的奖金池最大。Research这些是研究方向的竞赛只有很少或没有奖金。它们也有非传统的提交流程。Recruitment这些是由想要招聘数据科学家的公司赞助的。目前仍然相对少见。Getting Started这些竞赛的结构和 Featured 竞赛类似但没有奖金。它们有更简单的数据集、大量教程和滚动的提交窗口让你可以随时输入。Getting Started 竞赛非常适合初学者因为它们给你提供了低风险的学习环境并且还有很多社区创造的教程https://www.kaggle.com/c/titanic#tutorials 第五步比赛是为了更好地学习而不是赚钱 有了上面的基础就可以参与到 Featured 竞赛中了。一般来说为了取得好排名通常需要远远更多的时间和精力。 因此我们建议你明智地选择参与项目。参加竞赛能帮你深入到你希望长期参与的技术领域中。 尽管奖金很诱人但更有价值也更可靠的回报是为你的未来事业所获得的技能。 享受 Kaggle 的小诀窍 最后我们将介绍几个参与 Kaggle 的最受欢迎的诀窍希望能帮你享受你的 Kaggle 时光。 诀窍 1设置循序渐进的目标 如果你曾经玩过什么让人上瘾的游戏你就知道循序渐进的目标的重要性。那就是好游戏让人着迷的诀窍。每一个目标都要足够大以便带来成就感但也不能太大不然无法实现。 大多数 Kaggle 参与者都没赢过任何一场竞赛这完全正常。如果把获胜作为第一个里程碑你可能会失望尝试几次之后可能就会失去动力。循序渐进的目标会让你的旅程更加愉快。比如 提交一个超越基准解决方案的方案 在一场竞赛中进入排名前 50%在一场竞赛中进入排名前 25%在三场竞赛中进入排名前 25%在一场竞赛中进入排名前 10%赢得一场竞赛这种策略让你可以一路衡量你的进展和进步。 诀窍 2查阅得票最多的 kernel Kaggle 有一个非常厉害的功能参与者可以提交 kernel即用于探索一个概念、展示一种技术或分享一种解决方案的短脚本。 当你开始一场竞赛或感觉进步停滞时查阅受欢迎的 kernel 或许能给你带来灵感。 诀窍 3在论坛中提问 不要害怕问「愚蠢的」问题。 提问能遇到的最糟糕的事情是什么也许你会被忽视……仅此而已。 另一方面你能得到很多回报包括来自经验更丰富的数据科学家的建议和指导。 诀窍 4独立发展核心技能 开始的时候我们建议你独自工作。这将迫使你解决应用性机器学习流程中的每一步包括探索性分析、数据清理、特征工程和模型训练。 如果过早地和人组队你就可能会错失发展这些基本技能的机会。 诀窍 5组队以拓展你的极限 虽然太早组队不好但在未来的比赛中组队让你能向其他人学习进而拓展你的极限。过去的许多获胜者都是团队这让他们可以结合彼此的知识共同施展力量。 此外一旦你掌握了机器学习的技术技能你就可以与其他可能比你有更多领域知识的人合作进一步扩展你的机遇。 诀窍 6记住 Kaggle 可以成为你的垫脚石 记住你不一定要成为一个长期的 Kaggle 人。如果发现你不喜欢这种形式也没什么大不了的。 实际上许多人在做自己的项目或成为全职数据科学家之前都会使用 Kaggle 作为自己的垫脚石。 所以你的关注重点应该是尽可能地学习。长远来看参与能给你带来相关经验的竞赛比参加有最高奖金的竞赛更好。 诀窍 7不要担心排名低 有些初学者担心低排名出现在他们的个人资料中结果一直没有开始。当然比赛焦虑是很正常的现象并不只限于 Kaggle。 但是排名低真的没什么关系。没人会因此贬低你因为他们曾经某个时候也是初学者。 即便如此如果仍然担心个人资料里的低排名你可以再单独创建一个练习账号。一旦觉得自己能力不错了就可以开始用你的「主帐号」来建立丰功伟绩了。再说一下这么做毫无必要 结论 在这篇指南中我们分享了上手 Kaggle 的 5 大步骤 选择一种编程语言学习探索数据的基础训练第一个机器学习模型解决入门级竞赛比赛是为了更好地学习而不是赚钱最后我们分享了享受这个平台的 7 个诀窍 设置循序渐进的目标查阅得票最多的 kernel在论坛中提问独立发展核心技能组队以拓展你的极限记住 Kaggle 可以成为你的垫脚石不要担心排名低原文链接https://elitedatascience.com/beginner-kaggle转载于:https://www.cnblogs.com/invisible2/p/10651602.html