作者:Norman Niemer
翻译:李润嘉
校对:李洁
文章来源:微信公众号 数据派THU
本文约2000字,建议阅读10分钟。
本文为资深数据科学家常见的10个错误提供解决方案。
----
数据科学家是“比软件工程师更擅长统计学,比统计学家更擅长软件工程的人”。许多数据科学家都具有统计学背景,但是在软件工程方面的经验甚少。我是一名资深数据科学家,在Stackoverflow的python编程方面排名前1%,并与许多(初级)数据科学家共事。以下是我经常看到的10大常见错误,本文将为你相关解决方案:
- 不共享代码中引用的数据
- 对无法访问的路径进行硬编码
- 将代码与数据混合
- 在Git中和源码一起提交数据
- 编写函数而不是DAG
- 写for循环
- 不编写单元测试
- 不写代码说明文档
- 将数据保存为csv或pickle文件
- 使用jupyter notebook
1. 不共享代码中引用
继续阅读与本文标签相同的文章
-
独家 | kaggle季军新手笔记:利用fast.ai对油棕人工林图像进行快速分类(附代码)
2026-05-19栏目: 教程
-
GitHub火热!程序员小哥不得不知的所有定律法则(附项目链接)
2026-05-19栏目: 教程
-
独家 | 教你使用简单神经网络和LSTM进行时间序列预测(附代码)
2026-05-19栏目: 教程
-
独家 | 10个数据科学家常犯的编程错误(附解决方案)
2026-05-19栏目: 教程
-
JDK1.6 对 synchronized 的锁优化
2026-05-19栏目: 教程
