用哪个网站做首页比较好,球队世界排名榜,wordpress feed 关闭,四川省住房与城乡建设厅网站官网错误处理是软件开发中最困难且被忽略的部分之一#xff0c;如果系统是分布式的#xff0c;那么这将变得更加困难。 好的论文写在“ 简单测试可以预防最关键的故障” 主题上。 每个开发人员都应该阅读本文。 我将尝试总结本文的主要内容#xff0c;但建议阅读该论文以获取有… 错误处理是软件开发中最困难且被忽略的部分之一如果系统是分布式的那么这将变得更加困难。 好的论文写在“ 简单测试可以预防最关键的故障” 主题上。 每个开发人员都应该阅读本文。 我将尝试总结本文的主要内容但建议阅读该论文以获取有关它的更多详细信息。 分布式系统中断很常见最近的一些例子是 Youtube于2018年10月关闭约1小时以上 亚马逊在2018年7月的黄金交易日下跌 GoogleMapGmailYoutube等服务在2018年经历了无数次下滑 Facebook还面临着许多数据泄漏问题。 本文讨论了在分布式系统如CassandraHbaseHDFSRedisMap Reduce中发生的灾难性故障。 根据纸张大多数错误是由于2个原因引起的 –由于复杂的事件顺序而发生故障 –灾难性错误是由于处理不当造成的 –我将在我在“ 设计压力对工程团队”的帖子中写到第三篇关于“忽略设计压力”的文章 HBase中断示例 1 –负载平衡器从从站A到从站的传输区域R 2 –从站B的开放区域R 3 –主从属B拥有后删除当前的Zookeeper区域R 4 –从属B模具 5 –将区域R分配给从属C和从属C打开区域 6 – Master尝试删除Zookeeper上的Slave B znode并且由于错误的错误处理代码slave b关闭并且整个集群关闭。 在上面的示例中事件序列对于重现问题很重要。 当不复制块时HDFS失败。 在此示例中事件序列也是如此当新数据节点启动时它将暴露系统错误。 纸上还有更多例子。 错误的根本原因 92的灾难性错误是由于错误处理而发生的。 这意味着扣除了错误但错误处理代码却不好这听起来像您正在从事的许多项目 1 –错误被忽略 这是25失败的原因我认为在许多实时系统中这个数字会很高。 eg of such error
catch(RebootException e) {
log.info(Reboot occurred....)
} 是的此无害的日志语句忽略了异常是错误处理的非常常见的反模式。 2 –追赶异常 这也很常见例如具有通用的catch块并破坏整个系统 catch(Throwable e) {
cluster.abort()
} 3 –评论中的TODO / FIXME 是的生产中的实际分布式系统在代码的关键部分也有很多TODO / FIXME。 错误处理的其他示例 } catch (IOException e) { // will never happen }} catch (NoTransitionException e) { /* Why this can happen? Ask God not me. */ }try { tableLock.release(); } catch (IOException e) { LOG(Cant release lock”, e); } 4 –优先开发功能 我认为所有软件工程师都会同意。 这也称为技术债务我想不出比Knight Capital破产更好的例子了这是由于配置和实验代码所致。 结论 所有错误都是很复杂的但是重现更好的单元测试肯定会抓住这些错误这也表明在许多系统中进行的单元/集成测试并不是在测试诸如服务中断并再次返回以及如何影响系统的场景。 根据上面的示例看起来所有错误都是由于Java检查异常引起的但是在其他系统如C / C 中没有检查但未检查所有内容的情况却没有什么不同开发人员有责任在各个地方进行检查。 附带说明一下没有像Python这样的类型系统的语言使编写在运行时中断的代码变得非常容易并且如果您真的很不幸那么错误处理代码将出现类型错误并且将在生产中进行测试。 同样几乎所有产品都将具有一些静态代码工具findbugs集成但是这些工具并没有更加重视这种错误处理反模式。 链接到论文中提到的问题 HDFS MapReduce HBase的 雷迪斯 卡桑德拉 请分享您在生产系统中看到的更多反模式。 直到快乐的单元测试。 翻译自: https://www.javacodegeeks.com/2018/10/simple-testing-prevent-critical-failures.html