一个Ceph博客

Ceph的博客故事在世界各地提供客户高层次的射灯

2020年4月28日

公共遥测仪表板

这是我们的荣幸地宣布即将上市基于数据的仪表盘通过头孢的遥测功能报告

通过集群使用Ceph的版本中,守护加权,随着时间的推移

与Ceph的模仿,头孢遥测选择在发送汇总后,如何被下使用,并部署到Ceph的基金会的社区基础设施Ceph的匿名统计介绍CDLA-1.0共享

新的仪表板,Yaarit Hatuka,丹米克,和Lars Marowsky-BREE的礼貌,让社会能够迅速看到许多簇是如何报告,其总容量和OSD数和版本分布趋势汇总统计。

互动和动态图形版本允许只显示主要版本或分割出小版本;他们还可以通过主要或次要版本和守护型(目前只MON或OSD)进行过滤。

比赛地图允许洞察簇大小和OSD数的分布如何随时间变化:

整个页面是专门为展示不同比例的四分位分布如何变化;or in simpler terms, if you have ever wondered what the median OSD (storage device) size in a cluster above 1 PiB is, or whether your cluster capacity would place you into the top 25% of all clusters worldwide, we’ve got the data for you:

容量四分位数随着时间的推移

要允许不同的报告间隔或瞬时传送的问题,该图显示的七天移动平均值。

请继续探索!

单个集群x射线

此外,Ceph的簇的管理员也可以使用个别群集面板并查看已收到给定群的报告:

这需要知道REPORT_ID集群,作为在世界遥测集群的唯一集群ID的。这是本地群集上产生的不可猜测128bit的随机标识符,并且可以与被视为CEPH遥测展示|grep的REPORT_ID。(您也可以,如果你想撇清簇的历史重置此标识符。)

管理员可以因此容易地验证群集是否已经在使遥测后报告发送,查看高级别aggegrate统计,并在数据库中甚至完全以前的报告。作为管理员,你会发现这个更新住你的集群中的每个发送报告。

如何从用户受益遥测

了解Ceph的是如何使用的是了解哪些地方需要集中我们的努力并优先考虑新的功能,以及评估的任何潜在问题的影响是至关重要的。

它确保您的头孢的使用是已知的社区,和您的需求都包括在做出每一个决定。虽然我们经营的年度调查,调查数据很容易出现拼写错误和,被铭记你的时间,我们不可能要求所有的次要细节的问题经常,因为我们想。因此,调查仍进行定性分析和交叉验证的优秀工具,但遥测补充他们用活,自动化,详细数据。

从遥测见解也已经帮助我们找出我们的文档中的错误以及在代码中的bug。这是用大熊猫的遥测数据集的探索讨论了Ceph的遥测用户,以及带来的好处。

除了你能够查看通过仪表板的X射线特征的遥测数据,你也可以选择分享REPORT_ID与您所选择的技术支持工程师,让他们访问群集的历史,并提供更有力的支持。

对于这是最有效的,在Ceph的遥测数据库需要成长为代表;我们可以从低簇数今天报告的看到,这是没有。

所以,请考虑通过使之在你的集群在CEPH遥测

上的配置的更多细节(例如,使用它后面的代理服务器)也可在文档中

未来路线图

因为我们的工作,进一步分析数据,我们将开始在一个透明和互动的方式回答有关数据集更复杂的问题。(如在此使用探索大熊猫。)

这将包括系统的可靠性和崩溃的微量分析,并且还器件的可靠性数据。我们都将提高我们的仪表板的质量和数量以及数据报告。

有些人可能要启用Ceph的遥测,但不能因为一个HTTPS端点 - 甚至通过代理 - 不是从群集访问。我们正在研究替代的运输使之成为可能。而且,由于理解的部署是映射安全升级路径特别有用,增强Ceph的遥测是反向移植候选人。

一个Ceph控制板用于管理单个群集将进一步提高配置,审核,和参考遥测数据。

请放心,数据隐私是我们心中的顶部;要包含任何非平凡的bug修正,尤其是新的指标才会生效,如果你重新确认您的选择项。

保持联系

请随时通过与我们联系,我们#ceph IRC频道,或通过我们的头孢用户邮件列表!我们期待着您的反馈和想法。

结论

我们希望这个证明是有用的,并鼓励更多的管理人员,使他们的集群功能,并希望看到参与Ceph的集群迅速成长的数字!

拉尔斯Marowsky-BREE

招聘