开源 Xatu 数据

EthPandaOps 开源了 Xatu 数据集,该数据集包含以太坊网络的丰富信息,包括信标链事件、Mempool 活动和规范链事件的详细数据。数据以 Apache Parquet 格式存储,并提供 Clickhouse 查询示例。EthPandaOps 鼓励社区利用这些数据进行研究、开发和优化。

Xatu 数据开源

以太坊基金会正在为 EIP4844 举办数据挑战赛!点击此处了解更多信息。

介绍

我们很高兴地宣布 EthPandaOps Xatu 数据集现已开源!

该数据集包含关于以太坊网络的丰富信息,包括信标链事件、内存池活动和规范链事件的详细数据。

概要:

  • 该数据根据 CC BY 4.0 许可协议授权给公共领域
  • 完整的 schema 可在此处找到
  • 数据按小时或天在 Apache Parquet 文件中进行分区
  • 我们已经发布了 Mainnet、Holesky 和 Sepolia 最近 60 天的数据
    • 我们将在接下来的几周内发布我们拥有的 Mainnet 的所有数据——这只是大量数据!
    • 测试网将发布最近 90 天的数据
    • 查看此处了解详细的数据可用性
  • 我们将继续更新包含新数据的表,并添加新表

为什么我们要开源数据?

我们的目标是帮助研究人员、开发者和爱好者深入探索以太坊网络,并为其持续发展做出贡献。我们认为,开放获取高质量数据对于以太坊生态系统的成功至关重要。

通过公开这些数据,我们希望促进对以太坊网络的更深入理解,并推动协议开发、监控和性能优化等领域的进步。

什么是 Xatu?

Xatu 是一个用于从以太坊网络的各种组件收集数据的工具,我们已经构建了一段时间。自 2022 年 12 月首次发布以来,我们一直在内部运行 Xatu,通过将数据存储在 Clickhouse 中来监控以太坊网络。

在内部,我们将其用于监控、分析和事件响应。值得注意的是,它被用于 2023 年 Goerli/Mainnet 上的 Big Blocks Test,以帮助确定 EIP4844 Blob 参数。它也是分析 Dencun 如何通过 Devnets -> Testnets -> Mainnet 的分叉生命周期执行的首选工具。

数据集包含什么?

Xatu 在很多方面都有涉猎,因此我们将数据分为几种不同的类型。查看此处了解完整的 schema 和数据可用性日期范围。

信标 API 事件

已发布最近 60 天的数据

这些事件源于 Beacon API Event Stream,通过来自多个区域和网络中所有共识客户端的 Xatu Sentry 获取。所有事件都使用额外的数据进行注释,以帮助进行分析。例如,attestation 事件包含有关何时看到证明的信息,甚至还包含证明的 validator_index主网数据从 2023 年 6 月开始存在。

  • 超过 6500 亿个 attestation 事件

    • 6TiB 压缩,300TiB 未压缩 😲
  • 超过 5000 万个 block 事件
  • 超过 5000 万个 blob_sidecar 事件
  • 还有更多!

内存池事件

即将发布 tm

这些事件源于连接到执行 p2p 网络的 Xatu Mimicry。我们将在未来几天内发布这些事件。主网数据从 2023 年 3 月开始存在。

  • 超过 30 亿个 transaction 事件

规范事件

即将发布 tm

我们还从最终确定的链中派生出事件,我们称之为 canonical 事件。主网数据从 2020 年 12 月信标链创世开始存在。

Beacon API EventsMempool Events 相比,这些事件对于分析特别有用。例如,比较在网络上看到证明的时间与将其包含在信标区块中的时间,或者比较首次在内存池中看到交易的时间与将其包含在区块中的时间。我们将在未来几周内发布这些事件。

如何使用数据?

数据存储在 Apache Parquet 文件中,这是一种专栏存储格式,经过高度优化以进行分析。你可以使用各种工具(包括 Python 和 Clickhouse)读取这些文件。查看 repo 了解有关如何开始的更多信息。

Clickhouse

使用 Clickhouse 是最简单的入门方法。你可以使用 clickhouse client 直接从 Parquet 文件查询数据。查看 Clickhouse 文档 进行设置。

直接查询

要查询 2024 年 3 月 20 日 Sepolia 中第 13 个小时的所有证明事件,你可以使用以下查询:

查询

SELECT COUNT(*)
FROM
    url('https://data.ethpandaops.io/xatu/sepolia/databases/default/beacon_api_eth_v1_events_attestation/2024/2/20/13.parquet', 'Parquet')

直接从 Clickhouse 查询 Parquet

插入数据

你还可以将数据插入到 Clickhouse 数据库中,以便更轻松地查询它。对于较大的查询,强烈建议这样做。

查询

INSERT INTO default.beacon_api_eth_v1_events_attestation
SELECT *
FROM url('https://data.ethpandaops.io/xatu/sepolia/databases/default/beacon_api_eth_v1_events_attestation/2024/2/20/13.parquet', 'Parquet')

直接插入到 Clickhouse 中

Globbing

Clickhouse 支持 globbing,因此你可以一次查询多个 Parquet 文件。例如,要计算 2024 年 3 月 20 日 Sepolia 中一整天的证明事件,你可以使用以下查询:

查询

SELECT COUNT(*)
FROM
    url('https://data.ethpandaops.io/xatu/sepolia/databases/default/beacon_api_eth_v1_events_attestation/2024/2/20/{0..23}.parquet', 'Parquet')

使用 globbing 直接从 Clickhouse 查询 Parquet

结论

我们迫不及待地想看看社区如何使用这些数据!如果你想出了一些东西,请告诉我们!我们很乐意听到。如果你有任何疑问,请随时在 Twitter 上联系我们。如果你发现任何问题,请在 repo 上提出问题。

查询愉快,别忘了以太坊基金会举办的 Data Challenge

爱,

EthPandaOps 团队 ❤️

  • 原文链接: ethpandaops.io/posts/ope...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
EthPandaOps
EthPandaOps
https://ethpandaops.io