假设你是一个数据分析师,刚刚接触到web3,开始组建你的web3分析团队,或者只是对web3数据感兴趣。无论如何,你应该大致熟悉web2中的APIS。数据库。转换和模型。
在这个新指南中,我将尽可能简要地阐述我的三个观点:
思考:为什么开放的数据渠道会改变数据的有效性。
工具:web3数据栈中的工具概述,以及如何使用它们。
团队:web3数据团队的基本考虑和技能。
数据思考
让我们总结一下如何构建web2。查询和访问数据(即访问twiter的API)。简化数据渠道有四个步骤:
触发API事件(一些推文)
更新到数据库(连接到现有用户模型/状态变化)
具体产品/分析用例的数据转换。
模型训练和部署(用于管理您的Twiterfeed)
当数据是开源的时候,唯一需要的步骤就是转换完成。Kagle(1000个数据科学/特征工程竞赛)和hugsface(2.6万个顶级NLP模型)等社区使用一些公共数据子集帮助企业建立更好的模型。在一些特定的领域,比如在前三个步骤中打开数据的开放街道地图,但仍然受到写作权限的限制。
我想说的是,我只是在这里谈论数据。我不是说web2根本没有开源。和大多数其他工程角色一样,web2数据有大量的开源工具来构建他们的管道(dbt.apache.tensorflow)。我们仍然在web3中使用所有这些工具。简而言之,他们的工具是开放的,但他们的数据是封闭的。
Web3还开源数据,这意味着不仅数据科学家在开放环境中工作,而且分析工程师和数据工程师也在开放环境中工作!每个人都参与了一个更连续的工作过程,而不是几乎黑盒子的数据循环。
数据分析
从web2数据坝到web3数据河,三角洲和海洋。同样重要的是,生态系统中的所有产品都受到这一循环的影响。
让我们来看看web3分析师如何一起工作的例子。数十家交易所使用不同的交易机制和成本,允许您将代币A交换为代币B。如果这些是典型的交易所,如纳斯达克,每个交易所将在10k或一些API上报告其数据,然后将所有交换数据放在一起,如CAPIQ,您访问他们的API。也许有时他们会举办创新竞赛,这样他们将来就可以收集额外的数据/图表功能。
在web3交易所,我们有这样的数据流:
dex.trades是dune上的表(由很多社区分析师随着时间的推移组织),所有dex交换数据都聚集在一起,可以轻松在所有交易所搜索单个代币的交易量。
一位数据分析师通过社区开源查询创建了一个仪表板,所以现在我们对整个DEX行业有了一个公开的概述。即使所有的查询似乎都是由一个人写的,你也可以猜测,经过大量的争论,它们是准确在一起的。
DAO科学家检查仪表板,并开始在自己的查询中分割数据,以查看特定的正确性,如稳定货币。他们观察用户的行为和商业模式,然后开始建立假设。由于科学家可以看到哪些DEX在交易量中占有更大的份额,他们将提出一个新的模型,并建议改变治理参数,以便在链上投票和执行。
之后,我们可以随时查看公众查询/仪表板,看看如何创造更具竞争力的产品。
在未来,如果另一个DEX出现(或升级到新版本),此过程将重复。有些人会创建插入查询来更新表格。这将反映在所有仪表板和模型上(没有人必须回去手动修理/更改任何东西)。任何其他分析师/科学家都可以根据他人完成工作。
因为共享生态系统。讨论合作和学习发生在一个更紧密的反馈周期中。我承认这有时是无法忍受的,我认识的分析师基本上都在轮换数据。然而,只要我们中的一个继续推广数据(例如,有人创建了插入DEX查询),其他人就会受益。
它并不总是一个复杂的抽象视图,有时它只是一个实用的功能,如搜索ENS反向分析器或工具的改进,如自动生成大多数GraphQL映射和CLI命令!所有这些都可以重用,API可以用于某些产品的前端或你自己的个人交易模型。
虽然在这里打开的可能性惊人,但我承认车轮运行不顺畅。与数据工程相比,数据分析师/科学领域的生态系统仍然非常不成熟。我认为有以下原因:
数据工程是web3多年来的核心焦点,从客户端RPCAPI到基本SQL/graphQL聚合。像thegraph和dune这样的产品就是他们在这方面努力的例子。
对于分析师来说,很难理解web3独特的跨协议关系表。例如,分析师可以理解如何只分析Uniswap,但很难将聚合物、其他DEXS和不同类型的代币添加到混合物中。最重要的是,这些工具直到去年才真正实现。数据科学家通常习惯于收集原始数据并独自完成所有工作(建立自己的管道)。我认为他们不习惯在开发初期与分析师和工程师如此密切和开放的合作。就我个人而言,这需要一段时间。
除了学习如何合作,web3数据社区还在学习如何跨越这个新的数据堆栈。您不再需要控制基础设施,或者从excel慢慢建立到数据池或数据仓库。只要您的产品在线,您的数据将在任何地方发布。您的团队基本上被扔进了数据基础设施的最深处。
数据工具
以下是一些数据工具的总结:
数据分析
让我们来看看每一种类型和用法:
交互+数据源:这主要用于前端。钱包和低级数据摄入。
客户端:虽然以太坊的底部相同,但每个客户端都有不同的额外特征。例如,Erigon对数据存储/同步进行了大量优化,Quorum支持隐私链。
节点是服务:您不必选择运行哪个客户端,但使用这些服务将节省维护节点和API正常运行的麻烦。节点的复杂性取决于您想要捕获多少数据(轻节点→全节点→归档节点)。
查询+数据映射:本层数据要么在合同中引用URI,要么使用合同ABI将交易数据从字节映射到表模式。合同ABI告诉我们合同中包含哪些函数和事件,否则我们只能看到部署的字节码(没有这个ABI,您无法反向工程/解码合同交易)。
交易数据:这些是最常用的,主要用于仪表板和报告。thegraph和FlipsideAPI也用于前端。有的表是合同的1:1映射,有的表允许模式中的额外转换。
元数据协议:这些不是真实的数据产品,而是用于存储DIDS或文件。大多数NFT将使用一个或多个数据源。我认为我们将开始使用越来越多的数据源来加强今年的查询。
专业供应商:其中一些是非常强大的数据流产品。Blocknative用于mempol数据,Parsec用于链上交易数据。其他聚合链和链外数据,如DAO治理或国库数据。
高维数据提供商:您无法查询/转换他们的数据,但他们帮助您完成了所有繁重的工作。
如果没有强大的优秀社区来配合这一点。
Flashbots:专注于MEV,提供从定制RPC保护交易到专业白帽服务的一切。MEV主要指枪跑。当有人支付比你多的Gas(但直接给矿商)时,他们可以先交易。
数据分析精英:专注于为Dune数据生态做出贡献的数据分析精英。
Flipside数据精英:专注于为Web3数据升天做出贡献的数据分析精英。
MetricsDAO:跨生态工作,处理多链上的各种数据奖励。
Diamondao:专注于Stellar的数据科学,主要从事治理、财务和代币管理。
Indexcoop:重点分析代币等特定领域,制定加密货币行业的最佳指标。
ournetwork:每周覆盖各种协议和web3数据。
注:以上DAO参与联系方式见原文。
每个社区都做了很多工作来改善web3的生态系统。毫无疑问,拥有社区的产品将以100倍的速度增长。这仍然是一个被严重低估的竞争优势。除非人们在这些社区建立了一些东西,否则我认为他们不会获得这个优势。
数据团队
不用说,你也应该在这些社区找到可以加入你的团队的人。让我们进一步分析重要的网络3数据技能和经验,这样你就可以真正知道你在搜索什么。如果你想被雇佣,把它当作你追求的技能和经验!
数据分析
至少,分析师应该是知道如何阅读dune仪表板的侦探。适应悠闲的学习可能需要一个月的时间。如果你真的想疯狂学习,需要两个星期。
此外,您还需要考虑更多的内容,特别是时间分配和技能转移。
时间:在web3中,约30-40%的数据分析师将与生态系统中的其他分析师和协议同步。请确保你不会让他们头晕,否则会对每个人造成长期伤害。有必要与更大的数据社区一起学习、贡献和建设。
可转移性:在这个领域,技能和领域是高度可转移的。如果使用不同的协议,启动时间可能会减少,因为链上的数据表模式相同。
记住,知道如何使用这些工具并不重要。每个分析师都应该或多或少地写SQL或创建一个数据仪表板。所有这些都是关于如何做出贡献和与社区合作的。如果你采访的人不是网络3数据社区的成员(似乎对它不感兴趣),你可能不得不问自己这是否是一个危险的信号。
免责声明:作为区块链信息平台,本网站提供的信息并不代表任何投资暗示。
转载请注明:比特币区块链时代 » 如何成为Web 3分析师