数据驱动的加密货币投机方法

比特币市场的行为如何?加密货币价值突然出现高峰和低谷的原因是什么?不同altcoins的市场是不可分割的或基本独立的?我们如何预测接下来会发生什么?

有关加密货币的文章,比如比特币和以太坊,近来充斥着猜测,有数百名自称专家的人提倡他们期望出现的趋势。许多这些分析所缺乏的是用于备份索赔的数据和统计数据的坚实基础。

本文的目标是提供一个简单介绍使用Python的加密货币分析。我们将通过一个简单的Python脚本来检索,分析和可视化不同加密货币上的数据。在这个过程中,我们将揭示这些波动的市场表现如何以及它们如何演变的有趣趋势。

这不是一个解释加密货币是什么的文章,也不是一个关于哪些特定货币会上涨,哪些会下跌的评论文章。相反,我们在本教程中关注的所有内容都是获取原始数据并揭示隐藏在数字中的故事。

第1步-设置您的数据实验室

本教程旨在为所有技能水平的爱好者,工程师和数据科学家提供便利。您将需要的唯一技能是对Python的基本了解以及足够的命令行知识来设置项目。

具有所有结果的笔记本完整版本可在此处找到。

步骤1.1-安装Anaconda

从头开始安装此项目的依赖关系的最简单方法是使用Anaconda,一个预先打包的Python数据科学生态系统和依赖项管理器。

要设置Anaconda,我会建议遵循官方安装说明-https://www.continuum.io/downloads。

如果您是高级用户,并且您不想使用Anaconda,那完全没问题。我假设你不需要帮助安装所需的依赖关系。随意跳到第2节。

步骤1.2-安装Anaconda项目环境

一旦安装了Anaconda,我们就需要创建一个新的环境来保持我们的依赖性。

运行

condacreate--namecryptocurrency-analysispython=3

为我们的项目创建一个新的Anaconda环境。

接下来,运行

sourceactivatecryptocurrency-analysis

activatecryptocurrency-analysis

来激活这个环境。

最后,运行

condainstallnumpypandasnb_condajupyterplotlyquandl

以在环境中安装所需的依赖关系。这可能需要几分钟才能完成。

为什么使用环境?如果您计划在您的计算机上开发多个Python项目,将相关性分开以避免冲突会很有帮助。Anaconda将为每个项目的依赖项创建一个特殊的环境目录,以保持组织和分离的一切。

步骤1.3-启动一个互动Jupyter笔记本

一旦环境和依赖关系完成设置,运行

jupyternotebook

以启动iPython内核,并打开浏览器

http://localhost:8888/

。创建一个新的Python笔记本,确保使用

Python

内核。

步骤1.4-导入笔记本顶部的依赖项

一旦你打开了一个空白的Jupyter笔记本,我们要做的第一件事就是导入所需的依赖关系。

数据:ETH鲸鱼数量在Shapella后减少:金色财经报道,根据Glassnode数据,5月1日,拥有1,000-10,000ETH或“鲸鱼”的地址持有的ETH数量超过1403.3万ETH。相比之下,4月12日Shapella在以太坊上线时,ETH数量为1416.7万。

此外,自Shapella升级以来,ETH的价格下跌了3.5%以上,这表明有巨鲸可能确实进行了售出ETH。有趣的是,其他地址群组也出现下降,包括鲨鱼(100-1,000ETH)、鱼类(10-100ETH)、螃蟹(1-10ETH),甚至巨鲸(10,000+ETH)。期间只有虾(<1ETH)累积,净持仓从4月12日的179万ETH小幅增加至5月1日的180万ETH。[2023/5/3 14:39:39]

importosimportnumpyasnpimportpandasaspdimportpickleimportquandlfromdatetimeimportdatetime

importplotly.offlineaspyimportplotly.graph_objsasgoimportplotly.figure_factoryasffpy.init_notebook_mode(connected=True)

第2步-检索比特币定价数据

现在一切都已经完成,我们已经准备好开始检索数据进行分析。首先,我们需要使用Quandl的免费比特币API获取比特币定价数据。

步骤2.1-定义Quandl辅助函数

为了协助这个数据检索,我们将定义一个函数来从Quandl下载和缓存数据集。

defget_quandl_data(quandl_id):'''DownloadandcacheQuandldataseries'''cache_path='{}.pkl'.format(quandl_id).replace('/','-')try:f=open(cache_path,'rb')df=pickle.load(f)print('Loaded{}fromcache'.format(quandl_id))except(OSError,IOError)ase:print('Downloading{}fromQuandl'.format(quandl_id))df=quandl.get(quandl_id,returns="pandas")df.to_pickle(cache_path)print('Cached{}at{}'.format(quandl_id,cache_path))returndf

我们正在使用

pickle

序列化并将下载的数据保存为文件,这将阻止我们的脚本每次运行脚本时都重新下载相同的数据。该函数将以Pandas数据框的形式返回数据。如果您不熟悉数据框,则可以将它们视为超级供电的电子表格。

步骤2.2-拉Kraken交易所定价数据

首先我们来拉动Kraken比特币交易所的历史比特币汇率。

Billions项目组CharttheBTCpricingdatabtc_trace=go.Scatter(x=btc_usd_price_kraken.index,y=btc_usd_price_kraken)py.iplot()

在这里,我们使用Plotly来生成我们的可视化。这比一些比较成熟的Python数据可视化库更传统,但我认为Plotly是一个不错的选择,因为它使用D3.js生成完全交互的图表。这些图表具有吸引人的视觉默认值,易于探索,并且非常易于嵌入网页。

数据:近24小时全网爆仓7726.49万美元:金色财经报道,据Coinglass数据,近24小时全网爆仓7726.49万美元,其中以太坊爆仓110.1万美元,比特币爆仓125.23万美元。[2022/9/25 7:19:22]

作为快速的完整性检查,您应该将生成的图表与公开可用的比特币价格图表进行比较,以验证下载的数据是否合法。

第2.3步-从更多BTC交易所获取定价数据

您可能已经注意到此数据集中存在一些问题-特别是在2014年末和2016年初,有一些明显的下降峰值。这些峰值特定于Kraken数据集,我们显然不希望它们反映在我们的整体定价分析。

比特币交易所的性质在于定价取决于供求关系,因此没有单一交易所包含真正的比特币“主价”。为了解决这个问题,以及可能由于技术中断和数据集故障导致的下降峰值,我们将从另外三个主要比特币交易所获取数据,以计算总比特币价格指数。

首先,我们将从每个交易所下载数据到数据框字典中。

Billions项目组MergetheBTCpricedataseries'intoasingledataframebtc_usd_datasets=merge_dfs_on_column(list(exchange_data.values()),list(exchange_data.keys()),'WeightedPrice')

最后,我们可以使用该

tail()

方法预览最后五行结果,以确保它看起来不错。

btc_usd_datasets.tail()

BITSTAMP

COINBASE

ITBIT

日期

2017年8月14日

4210.1549434213.3321064207.3666964213.257519

2017年8月15日

4101.4471554131.6068974127.0368714149.146996

2017年8月16日

4193.4267134193.4695534190.1045204187.399662

2017年8月17日

4338.6946754334.1152104334.4494404346.508031

2017年8月18日

4182.1661744169.5559484175.4407684198.277722

价格看起来像预期的那样:它们的范围相似,但是根据每个个人比特币交易所的供求情况而略有变化。

步骤2.5-可视化定价数据集

下一个合乎逻辑的步骤是可视化这些定价数据集的比较方式。为此,我们将定义一个辅助函数来提供单行命令以从数据框生成图形。

defdf_scatter(df,title,seperate_y_axis=False,y_axis_label='',scale='linear',initial_hide=False):'''Generateascatterplotoftheentiredataframe'''label_arr=list(df)series_arr=list(map(lambdacol:df,label_arr))layout=go.Layout(title=title,legend=dict(orientation="h"),xaxis=dict(type='date'),yaxis=dict(title=y_axis_label,showticklabels=notseperate_y_axis,type=scale))y_axis_config=dict(overlaying='y',showticklabels=False,type=scale)visibility='visible'ifinitial_hide:visibility='legendonly'Billions项目组Addseperateaxisfortheseriesifseperate_y_axis:trace='y{}'.format(index+1)layout=y_axis_configtrace_arr.append(trace)fig=go.Figure(data=trace_arr,layout=layout)py.iplot(fig)

数据:美国非国有发行的数字资产总市值已经达到3万亿美元:3月25日消息,近日,美国总统拜登签署了一项名为“确保负责任地开发数字资产”的行政命令,呼吁美联储、财政部等政府机构对数字资产的益处和风险进行评估,并探索开发美国央行数字货币。美国数字资产规模增长迅猛。从公布的统计数据看,2021年11月,美国非国有发行的数字资产总市值已经达到3万亿美元,远远高于2016年11月初的约140亿美元。分析人士认为,这份总统行政命令不仅将影响美国境内数字资产的发展,也会影响其他国家的决策。拜登希望让美国处在这个行业的领先地位,鉴于美国在现有世界金融体系中的霸权行径,这将促使其他国家对此进行更深入的思考,并且做出相应的决策。(经济参考报)[2022/3/25 14:17:02]

为了简洁起见,我不会过多介绍这种帮助功能的工作原理。如果您想了解更多信息,请查阅Pandas和Plotly的文档。

现在我们可以轻松生成比特币定价数据的图表。

Billions项目组Remove"0"valuesbtc_usd_datasets.replace(0,np.nan,inplace=True)

当我们重新绘制数据框时,我们会看到一个更清晰的图表,没有降低峰值。

Billions项目组CalculatetheaverageBTCpriceasanewcolumnbtc_usd_datasets=btc_usd_datasets.mean(axis=1)

这个新的专栏是我们的比特币定价指数!让我们绘制该列以确保它看起来不错。

Billions项目组getdatafromthestartof2015end_date=datetime.now()Billions项目组pulldailydata(86,400secondsperday)defget_crypto_data(poloniex_pair):'''Retrievecryptocurrencydatafrompoloniex'''json_url=base_polo_url.format(poloniex_pair,start_date.timestamp(),end_date.timestamp(),pediod)data_df=get_json_data(json_url,poloniex_pair)data_df=data_df.set_index('date')returndata_df

该函数将采用加密货币对字符串并返回包含两种货币历史汇率的数据帧。

步骤3.2-从Poloniex下载交易数据

大多数altcoins不能用USD直接购买;为了获得这些硬币,个人经常购买比特币,然后在加密货币交易所交易比特币用于替代币。出于这个原因,我们会将每个硬币的汇率下载到BTC,然后我们将使用我们现有的BTC定价数据将此值转换为美元。

我们将下载9个顶级加密货币的交换数据-以太坊,莱特币,Ripple,EthereumClassic,Stellar,Dash,Siacoin,Monero和NEM。

altcoins=altcoin_data={}foraltcoininaltcoins:coinpair='BTC_{}'.format(altcoin)crypto_price_df=get_crypto_data(coinpair)altcoin_data=crypto_price_df

现在我们有一个包含9个数据框的字典,每个字典都包含阿尔特币和比特币之间的历史日均交易价格。

数据:过去24小时全网合约市场爆仓11.28亿美元:据bybt数据显示,受行情大幅波动影响,近24小时全网爆仓量达11.28亿美元,累计爆仓人数超24万人。爆仓金额前三的币种为比特币、以太坊与狗狗币,爆仓金额分别为5.09亿美元、2.55亿美元与7798.82万美元,最大单笔爆仓发生在Huobi-EOS价值647.99万美元。[2021/6/22 23:55:43]

我们可以预览以太坊价格表的最后几行,以确保它看起来不错。

altcoin_data.tail()

打开

quoteVolume

加权平均

日期

2017-08-1812:00:00

0.0705100.0710000.0701700.07088717364.2715291224.7626840.070533

2017-08-1816:00:00

0.0715950.0720960.0700040.07051026644.0181231893.1361540.071053

2017-08-1820:00:00

0.0713210.0729060.0704820.07160039655.1278252841.5490650.071657

2017-08-1900:00:00

0.0714470.0718550.0708680.07132116116.9228691150.3614190.071376

2017-08-1904:00:00

0.0723230.0725500.0712920.07144714425.5718941039.5960300.072066

步骤3.3-将价格转换为美元

现在我们可以将BTC-altcoin汇率数据与我们的比特币定价指数结合起来,直接计算每种阿尔特币的历史美元价值。

Billions项目组MergeUSDpriceofeachaltcoinintosingledataframecombined_df=merge_dfs_on_column(list(altcoin_data.values()),list(altcoin_data.keys()),'price_usd')

简单。现在让我们将比特币价格作为组合数据框的最后一列。

Billions项目组Chartallofthealtocoinpricesdf_scatter(combined_df,'CryptocurrencyPrices(USD)',seperate_y_axis=False,y_axis

太好了!该图提供了关于过去几年中每种货币的汇率如何变化的非常稳固的“全景图”视图。

请注意,我们使用对数y轴比例来比较同一图表上的所有货币。欢迎您在此尝试不同的参数值以获得对数据的不同观点。

步骤3.4-执行相关性分析

您可能会注意到,加密货币汇率,尽管它们的价值和波动性大不相同,但看起来略有相关性。特别是自2017年4月上涨以来,甚至许多较小的波动似乎在整个市场中同步发生。

直到我们有数据支持它,一个直观的预感并不比猜测好得多。

我们可以使用Pandas

数据:以太坊交易量在过去24小时内显著增加:1月4日消息,在过去的24小时内,ETH价格飙升了30%,自2018年1月以来的三年内首次突破1000美元。从2020年3月的价格暴跌开始,ETH的价格已经翻了10倍。随着CME下个月将推出以太坊期货,投资者对即将到来的机构投资者浪潮更加兴奋。此外,ETH日交易量刚刚超过500亿美元,之后价格便开始飙升。Glassnode数据显示,以太坊交易量(1d MA)在过去24小时内显著增加。当前值为220396.130 ETH(比105789.214 ETH上涨108.3%)。(CoinGape)[2021/1/4 16:23:44]

corr()

方法来测试我们的相关假设,该方法计算数据帧中每列与每个列的Pearson相关系数。

修订注意事项8/22/2017-本部分已经过修订,以便在计算相关系数时使用日收益率百分比而不是绝对价格值。

直接在非平稳时间序列上计算相关性可以给出有偏差的相关值。我们将通过首先应用该

pct_change()

方法来解决此问题,该方法会将数据框中的每个单元格从绝对价格值转换为每日回报百分比。

首先,我们将计算2016年的相关性。

#Calculatethepearsoncorrelationcoefficientsforcryptocurrenciesin2016combined_df_2016=combined_dfcombined_df_2016.pct_change().corr(method='pearson')

短跑

等等

ETH

LTC

SC

STR

XEM

XMR

XRP

BTC

短跑

1.0000000.0039920.122695-0.0121940.0266020.0580830.0145710.1215370.088657-0.014040

等等

0.0039921.000000-0.181991-0.131079-0.008066-0.102654-0.080938-0.105898-0.054095-0.170538

ETH

0.122695-0.1819911.000000-0.0646520.1696420.0350930.0432050.0872160.085630-0.006502

LTC

-0.012194-0.131079-0.0646521.0000000.0122530.1135230.1606670.1294750.0537120.750174

SC

0.026602-0.0080660.1696420.0122531.0000000.1432520.1061530.0479100.0210980.035116

STR

0.058083-0.1026540.0350930.1135230.1432521.0000000.2251320.0279980.3201160.079075

XEM

0.014571-0.0809380.0432050.1606670.1061530.2251321.0000000.0164380.1013260.227674

XMR

0.121537-0.1058980.0872160.1294750.0479100.0279980.0164381.0000000.0276490.127520

XRP

0.088657-0.0540950.0856300.0537120.0210980.3201160.1013260.0276491.0000000.044161

BTC

-0.014040-0.170538-0.0065020.7501740.0351160.0790750.2276740.1275200.0441611.000000

这些相关系数都在这个地方。接近于1或-1的系数意味着该系列分别强相关或反相关,接近于零的系数意味着这些值不相关,并且彼此独立地波动。

为了帮助可视化这些结果,我们将创建一个辅助可视化函数。

defcorrelation_heatmap(df,title,absolute_bounds=True):'''Plotacorrelationheatmapfortheentiredataframe'''heatmap=go.Heatmap(z=df.corr(method='pearson').as_matrix(),x=df.columns,y=df.columns,colorbar=dict(title='PearsonCoefficient'),)layout=go.Layout(title=title)ifabsolute_bounds:heatmap=1.0heatmap=-1.0fig=go.Figure(data=,layout=layout)py.iplot(fig)

correlation_heatmap(combined_df_2016.pct_change(),"CryptocurrencyCorrelationsin2016")

在这里,暗红色值表示强相关性,深蓝色值表示强烈的逆相关性。所有浅蓝色/橙色/灰色/棕褐色代表不同程度的弱/不存在的相关性。

这张图表告诉我们什么?基本上,它表明,2016年不同加密电子货币的价格波动之间几乎没有统计上显着的联系。

现在,为了验证我们最近几个月加密货币已经变得更加相关的假设,让我们仅使用2017年的数据重复相同的测试。

combined_df_2017=combined_dfcombined_df_2017.pct_change().corr(method='pearson')

短跑

等等

ETH

LTC

SC

STR

XEM

XMR

XRP

BTC

短跑

1.0000000.3841090.4804530.2596160.1918010.1593300.2999480.5038320.0664080.357970

等等

0.3841091.0000000.6021510.4209450.2553430.1460650.3034920.4653220.0539550.469618

ETH

0.4804530.6021511.0000000.2861210.3237160.2286480.3435300.6045720.1202270.421786

LTC

0.2596160.4209450.2861211.0000000.2962440.3331430.2505660.4392610.3213400.352713

SC

0.1918010.2553430.3237160.2962441.0000000.4171060.2879860.3747070.2483890.377045

STR

0.1593300.1460650.2286480.3331430.4171061.0000000.3965200.3418050.6215470.178706

XEM

0.2999480.3034920.3435300.2505660.2879860.3965201.0000000.3971300.2703900.366707

XMR

0.5038320.4653220.6045720.4392610.3747070.3418050.3971301.0000000.2136080.510163

XRP

0.0664080.0539550.1202270.3213400.2483890.6215470.2703900.2136081.0000000.170070

BTC

0.3579700.4696180.4217860.3527130.3770450.1787060.3667070.5101630.1700701.000000

这些是更重要的相关系数。强大到足以作为投资的唯一基础?当然不是。

然而,值得注意的是,几乎所有的加密货币已经变得更加相互关联。

correlation_heatmap(combined_df_2017.pct_change(),"CryptocurrencyCorrelationsin2017")

呵呵。这很有趣。

这是为什么发生?

好问题。我真的不确定。

想到最直接的解释是对冲基金最近开始在加密货币市场上公开交易。与平均交易者相比,这些基金的资本要多得多,所以如果一个基金在多个加密货币上对冲他们的投注,并且基于自变量对每个基金使用类似的交易策略,那么这可能是合理的这种相关性增加的趋势将会出现。

深入-XRP和STR

例如,上面图表的一个值得注意的特征是XRP是最不相关的加密货币。这里值得注意的例外是STR,它与XRP具有更强的相关性。

这里有趣的是,Stellar和Ripple都是非常类似的金融科技平台,旨在减少银行间国际资金转移的摩擦。

可以想象的是,由于使用每个令牌的区块链服务的相似性,一些大资金玩家和对冲基金可能使用类似的交易策略来投资Stellar和Ripple。这可以解释为什么XRP与STR相比与其他加密货币的关联性更强。

快速插件-我是Chipper的一名贡献者,Chipper是一家非常早期的初创公司,其使用Stellar的目的是破坏非洲的微型汇款。

到你了

然而,这种解释很大程度上是推测性的。也许你可以做得更好。有了我们在这里创建的基础,有数百种不同的途径可以继续搜索数据中的故事。

这里有一些想法:

将更多加密货币的数据添加到分析中。调整相关性分析的时间框架和粒度,以获得更精细或粗略的趋势视图。搜索交易量和/或区块链挖掘数据集的趋势。如果您想预测未来的价格波动,则买入/卖出交易量比率可能比原始价格数据更相关。添加有关股票,商品和法定货币的定价数据,以确定哪些与加密货币相关。使用事件注册表,GDELT和GoogleTrends来量化围绕特定加密货币的“嗡嗡声”量。训练数据的预测性机器学习模型以预测未来的价格。如果你更有野心,你甚至可以尝试用循环神经网络来做这件事。使用您的分析,在Poloniex或Coinbase等交易网站上使用各自的交易API创建自动化的“交易机器人”。小心:一个糟糕的交易机器人是一个简单的方法来快速损失你的钱。分享您的发现!比特币和一般加密货币的最佳部分是它们的分散性使它们比其他任何资产更自由和民主。开源你的分析,参与社区,也许写一篇关于它的博客文章。

Python版本的笔记本可以在这里找到。

希望现在你有能力进行自己的分析并批判性地思考你将来可能阅读的任何猜测性的加密货币文章,特别是那些没有任何数据的文章来备份所提供的预测。

感谢您的阅读,如果您对本教程有任何想法,建议或批评,请在下面评论。如果您发现代码存在问题,您也可以在此处的Github存储库中随意打开问题。

我已经在作品中获得了第二个部分,这些作品很可能会沿用上面列出的一些想法,因此请在未来几周内继续关注。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

银河链

[0:0ms0-3:702ms