- # Import data
- data = pd.read_csv('data_stocks.csv')
- # Dimensions of dataset
- n = data.shape[0]
- p = data.shape[1]
该数据集已经经由了清理与预处理,即损掉的股票和股指都经由过程 LOCF’ed 处收成下一?不雅测数据复制前面的),所以该数据集没有任何缺损值。
我们可以应用 pyplot.plot(‘SP500’) 语句绘出 S&P 时序数据。
S&P 500 股指时序画图
- 预告练习和测试数据
该数据集须要被瓜分为练习和测试数据,练习数据包含总数据集 80% 的记录。该数据集并不须要捣乱而只须要序列地进行切片。练习数据可以大年夜 2017 年 4 月拔取到 2017 年 7 月底,而测试数据再拔取剩下到 2017 年 8 月的数据。
- # Training and test data
- train_start = 0
- train_end = int(np.floor(0.8*n))
- test_start = train_end + 1
- test_end = n
- data_train = data[np.arange(train_start, train_end), :]
- data_test = data[np.arange(test_start, test_end), :]
时序交叉验证有很多不合的方法,例如有或没有再拟合(refitting)而履行滚动式猜测、或者如时序 bootstrap 重采样等加倍具体的策略等。后者涉及时光序列周期性分化的反复样本,以便模仿与原时光序列雷同周期性模式的样本,但这并不不是简单的复制他们的值。
- 数据标准化
大年夜多半神经收集架构都须要标准化数据,因为 tanh 和 sigmoid 等大年夜多半神经元的激活函数都定义在 [-1, 1] 或 [0, 1] 区间内。今朝线性修改单位 ReLU 激活函数是最常用的,但它的值域有下界无上界。不过无论若何我们都应当从新缩放输入和目标值典范围,这对于我们应用梯度降低算法也很有赞助。缩放取值可以应用 sklearn 的 MinMaxScaler 轻松地实现。
- # Scale data
- from sklearn.preprocessing import MinMaxScaler
- scaler = MinMaxScaler()
- scaler.fit(data_train)
- scaler.transform(data_train)
- scaler.transform(data_test)
- # Build X and y
- X_train = data_train[:, 1:]
- y_train = data_train[:, 0]
- X_test = data_test[:, 1:]
- y_test = data_test[:, 0]pycharm
如上在导入 TensorFlow 库后,应用 tf.placeholder() 定义两个占位符来预储存张量 a 和 b。随后定义运算后就能执交运算图得出结不雅。
推荐阅读
敏捷框架比较:Scrum vs Kanban vs Lean vs XP
Tech Neo技巧沙龙 | 11月25号,九州云/ZStack与您一路商量云时代收集界线治理实践 在这篇文┞仿中, Alesia Krush将对四种最风行的敏捷开辟办法进行比较,给出了每种办法的优缺点。市场上有>>>详细阅读
地址:http://www.17bianji.com/lsqh/39204.html
1/2 1