学习 – Pancake's Personal Website

LSTM简易通用版本

因为在数学建模中用的很麻烦，写了个简易易使用版本。

以下代码为最终成品代码 demo 版本，不推荐使用，最新版本可点下载链接或可见 csdn。

import torch
import torch.nn as nn
import numpy as np
import matplotlib.pyplot as plt
import torch.nn.functional as F
import warnings
import pandas as pd
import scipy.stats as st

# 设定随机种子，以确保实验的可重复性
torch.manual_seed(1)
np.random.seed(1)


# 定义LSTM模型
class LSTM(nn.Module):
    hidden = None

    def __init__(self, input_size, hidden_size, output_size, num_layers):
        super().__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.train_on_gpu = torch.cuda.is_available()
        # As batch_first=True, input: (batch_size, sequence_length, input_size)
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)
        self.lstm2 = nn.LSTM(hidden_size, hidden_size, num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_size, hidden_size)
        self.fcOut = nn.Linear(hidden_size, output_size)
        self.drop = nn.Dropout(0.5)
        # 可选操作，可以把下一行注释
        self.apply(LSTM.init_weights)

    def forward(self, x):
        # 防止 loss.backward 报错
        hidden = [each.data for each in self.hidden]
        x, hidden = self.lstm(x, hidden)
        x, self.hidden = self.lstm2(x, hidden)
        x = x[:, -1, :]
        x = F.relu(self.fc(x))
        x = self.drop(x)
        x = self.fcOut(x)
        return x

    def init_hidden(self, batch_size):
        weight = next(self.parameters()).data

        if self.train_on_gpu:
            self.hidden = (weight.new(self.num_layers, batch_size, self.hidden_size).zero_().cuda(),
                           weight.new(self.num_layers, batch_size, self.hidden_size).zero_().cuda())
        else:
            self.hidden = (weight.new(self.num_layers, batch_size, self.hidden_size).zero_(),
                           weight.new(self.num_layers, batch_size, self.hidden_size).zero_())

    @staticmethod
    def init_weights(m):
        if type(m) == nn.LSTM:
            for name, param in m.named_parameters():
                if 'weight_ih' in name:
                    torch.nn.init.orthogonal_(param.data)
                elif 'weight_hh' in name:
                    torch.nn.init.orthogonal_(param.data)
                elif 'bias' in name:
                    param.data.fill_(0)
        elif type(m) == nn.Conv1d or type(m) == nn.Linear:
            torch.nn.init.orthogonal_(m.weight)
            m.bias.data.fill_(0)


class CustomLSTM:
    X, Y, data, model, optimizer, criterion, result, result_, window, losses = [None] * 10

    def __init__(self, data: np.array, window):
        self.data = data
        self.input_dim = self.init_data()
        self.output_dim = self.input_dim
        self.slice(window)

    # data 可为一维数组或二维数组，强制把一维数组转化为二维数组
    def init_data(self):
        assert (length := len(self.data.shape)) in [1, 2]
        if length == 1:
            self.data = self.data[:, np.newaxis]
        return len(self.data[0])

    # 检查总数据大小是否能整除 batch
    def check_batch(self, batch_size):
        length = self.X.shape[0]
        # 保证 batch_size 比总长度小
        assert length >= batch_size
        if batch_size * (length // batch_size) != length:
            warnings.warn(f'数据大小为{length}, batch大小为{batch_size},无法整除,会损失{(length % batch_size) / length * 100}%数据', DeprecationWarning)

    # 以 window 为窗口大小切片形成整个batch
    def slice(self, window):
        self.window = window
        X, Y = [], []
        for i in range(len(self.data) - window):
            X.append(self.data[i:i + window])
            Y.append(self.data[i + window])
        X = np.array(X)
        Y = np.array(Y)
        X = torch.from_numpy(X).float()  # (batch_size, sequence_length, input_size)
        Y = torch.from_numpy(Y).float()
        print(f"数据格式:X = {X.shape}, Y = {Y.shape}")
        self.X = X
        self.Y = Y

    def re_slice(self, window):
        self.X, self.Y, self.model, self.optimizer, self.criterion, self.result, self.result_, self.losses = [None] * 9
        self.slice(window)

    # 初始化 LSTM model
    def init_lstm(self, hidden=64, lr=0.001, num_layers=1):
        self.model = LSTM(self.input_dim, hidden, self.output_dim, num_layers)
        self.optimizer = torch.optim.Adam(self.model.parameters(), lr=lr)
        self.criterion = nn.MSELoss()
        if torch.cuda.is_available():
            self.model.cuda()
            self.X.cuda()
            self.Y.cuda()

    # 总数据产生 batch 并可以进行 shuffle
    @staticmethod
    def iterate_batches(inputs, targets, batchsize, shuffle=True):
        assert len(inputs) == len(targets)
        if shuffle:
            indices = np.arange(len(inputs))
            np.random.shuffle(indices)
        for start_idx in range(0, len(inputs) - batchsize + 1, batchsize):
            if shuffle:
                excerpt = indices[start_idx:start_idx + batchsize]
            else:
                excerpt = slice(start_idx, start_idx + batchsize)
            yield inputs[excerpt], targets[excerpt]

    # 开始训练
    def train(self, num_epochs=100, batch_size=128, max_batch=False):
        losses = []
        if self.model is None:
            raise ValueError("请先使用CustomLSTM.init_lstm初始化网络")
        if max_batch:
            batch_size = self.X.shape[0]
        else:
            self.check_batch(batch_size)
        for epoch in range(num_epochs):
            loss_all = 0
            self.model.init_hidden(batch_size)
            for index, (batch_x, batch_y) in enumerate(CustomLSTM.iterate_batches(self.X, self.Y, batch_size, shuffle=True)):
                self.optimizer.zero_grad()
                outputs = self.model(batch_x)
                loss = self.criterion(outputs, batch_y)
                loss.backward()
                self.optimizer.step()
                loss_all += loss.detach().cpu()
            losses.append(loss_all / (index + 1))
            if epoch % 20 == 0:
                print('Epoch [{}/{}], Loss: {:.4f}'.format(epoch + 1, num_epochs, loss_all / (index + 1)))
        self.losses = losses
        self.predicted()

    def plot_loss(self):
        if self.losses is None:
            raise ValueError("loss 不存在，请先进行训练")
        plt.figure(figsize=(12, 6))
        plt.plot(self.losses)
        plt.xlabel("Epoch")
        plt.ylabel("Loss")
        plt.show()

    # 预测之后 n 天的值
    def predict(self, n):
        # self.predicted()
        self.model.init_hidden(1)
        data = self.data[-self.window:, :].tolist()
        y = []
        for i in range(n):
            x = torch.tensor(data).float().unsqueeze(0)
            result = self.model.cpu()(x).tolist()
            y.append(result[0])
            data.append(result[0])
            data.pop(0)
        self.result = np.array(y)
        return self.result

    # 预测从 window_size 到结束数据的预测值，以便与真实值做比较
    def predicted(self):
        self.model.eval()
        self.model.init_hidden(len(self.X))
        with torch.no_grad():
            predicted = self.model(self.X)
            predicted = predicted.detach().cpu().numpy()
        self.result_ = predicted
        return self.result_

    # 因为可以为二维数组即对多个变量进行预测，names即为每个变量的名字
    def plot(self, names=None):
        if self.result is None:
            raise ValueError("请先使用CustomLSTM.predict")
        if names is None:
            names = [None] * len(self.data[0])
        # further = self.predict(n)
        x = np.arange(len(self.data))
        x_further = np.arange(len(self.data), len(self.data) + len(self.result))
        plt.figure(figsize=(12, 6))
        for i in range(len(self.data[0])):
            plt.plot(x, self.data, label=f'{names[0]} True Values')
            plt.plot(x[self.window:], self.result_[:, i], label=f'{names[0]} Predictions')
            plt.plot(x_further, self.result[:, i], label=f"{names[0]} Further Predictions")
        plt.show()

    # 画置信区间，demo 版本
    # ToDo
    def plot_confidence(self, index=0, alpha=0.05):
        if self.result is None:
            raise ValueError("请先使用CustomLSTM.predict")
        plt.figure(figsize=(12, 6))
        x = np.arange(len(self.data))
        x_further = np.arange(len(self.data), len(self.data) + len(self.result))
        y_true = self.data[self.window:, index].tolist()
        plt.plot(y_true, label='True Values')
        plt.plot(x_further, self.result[:, index], label="Further Predictions")
        plt.plot(x[self.window:], self.result_[:, index], label='Predictions')

        y_pred = self.result[:, index]
        lower, upper = Utils.ci(y_true, y_pred, alpha=alpha)
        plt.plot(y_pred, label='Predictions')
        plt.fill_between(np.arange(), lower, upper, alpha=0.2, label='Confidence interval')
        plt.legend()
        plt.show()

    # 打印 summary， 即 r^2 评价函数等
    def summary(self):
        if self.model is None:
            raise ValueError("请先进行训练")
        print("==========Summary Begin===========")
        print("R2   =", score_r2 := Utils.r2(self.result_, self.data[self.window:, :]))
        print("MSE  =", score_mse := Utils.mse(self.result_, self.data[self.window:, :]))
        print("RMSE =", score_rmse := np.sqrt(score_mse))
        print("MAE  =", score_mae := Utils.mae(self.result_, self.data[self.window:, :]))
        print("===========Summary end============")
        return score_r2, score_mse, score_rmse, score_mae


# 工具
class Utils:
    # 置信区间，demo
    # ToDo
    @staticmethod
    def ci(y_true, y_pred, alpha=0.05):
        residuals = y_true - y_pred
        n = len(residuals)
        df = n - 1
        t_value = st.norm.ppf(1 - alpha / 2, df)
        std_err = np.std(residuals, ddof=1) / np.sqrt(n)
        upper = residuals + t_value * std_err
        lower = residuals - t_value * std_err
        return lower, upper

    # r2 评价函数
    @staticmethod
    def r2(y_pred, y_true):
        return 1 - ((y_pred - y_true) ** 2).sum(axis=0) / ((y_true.mean(axis=0) - y_true) ** 2).sum(axis=0)

    @staticmethod
    def mse(y_pred, y_true):
        return ((y_true - y_pred) ** 2).sum(axis=0) / len(y_pred)

    @staticmethod
    def rmse(y_pred, y_true):
        return np.sqrt(((y_true - y_pred) ** 2).sum(axis=0) / len(y_pred))

    @staticmethod
    def mae(y_pred, y_true):
        return (np.absolute(y_true - y_pred)).sum(axis=0) / len(y_true)

    # 添加快捷打开文件操作
    @staticmethod
    def openfile(name):
        file_type = name.split(".")[-1]
        if file_type == "csv":
            df = pd.read_csv(name, encoding='GBK')
        elif file_type == "xlsx" or file_type == "xls":
            df = pd.read_excel(name)
        else:
            raise TypeError(f"{name} 类型不是 csv, xls, xlsx")
        # df = df[["列名字1", "列名字2"]]
        print(df)
        return np.array(df)


def load_data():
    # 以下注释代码为快捷打开操作
    # return Utils.openfile(file_location)
    data = np.sin(np.arange(100) * np.pi / 50) + np.random.randn(100) * 0.1
    return data


if __name__ == "__main__":
    # 加载数据
    data = load_data()

    # 初始化网络
    window_size = 10
    batch = 100
    lstm = CustomLSTM(data, window_size)
    lstm.init_lstm(hidden=64, lr=0.001, num_layers=1)

    # 训练网络
    # max_batch 表示是否以整一个数据作为 batch 不做分割
    lstm.train(num_epochs=1000, max_batch=True)
    # lstm.train(num_epochs=50, batch_size=30, max_batch=False)

    # 调整窗口大小重新训练
    # lstm.re_slice(20)
    # lstm.init_lstm(hidden=64, lr=0.001, num_layers=1)
    # lstm.train(num_epochs=50, batch_size=40, max_batch=False)

    # 打印 summary
    r2, mse, rmse, mae = lstm.summary()

    # 预测之后 100 步数据
    lstm.predict(100)

    # 画图
    lstm.plot_loss()
    lstm.plot(['data'])
    # lstm.plot_confidence(index=0)

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

import torch

import torch.nn as nn

import numpy as np

import matplotlib.pyplot as plt

import torch.nn.functional as F

import warnings

import pandas as pd

import scipy.stats as st

# 设定随机种子，以确保实验的可重复性

torch.manual_seed(1)

np.random.seed(1)

# 定义LSTM模型

class LSTM(nn.Module):

hidden = None

def __init__(self, input_size, hidden_size, output_size, num_layers):

super().__init__()

self.hidden_size = hidden_size

self.num_layers = num_layers

self.train_on_gpu = torch.cuda.is_available()

# As batch_first=True, input: (batch_size, sequence_length, input_size)

self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)

self.lstm2 = nn.LSTM(hidden_size, hidden_size, num_layers, batch_first=True)

self.fc = nn.Linear(hidden_size, hidden_size)

self.fcOut = nn.Linear(hidden_size, output_size)

self.drop = nn.Dropout(0.5)

# 可选操作，可以把下一行注释

self.apply(LSTM.init_weights)

def forward(self, x):

# 防止 loss.backward 报错

hidden = [each.data for each in self.hidden]

x, hidden = self.lstm(x, hidden)

x, self.hidden = self.lstm2(x, hidden)

x = x[:, -1, :]

x = F.relu(self.fc(x))

x = self.drop(x)

x = self.fcOut(x)

return x

def init_hidden(self, batch_size):

weight = next(self.parameters()).data

if self.train_on_gpu:

self.hidden = (weight.new(self.num_layers, batch_size, self.hidden_size).zero_().cuda(),

weight.new(self.num_layers, batch_size, self.hidden_size).zero_().cuda())

else:

self.hidden = (weight.new(self.num_layers, batch_size, self.hidden_size).zero_(),

weight.new(self.num_layers, batch_size, self.hidden_size).zero_())

@staticmethod

def init_weights(m):

if type(m) == nn.LSTM:

for name, param in m.named_parameters():

if 'weight_ih' in name:

torch.nn.init.orthogonal_(param.data)

elif 'weight_hh' in name:

torch.nn.init.orthogonal_(param.data)

elif 'bias' in name:

param.data.fill_(0)

elif type(m) == nn.Conv1d or type(m) == nn.Linear:

torch.nn.init.orthogonal_(m.weight)

m.bias.data.fill_(0)

class CustomLSTM:

X, Y, data, model, optimizer, criterion, result, result_, window, losses = [None] * 10

def __init__(self, data: np.array, window):

self.data = data

self.input_dim = self.init_data()

self.output_dim = self.input_dim

self.slice(window)

# data 可为一维数组或二维数组，强制把一维数组转化为二维数组

def init_data(self):

assert (length := len(self.data.shape)) in [1, 2]

if length == 1:

self.data = self.data[:, np.newaxis]

return len(self.data[0])

# 检查总数据大小是否能整除 batch

def check_batch(self, batch_size):

length = self.X.shape[0]

# 保证 batch_size 比总长度小

assert length >= batch_size

if batch_size * (length // batch_size) != length:

warnings.warn(f'数据大小为{length}, batch大小为{batch_size},无法整除,会损失{(length % batch_size) / length * 100}%数据', DeprecationWarning)

# 以 window 为窗口大小切片形成整个batch

def slice(self, window):

self.window = window

X, Y = [], []

for i in range(len(self.data) - window):

X.append(self.data[i:i + window])

Y.append(self.data[i + window])

X = np.array(X)

Y = np.array(Y)

X = torch.from_numpy(X).float() # (batch_size, sequence_length, input_size)

Y = torch.from_numpy(Y).float()

print(f"数据格式:X = {X.shape}, Y = {Y.shape}")

self.X = X

self.Y = Y

def re_slice(self, window):

self.X, self.Y, self.model, self.optimizer, self.criterion, self.result, self.result_, self.losses = [None] * 9

self.slice(window)

# 初始化 LSTM model

def init_lstm(self, hidden=64, lr=0.001, num_layers=1):

self.model = LSTM(self.input_dim, hidden, self.output_dim, num_layers)

self.optimizer = torch.optim.Adam(self.model.parameters(), lr=lr)

self.criterion = nn.MSELoss()

if torch.cuda.is_available():

self.model.cuda()

self.X.cuda()

self.Y.cuda()

# 总数据产生 batch 并可以进行 shuffle

@staticmethod

def iterate_batches(inputs, targets, batchsize, shuffle=True):

assert len(inputs) == len(targets)

if shuffle:

indices = np.arange(len(inputs))

np.random.shuffle(indices)

for start_idx in range(0, len(inputs) - batchsize + 1, batchsize):

if shuffle:

excerpt = indices[start_idx:start_idx + batchsize]

else:

excerpt = slice(start_idx, start_idx + batchsize)

yield inputs[excerpt], targets[excerpt]

# 开始训练

def train(self, num_epochs=100, batch_size=128, max_batch=False):

losses = []

if self.model is None:

raise ValueError("请先使用CustomLSTM.init_lstm初始化网络")

if max_batch:

batch_size = self.X.shape[0]

else:

self.check_batch(batch_size)

for epoch in range(num_epochs):

loss_all = 0

self.model.init_hidden(batch_size)

for index, (batch_x, batch_y) in enumerate(CustomLSTM.iterate_batches(self.X, self.Y, batch_size, shuffle=True)):

self.optimizer.zero_grad()

outputs = self.model(batch_x)

loss = self.criterion(outputs, batch_y)

loss.backward()

self.optimizer.step()

loss_all += loss.detach().cpu()

losses.append(loss_all / (index + 1))

if epoch % 20 == 0:

print('Epoch [{}/{}], Loss: {:.4f}'.format(epoch + 1, num_epochs, loss_all / (index + 1)))

self.losses = losses

self.predicted()

def plot_loss(self):

if self.losses is None:

raise ValueError("loss 不存在，请先进行训练")

plt.figure(figsize=(12, 6))

plt.plot(self.losses)

plt.xlabel("Epoch")

plt.ylabel("Loss")

plt.show()

# 预测之后 n 天的值

def predict(self, n):

# self.predicted()

self.model.init_hidden(1)

data = self.data[-self.window:, :].tolist()

y = []

for i in range(n):

x = torch.tensor(data).float().unsqueeze(0)

result = self.model.cpu()(x).tolist()

y.append(result[0])

data.append(result[0])

data.pop(0)

self.result = np.array(y)

return self.result

# 预测从 window_size 到结束数据的预测值，以便与真实值做比较

def predicted(self):

self.model.eval()

self.model.init_hidden(len(self.X))

with torch.no_grad():

predicted = self.model(self.X)

predicted = predicted.detach().cpu().numpy()

self.result_ = predicted

return self.result_

# 因为可以为二维数组即对多个变量进行预测，names即为每个变量的名字

def plot(self, names=None):

if self.result is None:

raise ValueError("请先使用CustomLSTM.predict")

if names is None:

names = [None] * len(self.data[0])

# further = self.predict(n)

x = np.arange(len(self.data))

x_further = np.arange(len(self.data), len(self.data) + len(self.result))

plt.figure(figsize=(12, 6))

for i in range(len(self.data[0])):

plt.plot(x, self.data, label=f'{names[0]} True Values')

plt.plot(x[self.window:], self.result_[:, i], label=f'{names[0]} Predictions')

plt.plot(x_further, self.result[:, i], label=f"{names[0]} Further Predictions")

plt.show()

# 画置信区间，demo 版本

# ToDo

def plot_confidence(self, index=0, alpha=0.05):

if self.result is None:

raise ValueError("请先使用CustomLSTM.predict")

plt.figure(figsize=(12, 6))

x = np.arange(len(self.data))

x_further = np.arange(len(self.data), len(self.data) + len(self.result))

y_true = self.data[self.window:, index].tolist()

plt.plot(y_true, label='True Values')

plt.plot(x_further, self.result[:, index], label="Further Predictions")

plt.plot(x[self.window:], self.result_[:, index], label='Predictions')

y_pred = self.result[:, index]

lower, upper = Utils.ci(y_true, y_pred, alpha=alpha)

plt.plot(y_pred, label='Predictions')

plt.fill_between(np.arange(), lower, upper, alpha=0.2, label='Confidence interval')

plt.legend()

plt.show()

# 打印 summary，即 r^2 评价函数等

def summary(self):

if self.model is None:

raise ValueError("请先进行训练")

print("==========Summary Begin===========")

print("R2 =", score_r2 := Utils.r2(self.result_, self.data[self.window:, :]))

print("MSE =", score_mse := Utils.mse(self.result_, self.data[self.window:, :]))

print("RMSE =", score_rmse := np.sqrt(score_mse))

print("MAE =", score_mae := Utils.mae(self.result_, self.data[self.window:, :]))

print("===========Summary end============")

return score_r2, score_mse, score_rmse, score_mae

# 工具

class Utils:

# 置信区间，demo

# ToDo

@staticmethod

def ci(y_true, y_pred, alpha=0.05):

residuals = y_true - y_pred

n = len(residuals)

df = n - 1

t_value = st.norm.ppf(1 - alpha / 2, df)

std_err = np.std(residuals, ddof=1) / np.sqrt(n)

upper = residuals + t_value * std_err

lower = residuals - t_value * std_err

return lower, upper

# r2 评价函数

@staticmethod

def r2(y_pred, y_true):

return 1 - ((y_pred - y_true) ** 2).sum(axis=0) / ((y_true.mean(axis=0) - y_true) ** 2).sum(axis=0)

@staticmethod

def mse(y_pred, y_true):

return ((y_true - y_pred) ** 2).sum(axis=0) / len(y_pred)

@staticmethod

def rmse(y_pred, y_true):

return np.sqrt(((y_true - y_pred) ** 2).sum(axis=0) / len(y_pred))

@staticmethod

def mae(y_pred, y_true):

return (np.absolute(y_true - y_pred)).sum(axis=0) / len(y_true)

# 添加快捷打开文件操作

@staticmethod

def openfile(name):

file_type = name.split(".")[-1]

if file_type == "csv":

df = pd.read_csv(name, encoding='GBK')

elif file_type == "xlsx" or file_type == "xls":

df = pd.read_excel(name)

else:

raise TypeError(f"{name} 类型不是 csv, xls, xlsx")

# df = df[["列名字1", "列名字2"]]

print(df)

return np.array(df)

def load_data():

# 以下注释代码为快捷打开操作

# return Utils.openfile(file_location)

data = np.sin(np.arange(100) * np.pi / 50) + np.random.randn(100) * 0.1

return data

if __name__ == "__main__":

# 加载数据

data = load_data()

# 初始化网络

window_size = 10

batch = 100

lstm = CustomLSTM(data, window_size)

lstm.init_lstm(hidden=64, lr=0.001, num_layers=1)

# 训练网络

# max_batch 表示是否以整一个数据作为 batch 不做分割

lstm.train(num_epochs=1000, max_batch=True)

# lstm.train(num_epochs=50, batch_size=30, max_batch=False)

# 调整窗口大小重新训练

# lstm.re_slice(20)

# lstm.init_lstm(hidden=64, lr=0.001, num_layers=1)

# lstm.train(num_epochs=50, batch_size=40, max_batch=False)

# 打印 summary

r2, mse, rmse, mae = lstm.summary()

# 预测之后 100 步数据

lstm.predict(100)

# 画图

lstm.plot_loss()

lstm.plot(['data'])

# lstm.plot_confidence(index=0)

2022小美赛C题

主要讲解团队对2022小美赛C题的讲解，包含讲解与代码，赛题data。全部为python代码，基本不会提供代码注释及逻辑。

该题主要为时间序列分类，团队尝试的方法如下：

决策树、随机森林、极限森林分类（DecisionTreeClassifier、 RandomForestClassifier、 ExtraTreesClassifier）在文章中将简写为DTC、RFC、ETC
带有时间序列的决策树分类（MultivariateClassifier、 TimeSeriesForest）在文章中TimeSeriesForestClassifier将简写为TSFC
LSTM 团队采用 DeepConvLSTM在文章中将简写为DCLSTM
NSGA2剪枝优化

讲解顺序：python库→数据预处理：3\sigma与滤波→数据处理与导入（不含前一步的处理）→决策树等分类→TSFC→DCLSTM→GA决策树剪枝优化。总体结论：极限森林在赛题数据分类效果最好。

文章思路：数据处理→决策树分类→DCLSTM→算法对比→NSGA2对极限森林过拟合优化。

代码有前后关联性，后面代码没有的函数请到前面找。代码非常庞大，请耐心观看。

1.python库

python库

pip3 install numpy matplotlib pandas
pip3 isntall sklearn
pip3 install torch-对应gpu版本
pip3 install pyts
pip3 install geatpy

pip3 install numpy matplotlib pandas

pip3 isntall sklearn

pip3 install torch-对应gpu版本

pip3 install pyts

pip3 install geatpy

# math
import math
# plot
import matplotlib.pyplot as plt
# warning
import warnings
# system process
import os
# numpy
import numpy as np
# pandas
import pandas as pd
# data loader
import pickle
# csv
import csv

# math

import math

# plot

import matplotlib.pyplot as plt

# warning

import warnings

# system process

import os

# numpy

import numpy as np

# pandas

import pandas as pd

# data loader

import pickle

# csv

import csv

# cross score
from sklearn.model_selection import cross_val_score
# classifier for trees
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.tree import DecisionTreeClassifier
# train test split
from sklearn.model_selection import train_test_split
# nomolize
from sklearn.preprocessing import normalize
# scores
from sklearn.metrics import f1_score, precision_score, recall_score, accuracy_score, roc_auc_score, roc_curve, auc, confusion_matrix

# cross score

from sklearn.model_selection import cross_val_score

# classifier for trees

from sklearn.ensemble import RandomForestClassifier

from sklearn.ensemble import ExtraTreesClassifier

from sklearn.tree import DecisionTreeClassifier

# train test split

from sklearn.model_selection import train_test_split

# nomolize

from sklearn.preprocessing import normalize

# scores

from sklearn.metrics import f1_score, precision_score, recall_score, accuracy_score, roc_auc_score, roc_curve, auc, confusion_matrix

# draw tree
from sklearn.tree import plot_tree
# classifiers
from pyts.classification import BOSSVS, TimeSeriesForest
# multivarible
from pyts.multivariate.classification import MultivariateClassifier

# draw tree

from sklearn.tree import plot_tree

# classifiers

from pyts.classification import BOSSVS, TimeSeriesForest

# multivarible

from pyts.multivariate.classification import MultivariateClassifier

import torch
from torch import nn
import torch.nn.functional as F

import torch

from torch import nn

import torch.nn.functional as F

import geatpy as ea
from multiprocessing import Pool as ProcessPool

1 2	import geatpy as ea from multiprocessing import Pool as ProcessPool

2. 3\sigma and filter

Preprocess

def three_sigma(col):
    rule = (col.mean() - 3 * col.std() > col) | (col.mean() + 3 * col.std() < col)
    index = np.arange(col.shape[0])[rule]
    return index

def three_sigma(col):

rule = (col.mean() - 3 * col.std() > col) | (col.mean() + 3 * col.std() < col)

index = np.arange(col.shape[0])[rule]

return index

"""
https://www.bilibili.com/read/cv17553128
"""
result = []
for action in range(19):
    filename = "./data/a{}/p1".format(str(action + 1).zfill(2))
    now = None
    for i in range(60):
        f = np.loadtxt(os.path.join(filename, "s.txt".format(str(i + 1).zfill(2))), delimiter=",").T
        if now is None:
            now = f
        else:
            now = np.c_[now, f]
    data = now[:, :300]

    for i in [2]:
        AccX_Value = data[i]
        outs = three_sigma(AccX_Value)
        for out in outs:
            AccX_Value[out] = AccX_Value[out - 5: out + 5].mean()

        AccX_Value = AccX_Value[:, np.newaxis]
        Time = np.linspace(0, 5 * 2.4, int(5 * 2.4 * 25))
        AccX_Variance = 0.01

        # time step
        dt = 1 / 25

        # transition_matrix
        F = [[1, dt, 0.5 * dt ** 2],
             [0, 1, dt],
             [0, 0, 1]]

        # observation_matrix
        H = [0, 0, 1]

        # transition_covariance
        Q = [[0.2, 0, 0],
             [0, 0.1, 0],
             [0, 0, 10e-4]]

        # observation_covariance
        R = AccX_Variance

        # initial_state_mean
        X0 = [0,
              0,
              AccX_Value[0, 0]]

        # initial_state_covariance
        P0 = [[0, 0, 0],
              [0, 0, 0],
              [0, 0, AccX_Variance]]

        n_timesteps = AccX_Value.shape[0]
        n_dim_state = 3
        filtered_state_means = np.zeros((n_timesteps, n_dim_state))
        filtered_state_covariances = np.zeros((n_timesteps, n_dim_state, n_dim_state))

        kf = KalmanFilter(transition_matrices=F,
                          observation_matrices=H,
                          transition_covariance=Q,
                          observation_covariance=R,
                          initial_state_mean=X0,
                          initial_state_covariance=P0)

        # iterative estimation for each new measurement
        for t in range(n_timesteps):
            if t == 0:
                filtered_state_means[t] = X0
                filtered_state_covariances[t] = P0
            else:
                filtered_state_means[t], filtered_state_covariances[t] = (
                    kf.filter_update(
                        filtered_state_means[t - 1],
                        filtered_state_covariances[t - 1],
                        AccX_Value[t, 0]
                    )
                )
        result.append(list(filtered_state_means[:, 2]))
        # plt.plot(Time, AccX_Value)
        # plt.plot(Time, filtered_state_means[:, 2], "r-")
        # plt.title('Acceleration X')
        # plt.ylim(7.5, 8.5)
        # plt.grid()
        # plt.legend()
        # plt.savefig("original.png")
        # plt.show()
f = csv.writer(open("result filter.csv", "w", newline=""))
f.writerows(result)

"""

https://www.bilibili.com/read/cv17553128

"""

result = []

for action in range(19):

filename = "./data/a{}/p1".format(str(action + 1).zfill(2))

now = None

for i in range(60):

f = np.loadtxt(os.path.join(filename, "s.txt".format(str(i + 1).zfill(2))), delimiter=",").T

if now is None:

now = f

else:

now = np.c_[now, f]

data = now[:, :300]

for i in [2]:

AccX_Value = data[i]

outs = three_sigma(AccX_Value)

for out in outs:

AccX_Value[out] = AccX_Value[out - 5: out + 5].mean()

AccX_Value = AccX_Value[:, np.newaxis]

Time = np.linspace(0, 5 * 2.4, int(5 * 2.4 * 25))

AccX_Variance = 0.01

# time step

dt = 1 / 25

# transition_matrix

F = [[1, dt, 0.5 * dt ** 2],

[0, 1, dt],

[0, 0, 1]]

# observation_matrix

H = [0, 0, 1]

# transition_covariance

Q = [[0.2, 0, 0],

[0, 0.1, 0],

[0, 0, 10e-4]]

# observation_covariance

R = AccX_Variance

# initial_state_mean

X0 = [0,

AccX_Value[0, 0]]

# initial_state_covariance

P0 = [[0, 0, 0],

[0, 0, 0],

[0, 0, AccX_Variance]]

n_timesteps = AccX_Value.shape[0]

n_dim_state = 3

filtered_state_means = np.zeros((n_timesteps, n_dim_state))

filtered_state_covariances = np.zeros((n_timesteps, n_dim_state, n_dim_state))

kf = KalmanFilter(transition_matrices=F,

observation_matrices=H,

transition_covariance=Q,

observation_covariance=R,

initial_state_mean=X0,

initial_state_covariance=P0)

# iterative estimation for each new measurement

for t in range(n_timesteps):

if t == 0:

filtered_state_means[t] = X0

filtered_state_covariances[t] = P0

else:

filtered_state_means[t], filtered_state_covariances[t] = (

kf.filter_update(

filtered_state_means[t - 1],

filtered_state_covariances[t - 1],

AccX_Value[t, 0]

)

result.append(list(filtered_state_means[:, 2]))

# plt.plot(Time, AccX_Value)

# plt.plot(Time, filtered_state_means[:, 2], "r-")

# plt.title('Acceleration X')

# plt.ylim(7.5, 8.5)

# plt.grid()

# plt.legend()

# plt.savefig("original.png")

# plt.show()

f = csv.writer(open("result filter.csv", "w", newline=""))

f.writerows(result)

# n is the window size
def sliding_window_filter(data_filter, n):
    n -= 1
    length = len(data_filter)
    assert 1 <= n <= length
    filtered_data = np.copy(data_filter).astype(np.float32)
    for i in range(n):
        filtered_data[n:] += data_filter[i: length - n + i]
    filtered_data[n:] *= 1 / (n + 1)
    return filtered_data

# n is the window size

def sliding_window_filter(data_filter, n):

n -= 1

length = len(data_filter)

assert 1 <= n <= length

filtered_data = np.copy(data_filter).astype(np.float32)

for i in range(n):

filtered_data[n:] += data_filter[i: length - n + i]

filtered_data[n:] *= 1 / (n + 1)

return filtered_data

3. 数据处理

其中：num为选择哪些传感器，n_class为选择哪些活动进行分类

Data process

# 标准data类，用于dataloder
class _Data:
    def __init__(self, data, label, length=None):
        self.x = data
        self.y = label
        if length:
            self.len = length
        else:
            self.len = len(self.y)

    def __len__(self):
        return self.len

    def __getitem__(self, item):
        return self.x[item], self.y[item]


# 提取特征
def process(data):
    arange = np.arange(0, len(data))[:, np.newaxis]
    varange = np.sum(arange ** 2)
    mean = data.mean(axis=0)
    std = np.std(data, axis=0)
    k = np.sum((data - mean) * arange / varange, axis=0)
    return np.r_[mean, std, k]

# 以多少step（5s）提取数据
def load_data(step=1, process=None):
    num = [i for i in range(45)]
    dirname = "./data/"
    n_class = np.array(os.listdir(dirname))
    now = []
    label = []
    for y, class_name in enumerate(n_class):
        print(f"now process {y + 1} ")
        dir_a = os.listdir(now_dir_name := os.path.join(dirname, class_name))
        for person in range(len(dir_a)):
            dir_b = os.listdir(now_file_name := os.path.join(now_dir_name, dir_a[person]))
            for segment in range(0, (len(dir_b) + 1) // step * step - 1, step):
                temp = None
                for i in range(step):
                    if temp is None:
                        temp = np.loadtxt(os.path.join(now_file_name, dir_b[i + segment]), delimiter=",")[:, num]
                    else:
                        temp = np.r_[temp, np.loadtxt(os.path.join(now_file_name, dir_b[i + segment]), delimiter=",")[:, num]]
                temp = normalize(temp, axis=0)
                now.append(process(temp) if process is not None else temp)
                label.append(y)
    data = _Data(np.array(now), np.array(label))
    return data


# 切分数据把5s数据进行切分
def load_data_cut(cut=3, process=None):
    num = [i for i in range(45)]
    dirname = "./data/"
    n_class = os.listdir(dirname)
    now = []
    label = []
    for y, class_name in enumerate(n_class[:]):
        print(f"now process {y + 1} ")
        dir_a = os.listdir(now_dir_name := os.path.join(dirname, class_name))
        for person in range(len(dir_a)):
            dir_b = os.listdir(now_file_name := os.path.join(now_dir_name, dir_a[person]))
            for segment in range(0, len(dir_b)):
                file = np.loadtxt(os.path.join(now_file_name, dir_b[segment]), delimiter=",")[:, num]
                number = len(file) // cut
                for i in range(cut):
                    file_cut = normalize(file[number * i: number * (i + 1), :], axis=0)
                    now.append(process(file_cut) if process is not None else file_cut)
                    label.append(y)
    data = _Data(np.array(now), np.array(label))
    return data


# shuffle
def shuffleData(X, y, seed=None):
    import random
    random.seed(seed)
    index = [i for i in range(len(X))]
    random.shuffle(index)
    X = X[index]
    y = y[index]
    return X, y

# 标准data类，用于dataloder

class _Data:

def __init__(self, data, label, length=None):

self.x = data

self.y = label

if length:

self.len = length

else:

self.len = len(self.y)

def __len__(self):

return self.len

def __getitem__(self, item):

return self.x[item], self.y[item]

# 提取特征

def process(data):

arange = np.arange(0, len(data))[:, np.newaxis]

varange = np.sum(arange ** 2)

mean = data.mean(axis=0)

std = np.std(data, axis=0)

k = np.sum((data - mean) * arange / varange, axis=0)

return np.r_[mean, std, k]

# 以多少step（5s）提取数据

def load_data(step=1, process=None):

num = [i for i in range(45)]

dirname = "./data/"

n_class = np.array(os.listdir(dirname))

now = []

label = []

for y, class_name in enumerate(n_class):

print(f"now process {y + 1} ")

dir_a = os.listdir(now_dir_name := os.path.join(dirname, class_name))

for person in range(len(dir_a)):

dir_b = os.listdir(now_file_name := os.path.join(now_dir_name, dir_a[person]))

for segment in range(0, (len(dir_b) + 1) // step * step - 1, step):

temp = None

for i in range(step):

if temp is None:

temp = np.loadtxt(os.path.join(now_file_name, dir_b[i + segment]), delimiter=",")[:, num]

else:

temp = np.r_[temp, np.loadtxt(os.path.join(now_file_name, dir_b[i + segment]), delimiter=",")[:, num]]

temp = normalize(temp, axis=0)

now.append(process(temp) if process is not None else temp)

label.append(y)

data = _Data(np.array(now), np.array(label))

return data

# 切分数据把5s数据进行切分

def load_data_cut(cut=3, process=None):

num = [i for i in range(45)]

dirname = "./data/"

n_class = os.listdir(dirname)

now = []

label = []

for y, class_name in enumerate(n_class[:]):

print(f"now process {y + 1} ")

dir_a = os.listdir(now_dir_name := os.path.join(dirname, class_name))

for person in range(len(dir_a)):

dir_b = os.listdir(now_file_name := os.path.join(now_dir_name, dir_a[person]))

for segment in range(0, len(dir_b)):

file = np.loadtxt(os.path.join(now_file_name, dir_b[segment]), delimiter=",")[:, num]

number = len(file) // cut

for i in range(cut):

file_cut = normalize(file[number * i: number * (i + 1), :], axis=0)

now.append(process(file_cut) if process is not None else file_cut)

label.append(y)

data = _Data(np.array(now), np.array(label))

return data

# shuffle

def shuffleData(X, y, seed=None):

import random

random.seed(seed)

index = [i for i in range(len(X))]

random.shuffle(index)

X = X[index]

y = y[index]

return X, y

# 标准方式如下（5s）
data = load_data(step:int, process)
# 数据切分的更小
data = load_data_cut(cut:int, process)
# 保存数据
f = open("data.data", 'wb')
pickle.dump(data, f)
# 加载数据
f = open("data.data", 'rb')
data = pickle.load(f)
data = _Data(*shuffleData(data.x, data.y, 1))

# 标准方式如下（5s）

data = load_data(step:int, process)

# 数据切分的更小

data = load_data_cut(cut:int, process)

# 保存数据

f = open("data.data", 'wb')

pickle.dump(data, f)

# 加载数据

f = open("data.data", 'rb')

data = pickle.load(f)

data = _Data(*shuffleData(data.x, data.y, 1))

4. 决策树等分类

说明：代码包含k-fold cross-validation，其中注释代码可用作别的用途，具体你要画什么图就用什么代码。

Classifier

f = open("data.data", 'rb')
data = pickle.load(f)
data = _Data(*shuffleData(data.x, data.y, 1))
result = []
K = 10
size = (n := len(data)) // K
# K-fold cross validation
for i in range(10):
    now_silence = [i for i in range(i * size)] + [i for i in range((i + 1) * size, n)]
    now_silence_test = [i for i in range(i * size, (i + 1) * size)]
    X_train, X_test, y_train, y_test = data.x[now_silence], data.x[now_silence_test], data.y[now_silence], data.y[now_silence_test]

    clf3 = ExtraTreesClassifier(max_depth=10,  max_leaf_nodes=100, min_samples_split=2, random_state=0)

    clf3.fit(X_train, y_train)

    out = clf3.predict(X_test)
    result.append([f1_score(y_test, out, average='weighted'), precision_score(y_test, out, average='weighted'), recall_score(y_test, out, average='weighted'),
                   accuracy_score(y_test, out)])

    # clf1 = DecisionTreeClassifier(max_depth=None, min_samples_split=2, random_state=0)
    # clf2 = RandomForestClassifier(n_estimators=10, max_depth=None, min_samples_split=2, bootstrap=True)

    # clf1.fit(x_train, y_train)
    # clf2.fit(x_train, y_train)

    # print(clf1.feature_importances_)
    # print(clf2.feature_importances_)
    # print(clf3.feature_importances_)

    # result.append([clf1.score(x_test, y_test), clf2.score(x_test, y_test), clf3.score(x_test, y_test)])

    # confusion_matrix(y_test, clf3.predict(y_test))

    # scores1 = cross_val_score(clf1, x_train, y_train)
    # scores2 = cross_val_score(clf2, x_train, y_train)
    # scores3 = cross_val_score(clf3, x_train, y_train)
    # print('DecisionTreeClassifier交叉验证准确率为:' + str(scores1.mean()))
    # print('RandomForestClassifier交叉验证准确率为:' + str(scores2.mean()))
    # print('ExtraTreesClassifier交叉验证准确率为:' + str(scores3.mean()))

    print(result)
    print(np.array(result).mean(axis=0))
    f = open("result tree k fold.txt", 'w')
    f.writelines(str(result))

f = open("data.data", 'rb')

data = pickle.load(f)

data = _Data(*shuffleData(data.x, data.y, 1))

result = []

K = 10

size = (n := len(data)) // K

# K-fold cross validation

for i in range(10):

now_silence = [i for i in range(i * size)] + [i for i in range((i + 1) * size, n)]

now_silence_test = [i for i in range(i * size, (i + 1) * size)]

X_train, X_test, y_train, y_test = data.x[now_silence], data.x[now_silence_test], data.y[now_silence], data.y[now_silence_test]

clf3 = ExtraTreesClassifier(max_depth=10, max_leaf_nodes=100, min_samples_split=2, random_state=0)

clf3.fit(X_train, y_train)

out = clf3.predict(X_test)

result.append([f1_score(y_test, out, average='weighted'), precision_score(y_test, out, average='weighted'), recall_score(y_test, out, average='weighted'),

accuracy_score(y_test, out)])

# clf1 = DecisionTreeClassifier(max_depth=None, min_samples_split=2, random_state=0)

# clf2 = RandomForestClassifier(n_estimators=10, max_depth=None, min_samples_split=2, bootstrap=True)

# clf1.fit(x_train, y_train)

# clf2.fit(x_train, y_train)

# print(clf1.feature_importances_)

# print(clf2.feature_importances_)

# print(clf3.feature_importances_)

# result.append([clf1.score(x_test, y_test), clf2.score(x_test, y_test), clf3.score(x_test, y_test)])

# confusion_matrix(y_test, clf3.predict(y_test))

# scores1 = cross_val_score(clf1, x_train, y_train)

# scores2 = cross_val_score(clf2, x_train, y_train)

# scores3 = cross_val_score(clf3, x_train, y_train)

# print('DecisionTreeClassifier交叉验证准确率为:' + str(scores1.mean()))

# print('RandomForestClassifier交叉验证准确率为:' + str(scores2.mean()))

# print('ExtraTreesClassifier交叉验证准确率为:' + str(scores3.mean()))

print(result)

print(np.array(result).mean(axis=0))

f = open("result tree k fold.txt", 'w')

f.writelines(str(result))

5. TFSC

TFSC

dirname = "./data/"
# 具体让那几个东西进行分类
n_class = os.listdir(dirname)
# n_class = [n_class[0], n_class[17]]
# 具体使用那些传感器
num = [i for i in range(45)]
now = []
label = []
for y, class_name in enumerate(n_class):
    print(f"now process {y + 1} ")
    for person, person_name in enumerate(os.listdir(now_dir_name := os.path.join(dirname, class_name))[:]):
        for segment, segment_name in enumerate(os.listdir(now_file_name := os.path.join(now_dir_name, person_name))[:]):
            now.append(np.loadtxt(os.path.join(now_file_name, segment_name), delimiter=",")[:, num].T)
            label.append(y)

data = _Data(np.array(now), np.array(label))
print("data process finished, start TSFC")
X_train, X_test, y_train, y_test = train_test_split(data.x, data.y, test_size=0.1)
clf = MultivariateClassifier(TimeSeriesForest(n_jobs=6))
# print(clf.estimators_[0]._pipeline['rfc'].estimators_)
clf.fit(X_train, y_train)
print(clf.score(X_test, y_test))

with open("clf.data", 'wb') as f:
    pickle.dump(clf, f)
    f.close()

dirname = "./data/"

# 具体让那几个东西进行分类

n_class = os.listdir(dirname)

# n_class = [n_class[0], n_class[17]]

# 具体使用那些传感器

num = [i for i in range(45)]

now = []

label = []

for y, class_name in enumerate(n_class):

print(f"now process {y + 1} ")

for person, person_name in enumerate(os.listdir(now_dir_name := os.path.join(dirname, class_name))[:]):

for segment, segment_name in enumerate(os.listdir(now_file_name := os.path.join(now_dir_name, person_name))[:]):

now.append(np.loadtxt(os.path.join(now_file_name, segment_name), delimiter=",")[:, num].T)

label.append(y)

data = _Data(np.array(now), np.array(label))

print("data process finished, start TSFC")

X_train, X_test, y_train, y_test = train_test_split(data.x, data.y, test_size=0.1)

clf = MultivariateClassifier(TimeSeriesForest(n_jobs=6))

# print(clf.estimators_[0]._pipeline['rfc'].estimators_)

clf.fit(X_train, y_train)

print(clf.score(X_test, y_test))

with open("clf.data", 'wb') as f:

pickle.dump(clf, f)

f.close()

with open("clf.data", 'rb') as f:
    clf = pickle.load(f)
    print(clf)
    f.close()

print(len(clf.estimators_[0].feature_importances_))

# now = []
# label = []
# for y, class_name in enumerate(n_class):
#     print(f"now process {y + 1} ")
#     for person, person_name in enumerate(os.listdir(now_dir_name := os.path.join(dirname, class_name))[:]):
#         for segment, segment_name in enumerate(os.listdir(now_file_name := os.path.join(now_dir_name, person_name))[:]):
#             now.append(np.loadtxt(os.path.join(now_file_name, segment_name), delimiter=",")[:, num].T)
#             label.append(y)
# data = _Data(np.array(now), np.array(label))
# print(clf.score(data.x, data.y))

with open("clf.data", 'rb') as f:

clf = pickle.load(f)

print(clf)

f.close()

print(len(clf.estimators_[0].feature_importances_))

# now = []

# label = []

# for y, class_name in enumerate(n_class):

# print(f"now process {y + 1} ")

# for person, person_name in enumerate(os.listdir(now_dir_name := os.path.join(dirname, class_name))[:]):

# for segment, segment_name in enumerate(os.listdir(now_file_name := os.path.join(now_dir_name, person_name))[:]):

# now.append(np.loadtxt(os.path.join(now_file_name, segment_name), delimiter=",")[:, num].T)

# label.append(y)

# data = _Data(np.array(now), np.array(label))

# print(clf.score(data.x, data.y))

6. DCLSTM

DCLSTM

"""
https://github.com/dspanah/Sensor-Based-Human-Activity-Recognition-DeepConvLSTM-Pytorch
"""
def load_dataset(filename, num, step=None):
    dirname = filename
    now = []
    label = []
    for y, class_name in enumerate(os.listdir(dirname)[:]):
        print(f"now process {y + 1} ")
        dir_a = os.listdir(now_dir_name := os.path.join(dirname, class_name))
        for person in range(len(dir_a)):
            dir_b = os.listdir(now_file_name := os.path.join(now_dir_name, dir_a[person]))
            for segment in range(0, (len(dir_b) + 1) // step * step - 1, step):
                temp = None
                for i in range(step):
                    if temp is None:
                        temp = np.loadtxt(os.path.join(now_file_name, dir_b[i + segment]), delimiter=",")[:, num].T
                    else:
                        temp = np.r_[temp, np.loadtxt(os.path.join(now_file_name, dir_b[i + segment]), delimiter=",")[:, num].T]
                now.append(temp)
                label.append(y)
    x = torch.nn.functional.normalize(torch.tensor(torch.from_numpy(np.array(now)), dtype=torch.float32), dim=-1)
    # x = torch.tensor(torch.from_numpy(np.array(now)), dtype=torch.float32)
    data = _Data(x, torch.from_numpy(np.array(label)).long())

    return data


# data1 无滤波归一化 data2滤波无归一化 data3滤波归一化
datafile = "./data.data"
if os.path.exists(datafile):
    with open(datafile, 'rb') as f:
        data = pickle.load(f)
        f.close()
else:
    print("Loading data...")
    num = [i for i in range(45)]
    data = load_dataset('./data/', num, 1)
    print("Done")
    with open(datafile, 'wb') as f:
        pickle.dump(data, f)
        f.close()

X_train, X_test, y_train, y_test = train_test_split(data.x, data.y, test_size=0.3, random_state=1)
# for i in range(len(X_test)):
#     for j in range(-6, 0):
#         X_test[i][j][:] = torch.tensor([0]*125)
print(X_train.shape)
_, SLIDING_WINDOW_LENGTH, NB_SENSOR_CHANNELS = X_train.shape


class HARModel(nn.Module):

    def __init__(self, n_hidden=128, n_layers=1, n_filters=100,
                 n_classes=19, filter_size=1, drop_prob=0.5):
        super(HARModel, self).__init__()
        self.drop_prob = drop_prob
        self.n_layers = n_layers
        self.n_hidden = n_hidden
        self.n_filters = n_filters
        self.n_classes = n_classes
        self.filter_size = (filter_size,)

        self.conv1 = nn.Conv1d(NB_SENSOR_CHANNELS, n_filters, self.filter_size)
        self.conv2 = nn.Conv1d(n_filters, n_filters, self.filter_size)
        self.conv3 = nn.Conv1d(n_filters, n_filters, self.filter_size)
        self.conv4 = nn.Conv1d(n_filters, n_filters, self.filter_size)

        self.lstm1 = nn.LSTM(n_filters, n_hidden, n_layers)
        self.lstm2 = nn.LSTM(n_hidden, n_hidden, n_layers)

        self.fc = nn.Linear(n_hidden, n_classes)

        self.dropout = nn.Dropout(drop_prob)

    def forward(self, x, hidden, batch_size):

        x = x.view(-1, NB_SENSOR_CHANNELS, SLIDING_WINDOW_LENGTH)
        x = F.relu(self.conv1(x))
        x = F.relu(self.conv2(x))
        x = F.relu(self.conv3(x))
        x = F.relu(self.conv4(x))

        x = x.view(-1, batch_size, self.n_filters)
        # x = x.view(SLIDING_WINDOW_LENGTH, -1, NB_SENSOR_CHANNELS)
        x, hidden = self.lstm1(x, hidden)
        x, hidden = self.lstm2(x, hidden)

        x = x.contiguous().view(-1, self.n_hidden)
        x = self.dropout(x)
        x = self.fc(x)

        out = x.view(batch_size, -1, self.n_classes)[:, -1, :]

        return out, hidden

    def init_hidden(self, batch_size):
        ''' Initializes hidden state '''
        # Create two new tensors with sizes n_layers x batch_size x n_hidden,
        # initialized to zero, for hidden state and cell state of LSTM
        weight = next(self.parameters()).data

        if (train_on_gpu):
            hidden = (weight.new(self.n_layers, batch_size, self.n_hidden).zero_().cuda(),
                      weight.new(self.n_layers, batch_size, self.n_hidden).zero_().cuda())
        else:
            hidden = (weight.new(self.n_layers, batch_size, self.n_hidden).zero_(),
                      weight.new(self.n_layers, batch_size, self.n_hidden).zero_())

        return hidden


net = HARModel()


def init_weights(m):
    if type(m) == nn.LSTM:
        for name, param in m.named_parameters():
            if 'weight_ih' in name:
                torch.nn.init.orthogonal_(param.data)
            elif 'weight_hh' in name:
                torch.nn.init.orthogonal_(param.data)
            elif 'bias' in name:
                param.data.fill_(0)
    elif type(m) == nn.Conv1d or type(m) == nn.Linear:
        torch.nn.init.orthogonal_(m.weight)
        m.bias.data.fill_(0)


net.apply(init_weights)


def iterate_minibatches(inputs, targets, batchsize, shuffle=True):
    assert len(inputs) == len(targets)
    if shuffle:
        indices = np.arange(len(inputs))
        np.random.shuffle(indices)
    for start_idx in range(0, len(inputs) - batchsize + 1, batchsize):
        if shuffle:
            excerpt = indices[start_idx:start_idx + batchsize]
        else:
            excerpt = slice(start_idx, start_idx + batchsize)
        yield inputs[excerpt], targets[excerpt]


## check if GPU is available
train_on_gpu = torch.cuda.is_available()
if (train_on_gpu):
    print('Training on GPU!')
else:
    print('No GPU available, training on CPU; consider making n_epochs very small.')


def train(net, epochs=1000, batch_size=400, lr=0.001):
    opt = torch.optim.Adam(net.parameters(), lr=lr)
    criterion = nn.CrossEntropyLoss()

    if (train_on_gpu):
        net.cuda()

    for e in range(epochs):

        # initialize hidden state
        h = net.init_hidden(batch_size)
        train_losses = []
        net.train()
        for batch in iterate_minibatches(X_train, y_train, batch_size):
            inputs, targets = batch

            if (train_on_gpu):
                inputs, targets = inputs.cuda(), targets.cuda()

            # Creating new variables for the hidden state, otherwise
            # we'd backprop through the entire training history
            h = tuple([each.data for each in h])

            # zero accumulated gradients
            opt.zero_grad()

            # get the output from the model
            output, h = net(inputs, h, batch_size)

            loss = criterion(output, targets.long())
            train_losses.append(loss.item())
            loss.backward()
            opt.step()

        val_h = net.init_hidden(batch_size)
        val_losses = []
        accuracy = 0
        f1score = 0
        net.eval()

        with torch.no_grad():
            for batch in iterate_minibatches(X_test, y_test, batch_size):
                inputs, targets = batch

                val_h = tuple([each.data for each in val_h])

                if (train_on_gpu):
                    inputs, targets = inputs.cuda(), targets.cuda()

                output, val_h = net(inputs, val_h, batch_size)
                # print(confusion_matrix(y_train, output))

                val_loss = criterion(output, targets.long())
                val_losses.append(val_loss.item())

                top_p, top_class = output.topk(1, dim=1)
                equals = top_class == targets.view(*top_class.shape).long()
                accuracy += torch.mean(equals.type(torch.FloatTensor))
                f1score += metrics.f1_score(top_class.cpu(), targets.view(*top_class.shape).long().cpu(), average='weighted')

        net.train()  # reset to train mode after iterationg through validation data
        print("Epoch: {}/{}...".format(e + 1, epochs),
              "Train Loss: {:.4f}...".format(np.mean(train_losses)),
              "Val Loss: {:.4f}...".format(np.mean(val_losses)),
              "Val Acc: {:.4f}...".format(accuracy / (len(X_test) // batch_size)),
              "F1-Score: {:.4f}...".format(f1score / (len(X_test) // batch_size)))


train(net)

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

"""

https://github.com/dspanah/Sensor-Based-Human-Activity-Recognition-DeepConvLSTM-Pytorch

"""

def load_dataset(filename, num, step=None):

dirname = filename

now = []

label = []

for y, class_name in enumerate(os.listdir(dirname)[:]):

print(f"now process {y + 1} ")

dir_a = os.listdir(now_dir_name := os.path.join(dirname, class_name))

for person in range(len(dir_a)):

dir_b = os.listdir(now_file_name := os.path.join(now_dir_name, dir_a[person]))

for segment in range(0, (len(dir_b) + 1) // step * step - 1, step):

temp = None

for i in range(step):

if temp is None:

temp = np.loadtxt(os.path.join(now_file_name, dir_b[i + segment]), delimiter=",")[:, num].T

else:

temp = np.r_[temp, np.loadtxt(os.path.join(now_file_name, dir_b[i + segment]), delimiter=",")[:, num].T]

now.append(temp)

label.append(y)

x = torch.nn.functional.normalize(torch.tensor(torch.from_numpy(np.array(now)), dtype=torch.float32), dim=-1)

# x = torch.tensor(torch.from_numpy(np.array(now)), dtype=torch.float32)

data = _Data(x, torch.from_numpy(np.array(label)).long())

return data

# data1 无滤波归一化 data2滤波无归一化 data3滤波归一化

datafile = "./data.data"

if os.path.exists(datafile):

with open(datafile, 'rb') as f:

data = pickle.load(f)

f.close()

else:

print("Loading data...")

num = [i for i in range(45)]

data = load_dataset('./data/', num, 1)

print("Done")

with open(datafile, 'wb') as f:

pickle.dump(data, f)

f.close()

X_train, X_test, y_train, y_test = train_test_split(data.x, data.y, test_size=0.3, random_state=1)

# for i in range(len(X_test)):

# for j in range(-6, 0):

# X_test[i][j][:] = torch.tensor([0]*125)

print(X_train.shape)

_, SLIDING_WINDOW_LENGTH, NB_SENSOR_CHANNELS = X_train.shape

class HARModel(nn.Module):

def __init__(self, n_hidden=128, n_layers=1, n_filters=100,

n_classes=19, filter_size=1, drop_prob=0.5):

super(HARModel, self).__init__()

self.drop_prob = drop_prob

self.n_layers = n_layers

self.n_hidden = n_hidden

self.n_filters = n_filters

self.n_classes = n_classes

self.filter_size = (filter_size,)

self.conv1 = nn.Conv1d(NB_SENSOR_CHANNELS, n_filters, self.filter_size)

self.conv2 = nn.Conv1d(n_filters, n_filters, self.filter_size)

self.conv3 = nn.Conv1d(n_filters, n_filters, self.filter_size)

self.conv4 = nn.Conv1d(n_filters, n_filters, self.filter_size)

self.lstm1 = nn.LSTM(n_filters, n_hidden, n_layers)

self.lstm2 = nn.LSTM(n_hidden, n_hidden, n_layers)

self.fc = nn.Linear(n_hidden, n_classes)

self.dropout = nn.Dropout(drop_prob)

def forward(self, x, hidden, batch_size):

x = x.view(-1, NB_SENSOR_CHANNELS, SLIDING_WINDOW_LENGTH)

x = F.relu(self.conv1(x))

x = F.relu(self.conv2(x))

x = F.relu(self.conv3(x))

x = F.relu(self.conv4(x))

x = x.view(-1, batch_size, self.n_filters)

# x = x.view(SLIDING_WINDOW_LENGTH, -1, NB_SENSOR_CHANNELS)

x, hidden = self.lstm1(x, hidden)

x, hidden = self.lstm2(x, hidden)

x = x.contiguous().view(-1, self.n_hidden)

x = self.dropout(x)

x = self.fc(x)

out = x.view(batch_size, -1, self.n_classes)[:, -1, :]

return out, hidden

def init_hidden(self, batch_size):

''' Initializes hidden state '''

# Create two new tensors with sizes n_layers x batch_size x n_hidden,

# initialized to zero, for hidden state and cell state of LSTM

weight = next(self.parameters()).data

if (train_on_gpu):

hidden = (weight.new(self.n_layers, batch_size, self.n_hidden).zero_().cuda(),

weight.new(self.n_layers, batch_size, self.n_hidden).zero_().cuda())

else:

hidden = (weight.new(self.n_layers, batch_size, self.n_hidden).zero_(),

weight.new(self.n_layers, batch_size, self.n_hidden).zero_())

return hidden

net = HARModel()

def init_weights(m):

if type(m) == nn.LSTM:

for name, param in m.named_parameters():

if 'weight_ih' in name:

torch.nn.init.orthogonal_(param.data)

elif 'weight_hh' in name:

torch.nn.init.orthogonal_(param.data)

elif 'bias' in name:

param.data.fill_(0)

elif type(m) == nn.Conv1d or type(m) == nn.Linear:

torch.nn.init.orthogonal_(m.weight)

m.bias.data.fill_(0)

net.apply(init_weights)

def iterate_minibatches(inputs, targets, batchsize, shuffle=True):

assert len(inputs) == len(targets)

if shuffle:

indices = np.arange(len(inputs))

np.random.shuffle(indices)

for start_idx in range(0, len(inputs) - batchsize + 1, batchsize):

if shuffle:

excerpt = indices[start_idx:start_idx + batchsize]

else:

excerpt = slice(start_idx, start_idx + batchsize)

yield inputs[excerpt], targets[excerpt]

## check if GPU is available

train_on_gpu = torch.cuda.is_available()

if (train_on_gpu):

print('Training on GPU!')

else:

print('No GPU available, training on CPU; consider making n_epochs very small.')

def train(net, epochs=1000, batch_size=400, lr=0.001):

opt = torch.optim.Adam(net.parameters(), lr=lr)

criterion = nn.CrossEntropyLoss()

if (train_on_gpu):

net.cuda()

for e in range(epochs):

# initialize hidden state

h = net.init_hidden(batch_size)

train_losses = []

net.train()

for batch in iterate_minibatches(X_train, y_train, batch_size):

inputs, targets = batch

if (train_on_gpu):

inputs, targets = inputs.cuda(), targets.cuda()

# Creating new variables for the hidden state, otherwise

# we'd backprop through the entire training history

h = tuple([each.data for each in h])

# zero accumulated gradients

opt.zero_grad()

# get the output from the model

output, h = net(inputs, h, batch_size)

loss = criterion(output, targets.long())

train_losses.append(loss.item())

loss.backward()

opt.step()

val_h = net.init_hidden(batch_size)

val_losses = []

accuracy = 0

f1score = 0

net.eval()

with torch.no_grad():

for batch in iterate_minibatches(X_test, y_test, batch_size):

inputs, targets = batch

val_h = tuple([each.data for each in val_h])

if (train_on_gpu):

inputs, targets = inputs.cuda(), targets.cuda()

output, val_h = net(inputs, val_h, batch_size)

# print(confusion_matrix(y_train, output))

val_loss = criterion(output, targets.long())

val_losses.append(val_loss.item())

top_p, top_class = output.topk(1, dim=1)

equals = top_class == targets.view(*top_class.shape).long()

accuracy += torch.mean(equals.type(torch.FloatTensor))

f1score += metrics.f1_score(top_class.cpu(), targets.view(*top_class.shape).long().cpu(), average='weighted')

net.train() # reset to train mode after iterationg through validation data

print("Epoch: {}/{}...".format(e + 1, epochs),

"Train Loss: {:.4f}...".format(np.mean(train_losses)),

"Val Loss: {:.4f}...".format(np.mean(val_losses)),

"Val Acc: {:.4f}...".format(accuracy / (len(X_test) // batch_size)),

"F1-Score: {:.4f}...".format(f1score / (len(X_test) // batch_size)))

train(net)

7. NSGA-ii剪枝优化

NSGA2

# 自定义 GA
class My_nsga(ea.Problem):
    def __init__(self, pools=10):
        # max_depth = 18-30     min_samples_leaf = 10-20   max_features=85-135  max_leaf_nodes = 50-200 ccp_alpha = 0.0001-0.002
        max_depth = [18, 30]
        min_samples_leaf = [10, 20]
        max_feature = [85, 135]
        max_leaf_node = [50, 200]
        ccp_alpha = [0.0001, 0.002]
        name = 'Tree Classifier'
        M = 2
        maxormins = [-1, 1]
        Dim = 5
        varTypes = [1] * 4 + [0]
        lb, ub = list(zip(*[max_depth, min_samples_leaf, max_feature, max_leaf_node, ccp_alpha]))
        lb = list(lb)
        ub = list(ub)
        lbin = [1] * Dim
        ubin = [1] * Dim

        self.ans = {}
        self.max_score = -float("inf")
        self.epoch = 0
        self.pool = ProcessPool(pools)
        ea.Problem.__init__(self, name, M, maxormins, Dim, varTypes, lb, ub, lbin, ubin)

    # 目标函数即神经网络返回值
    # 多线程
    # @cal_time()
    def evalVars(self, Vars):
        global data
        args = []
        for i in range(len(Vars)):
            varibal = list(Vars[i])
            args.append(varibal + [data.x, data.y])
        result = self.pool.starmap_async(get_ans, args)
        result.wait()
        ans = result.get()
        ans = np.array(ans)
        print(f"Epoch: {self.epoch}, Epoch Max: {ans.max(axis=0)}")
        self.epoch += 1
        return ans


def get_ans(max_depth, min_samples_leaf, max_feature, max_leaf_node, ccp_alpha, x, y):
    score = []
    max_depth, min_samples_leaf, max_feature, max_leaf_node = map(int, (max_depth, min_samples_leaf, max_feature, max_leaf_node))
    for i in range(10):
        x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.7)
        clf = ExtraTreesClassifier(max_depth=max_depth, min_samples_leaf=min_samples_leaf, max_features=max_feature, max_leaf_nodes=max_leaf_node, ccp_alpha=ccp_alpha, n_estimators=10, min_samples_split=2, bootstrap=False)
        clf.fit(x_train, y_train)
        score1 = float(clf.score(x_test, y_test))
        score2 = float(clf.score(x_train, y_train))
        score.append([score1, abs(score1 - score2)])
    return np.array(score).mean(axis=0)


# 运行 GA
# @cal_time()
def Run_nsga(ndind=10, maxgen=100, pools=10):
    problem = My_nsga(pools)
    encoding = "RI"
    # 查看染色体编码
    # field = ea.crtfld(encoding, problem.varTypes, problem.ranges, problem.borders)
    # print(ea.crtpc(encoding, ndind, field))
    myAlgorithm = ea.moea_NSGA2_templet(problem, ea.Population(Encoding=encoding, NIND=ndind), MAXGEN=maxgen, logTras=1, drawing=1)
    res = ea.optimize(myAlgorithm, seed=1, verbose=True, drawing=1, outputMsg=1, drawLog=1, saveFlag=1, dirName='result')
    print(res)


if __name__ == "__main__":
    with open(r"./Datas/data_tree_{}".format(0), 'rb') as f:
        data = pickle.load(f)
        f.close()

    Run_nsga(30, 100, 14)

# 自定义 GA

class My_nsga(ea.Problem):

def __init__(self, pools=10):

# max_depth = 18-30 min_samples_leaf = 10-20 max_features=85-135 max_leaf_nodes = 50-200 ccp_alpha = 0.0001-0.002

max_depth = [18, 30]

min_samples_leaf = [10, 20]

max_feature = [85, 135]

max_leaf_node = [50, 200]

ccp_alpha = [0.0001, 0.002]

name = 'Tree Classifier'

M = 2

maxormins = [-1, 1]

Dim = 5

varTypes = [1] * 4 + [0]

lb, ub = list(zip(*[max_depth, min_samples_leaf, max_feature, max_leaf_node, ccp_alpha]))

lb = list(lb)

ub = list(ub)

lbin = [1] * Dim

ubin = [1] * Dim

self.ans = {}

self.max_score = -float("inf")

self.epoch = 0

self.pool = ProcessPool(pools)

ea.Problem.__init__(self, name, M, maxormins, Dim, varTypes, lb, ub, lbin, ubin)

# 目标函数即神经网络返回值

# 多线程

# @cal_time()

def evalVars(self, Vars):

global data

args = []

for i in range(len(Vars)):

varibal = list(Vars[i])

args.append(varibal + [data.x, data.y])

result = self.pool.starmap_async(get_ans, args)

result.wait()

ans = result.get()

ans = np.array(ans)

print(f"Epoch: {self.epoch}, Epoch Max: {ans.max(axis=0)}")

self.epoch += 1

return ans

def get_ans(max_depth, min_samples_leaf, max_feature, max_leaf_node, ccp_alpha, x, y):

score = []

max_depth, min_samples_leaf, max_feature, max_leaf_node = map(int, (max_depth, min_samples_leaf, max_feature, max_leaf_node))

for i in range(10):

x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.7)

clf = ExtraTreesClassifier(max_depth=max_depth, min_samples_leaf=min_samples_leaf, max_features=max_feature, max_leaf_nodes=max_leaf_node, ccp_alpha=ccp_alpha, n_estimators=10, min_samples_split=2, bootstrap=False)

clf.fit(x_train, y_train)

score1 = float(clf.score(x_test, y_test))

score2 = float(clf.score(x_train, y_train))

score.append([score1, abs(score1 - score2)])

return np.array(score).mean(axis=0)

# 运行 GA

# @cal_time()

def Run_nsga(ndind=10, maxgen=100, pools=10):

problem = My_nsga(pools)

encoding = "RI"

# 查看染色体编码

# field = ea.crtfld(encoding, problem.varTypes, problem.ranges, problem.borders)

# print(ea.crtpc(encoding, ndind, field))

myAlgorithm = ea.moea_NSGA2_templet(problem, ea.Population(Encoding=encoding, NIND=ndind), MAXGEN=maxgen, logTras=1, drawing=1)

res = ea.optimize(myAlgorithm, seed=1, verbose=True, drawing=1, outputMsg=1, drawLog=1, saveFlag=1, dirName='result')

print(res)

if __name__ == "__main__":

with open(r"./Datas/data_tree_{}".format(0), 'rb') as f:

data = pickle.load(f)

f.close()

Run_nsga(30, 100, 14)

遗传算法背包问题

排列编码

import pandas as pd
import geatpy as ea
import numpy as np
import random
from multiprocessing import Pool


class Data:
    market, market_value = None, None

    def __init__(self, df, platform, platform_max):
        self.platform = platform
        self.platform_max = platform_max
        self.x = df['交易量']
        self.y = df["交易费用"]

    def getResult(self, choose, average):
        choose_dict = [{"index": choose[i], "x": self.x[i], "y": self.y[i]} for i in range(len(choose))]
        choose_dict = sorted(choose_dict, key=lambda x: x["index"])
        result = float("inf")
        for i in range(self.platform):
            market_value = 0
            market = 0
            for j in range(average):
                if choose_dict[i * average + j]["x"] + market > self.platform_max:
                    result = min(result, market_value)
                    break
                else:
                    market_value += choose_dict[i * average + j]["y"]
                    market += choose_dict[i * average + j]["x"]
            if market_value <= self.platform_max:
                result = min(result, market_value)
        return result


# GA 参数设置
class My_nsga(ea.Problem):
    def __init__(self, dim, df, platform, platform_max):
        name = 'GA-NET'
        M = 1
        maxormins = [-1] * M
        Dim = dim
        varTypes = [1] * Dim
        lb = [0] * Dim
        ub = [Dim - 1] * Dim
        lbin = [1] * Dim
        ubin = [1] * Dim
        self.count = 1
        self.data = Data(df, platform, platform_max)
        self.average = int(len(df) / platform)

        ea.Problem.__init__(self, name, M, maxormins, Dim, varTypes, lb, ub, lbin, ubin)

    # 目标函数即神经网络返回值
    def evalVars(self, Vars):
        ans = np.zeros(len(Vars), dtype=float).reshape(len(Vars), 1)
        for i in range(len(Vars)):
            ans[i][0] = self.data.getResult(Vars[i], self.average)
        # print(ans.max(axis=0))
        return ans


# 运行 GA
def Run_nsga(dim, df, platform, platform_max, loop_id, ndind=30, maxgen=1500):
    problem = My_nsga(dim, df, platform, platform_max)
    myAlgorithm = ea.soea_EGA_templet(problem, ea.Population(Encoding='P', NIND=ndind), MAXGEN=maxgen, logTras=0)
    # 要得到图把 drawing = 1
    saveFlag = 1
    res = ea.optimize(myAlgorithm, seed=1, verbose=False, drawing=1, outputMsg=1, drawLog=1, saveFlag=saveFlag, dirName='result{}'.format(loop_id))
    if saveFlag:
        np.savetxt("./result{}/result.csv".format(i), res['Vars'][0], delimiter=",")
    return res['ObjV'][0][0]


if __name__ == "__main__":
    df = pd.read_excel("data.xlsx", sheet_name=None, engine='openpyxl')
    # 设置每张表分成的 platform 数量
    platforms = [2, 4, 10, 20, 10, 50, 50, 100]
    # 设置每张表 platform 最大值
    platform_maxs = [2000, 1000, 1500, 800, 500, 100, 416, 208]
    # 设置是否训练表
    is_train = [0, 0, 1, 1, 0, 0, 0, 0]
    values = list(df.values())[:4]
    pool = Pool(sum(is_train))
    for i in range(len(values)):
        if not is_train[i]:
            continue
        # 最后两个参数：种群数量，最大迭代次数
        pool.apply_async(Run_nsga, args=(len(values[i]), values[i], platforms[i], platform_maxs[i], i, 500, 600))
    pool.close()
    pool.join()

import pandas as pd

import geatpy as ea

import numpy as np

import random

from multiprocessing import Pool

class Data:

market, market_value = None, None

def __init__(self, df, platform, platform_max):

self.platform = platform

self.platform_max = platform_max

self.x = df['交易量']

self.y = df["交易费用"]

def getResult(self, choose, average):

choose_dict = [{"index": choose[i], "x": self.x[i], "y": self.y[i]} for i in range(len(choose))]

choose_dict = sorted(choose_dict, key=lambda x: x["index"])

result = float("inf")

for i in range(self.platform):

market_value = 0

market = 0

for j in range(average):

if choose_dict[i * average + j]["x"] + market > self.platform_max:

result = min(result, market_value)

break

else:

market_value += choose_dict[i * average + j]["y"]

market += choose_dict[i * average + j]["x"]

if market_value <= self.platform_max:

result = min(result, market_value)

return result

# GA 参数设置

class My_nsga(ea.Problem):

def __init__(self, dim, df, platform, platform_max):

name = 'GA-NET'

M = 1

maxormins = [-1] * M

Dim = dim

varTypes = [1] * Dim

lb = [0] * Dim

ub = [Dim - 1] * Dim

lbin = [1] * Dim

ubin = [1] * Dim

self.count = 1

self.data = Data(df, platform, platform_max)

self.average = int(len(df) / platform)

ea.Problem.__init__(self, name, M, maxormins, Dim, varTypes, lb, ub, lbin, ubin)

# 目标函数即神经网络返回值

def evalVars(self, Vars):

ans = np.zeros(len(Vars), dtype=float).reshape(len(Vars), 1)

for i in range(len(Vars)):

ans[i][0] = self.data.getResult(Vars[i], self.average)

# print(ans.max(axis=0))

return ans

# 运行 GA

def Run_nsga(dim, df, platform, platform_max, loop_id, ndind=30, maxgen=1500):

problem = My_nsga(dim, df, platform, platform_max)

myAlgorithm = ea.soea_EGA_templet(problem, ea.Population(Encoding='P', NIND=ndind), MAXGEN=maxgen, logTras=0)

# 要得到图把 drawing = 1

saveFlag = 1

res = ea.optimize(myAlgorithm, seed=1, verbose=False, drawing=1, outputMsg=1, drawLog=1, saveFlag=saveFlag, dirName='result{}'.format(loop_id))

if saveFlag:

np.savetxt("./result{}/result.csv".format(i), res['Vars'][0], delimiter=",")

return res['ObjV'][0][0]

if __name__ == "__main__":

df = pd.read_excel("data.xlsx", sheet_name=None, engine='openpyxl')

# 设置每张表分成的 platform 数量

platforms = [2, 4, 10, 20, 10, 50, 50, 100]

# 设置每张表 platform 最大值

platform_maxs = [2000, 1000, 1500, 800, 500, 100, 416, 208]

# 设置是否训练表

is_train = [0, 0, 1, 1, 0, 0, 0, 0]

values = list(df.values())[:4]

pool = Pool(sum(is_train))

for i in range(len(values)):

if not is_train[i]:

continue

# 最后两个参数：种群数量，最大迭代次数

pool.apply_async(Run_nsga, args=(len(values[i]), values[i], platforms[i], platform_maxs[i], i, 500, 600))

pool.close()

pool.join()

格雷编码（选择编码）

import pandas as pd
import geatpy as ea
import numpy as np
import random
from multiprocessing import Pool


class Data:
    market, market_value = None, None

    def __init__(self, df, platform, platform_max):
        self.platform = platform
        self.platform_max = platform_max
        self.x = df['交易量']
        self.y = df["交易费用"]

    def load(self, choose):
        self.market = [[] for _ in range(self.platform)]
        self.market_value = [[] for _ in range(self.platform)]
        for i in range(len(choose)):
            if choose[i] != 0:
                self.market[choose[i] - 1].append(self.x[i])
                self.market_value[choose[i] - 1].append(self.y[i])

    def getResult(self):
        if max(list(map(lambda x: sum(x), self.market))) > self.platform_max:
            return sum(list(map(lambda x: 0 if sum(x) < self.platform_max else self.platform_max - sum(x), self.market)))
        else:
            return min(list(map(lambda x: sum(x), self.market_value)))


# GA 参数设置
class My_nsga(ea.Problem):
    def __init__(self, dim, df, platform, platform_max):
        name = 'GA-NET'
        M = 1
        maxormins = [-1] * M
        Dim = dim
        varTypes = [1] * Dim
        lb = [0] * Dim
        ub = [platform] * Dim
        lbin = [1] * Dim
        ubin = [1] * Dim
        self.count = 1
        self.data = Data(df, platform, platform_max)

        ea.Problem.__init__(self, name, M, maxormins, Dim, varTypes, lb, ub, lbin, ubin)

    # 目标函数即神经网络返回值
    def evalVars(self, Vars):
        ans = np.zeros(len(Vars), dtype=float).reshape(len(Vars), 1)
        for i in range(len(Vars)):
            self.data.load(Vars[i])
            ans[i][0] = self.data.getResult()
        # print(ans.max(axis=0))
        return ans


# 得到初始化种群方式1
def getProphet(dim, ndind, df, platform, platform_max):
    prophet = np.zeros(shape=(ndind, dim), dtype=int)
    x = df['交易量']
    for i in range(ndind):
        # 使得platform尽可能分配均匀
        platforms = [i for i in range(platform + 1)]
        now = [0 for _ in range(platform)]
        for j in range(i % dim, dim):
            if not platforms:
                platforms = [i for i in range(platform + 1)]
            choice = random.choice(platforms)
            platforms.remove(choice)
            if choice != 0:
                now[choice - 1] += x[j]
                if now[choice - 1] < platform_max:
                    prophet[i][j] = choice
        for j in range(0, i % dim):
            if not platforms:
                platforms = [i for i in range(platform + 1)]
            choice = random.choice(platforms)
            platforms.remove(choice)
            if choice != 0:
                now[choice - 1] += x[j]
                if now[choice - 1] < platform_max:
                    prophet[i][j] = choice
    return prophet


# 得到初始化种群方式2
def getProphet2(dim, ndind, df, platform, platform_max):
    prophet = np.zeros(shape=(ndind, dim), dtype=int)
    x = df['交易量']
    for i in range(ndind):
        # 真随机抽取初始化
        now = [0 for _ in range(platform)]
        for j in range(i % dim, dim):
            choice = random.choice([i for i in range(platform + 1)])
            if choice != 0:
                now[choice - 1] += x[j]
                if now[choice - 1] < platform_max:
                    prophet[i][j] = choice
        for j in range(0, i % dim):
            choice = random.choice([i for i in range(platform + 1)])
            if choice != 0:
                now[choice - 1] += x[j]
                if now[choice - 1] < platform_max:
                    prophet[i][j] = choice
    return prophet


# 运行 GA
def Run_nsga(dim, df, platform, platform_max, loop_id, ndind=30, maxgen=1500):
    problem = My_nsga(dim, df, platform, platform_max)
    myAlgorithm = ea.soea_EGA_templet(problem, ea.Population(Encoding='RI', NIND=ndind), MAXGEN=maxgen, logTras=0)
    prophet = getProphet(dim, ndind, df, platform, platform_max)
    # 要得到图把 drawing = 1
    saveFlag = 1
    res = ea.optimize(myAlgorithm, prophet=prophet, seed=1, verbose=False, drawing=1, outputMsg=1, drawLog=1, saveFlag=saveFlag, dirName='result{}'.format(loop_id))
    if saveFlag:
        np.savetxt("./result{}/result.csv".format(i), res['Vars'][0], delimiter=",")
    return res['ObjV'][0][0]


if __name__ == "__main__":
    df = pd.read_excel("data.xlsx", sheet_name=None, engine='openpyxl')
    # 设置每张表分成的 platform 数量
    platforms = [2, 4, 10, 20, 10, 50, 50, 100]
    # 设置每张表 platform 最大值
    platform_maxs = [2000, 1000, 1500, 800, 500, 100, 416, 208]
    # platform_maxs[4] = [100, 200, 300, 400, 500, 500, 600, 700, 800, 900]
    # 设置是否训练表
    # is_train = [1, 1, 1, 1, 1, 1, 1, 1]
    is_train = [1, 1, 1, 1, 0, 0, 0, 0]
    result = []
    result_value = []
    values = list(df.values())[:8]
    pool = Pool(sum(is_train))
    for i in range(len(values)):
        if not is_train[i]:
            continue
        # 最后两个参数：种群数量，最大迭代次数
        pool.apply_async(Run_nsga, args=(len(values[i]), values[i], platforms[i], platform_maxs[i], i, 500, 1000))
    pool.close()
    pool.join()
    #     now_value = Run_nsga(len(values[i]), values[i], platforms[i], platform_maxs[i], i, 500, 1000)
    #     result_value.append(now_value)
    # np.savetxt("result_values.csv", result_value, delimiter=",")

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

import pandas as pd

import geatpy as ea

import numpy as np

import random

from multiprocessing import Pool

class Data:

market, market_value = None, None

def __init__(self, df, platform, platform_max):

self.platform = platform

self.platform_max = platform_max

self.x = df['交易量']

self.y = df["交易费用"]

def load(self, choose):

self.market = [[] for _ in range(self.platform)]

self.market_value = [[] for _ in range(self.platform)]

for i in range(len(choose)):

if choose[i] != 0:

self.market[choose[i] - 1].append(self.x[i])

self.market_value[choose[i] - 1].append(self.y[i])

def getResult(self):

if max(list(map(lambda x: sum(x), self.market))) > self.platform_max:

return sum(list(map(lambda x: 0 if sum(x) < self.platform_max else self.platform_max - sum(x), self.market)))

else:

return min(list(map(lambda x: sum(x), self.market_value)))

# GA 参数设置

class My_nsga(ea.Problem):

def __init__(self, dim, df, platform, platform_max):

name = 'GA-NET'

M = 1

maxormins = [-1] * M

Dim = dim

varTypes = [1] * Dim

lb = [0] * Dim

ub = [platform] * Dim

lbin = [1] * Dim

ubin = [1] * Dim

self.count = 1

self.data = Data(df, platform, platform_max)

ea.Problem.__init__(self, name, M, maxormins, Dim, varTypes, lb, ub, lbin, ubin)

# 目标函数即神经网络返回值

def evalVars(self, Vars):

ans = np.zeros(len(Vars), dtype=float).reshape(len(Vars), 1)

for i in range(len(Vars)):

self.data.load(Vars[i])

ans[i][0] = self.data.getResult()

# print(ans.max(axis=0))

return ans

# 得到初始化种群方式1

def getProphet(dim, ndind, df, platform, platform_max):

prophet = np.zeros(shape=(ndind, dim), dtype=int)

x = df['交易量']

for i in range(ndind):

# 使得platform尽可能分配均匀

platforms = [i for i in range(platform + 1)]

now = [0 for _ in range(platform)]

for j in range(i % dim, dim):

if not platforms:

platforms = [i for i in range(platform + 1)]

choice = random.choice(platforms)

platforms.remove(choice)

if choice != 0:

now[choice - 1] += x[j]

if now[choice - 1] < platform_max:

prophet[i][j] = choice

for j in range(0, i % dim):

if not platforms:

platforms = [i for i in range(platform + 1)]

choice = random.choice(platforms)

platforms.remove(choice)

if choice != 0:

now[choice - 1] += x[j]

if now[choice - 1] < platform_max:

prophet[i][j] = choice

return prophet

# 得到初始化种群方式2

def getProphet2(dim, ndind, df, platform, platform_max):

prophet = np.zeros(shape=(ndind, dim), dtype=int)

x = df['交易量']

for i in range(ndind):

# 真随机抽取初始化

now = [0 for _ in range(platform)]

for j in range(i % dim, dim):

choice = random.choice([i for i in range(platform + 1)])

if choice != 0:

now[choice - 1] += x[j]

if now[choice - 1] < platform_max:

prophet[i][j] = choice

for j in range(0, i % dim):

choice = random.choice([i for i in range(platform + 1)])

if choice != 0:

now[choice - 1] += x[j]

if now[choice - 1] < platform_max:

prophet[i][j] = choice

return prophet

# 运行 GA

def Run_nsga(dim, df, platform, platform_max, loop_id, ndind=30, maxgen=1500):

problem = My_nsga(dim, df, platform, platform_max)

myAlgorithm = ea.soea_EGA_templet(problem, ea.Population(Encoding='RI', NIND=ndind), MAXGEN=maxgen, logTras=0)

prophet = getProphet(dim, ndind, df, platform, platform_max)

# 要得到图把 drawing = 1

saveFlag = 1

res = ea.optimize(myAlgorithm, prophet=prophet, seed=1, verbose=False, drawing=1, outputMsg=1, drawLog=1, saveFlag=saveFlag, dirName='result{}'.format(loop_id))

if saveFlag:

np.savetxt("./result{}/result.csv".format(i), res['Vars'][0], delimiter=",")

return res['ObjV'][0][0]

if __name__ == "__main__":

df = pd.read_excel("data.xlsx", sheet_name=None, engine='openpyxl')

# 设置每张表分成的 platform 数量

platforms = [2, 4, 10, 20, 10, 50, 50, 100]

# 设置每张表 platform 最大值

platform_maxs = [2000, 1000, 1500, 800, 500, 100, 416, 208]

# platform_maxs[4] = [100, 200, 300, 400, 500, 500, 600, 700, 800, 900]

# 设置是否训练表

# is_train = [1, 1, 1, 1, 1, 1, 1, 1]

is_train = [1, 1, 1, 1, 0, 0, 0, 0]

result = []

result_value = []

values = list(df.values())[:8]

pool = Pool(sum(is_train))

for i in range(len(values)):

if not is_train[i]:

continue

# 最后两个参数：种群数量，最大迭代次数

pool.apply_async(Run_nsga, args=(len(values[i]), values[i], platforms[i], platform_maxs[i], i, 500, 1000))

pool.close()

pool.join()

# now_value = Run_nsga(len(values[i]), values[i], platforms[i], platform_maxs[i], i, 500, 1000)

# result_value.append(now_value)

# np.savetxt("result_values.csv", result_value, delimiter=",")

两个编码方式有差异，我个人认为排列编码会比较好一点，逻辑更加高一些。代码中为EGA模板（即带有精英选择机制的遗传算法），测试下来可能NSGA-ii模板会更优一些，可以在测试的时候选择你想要的算法及结果。data.xlsx

微分方程个人学习推导过程

因为直接在博客上打有点麻烦，就直接放图片了，想要pdf和latex版本可以问我要

强化学习 Pytorch

个人强化学习过程，Q-learning（基础）-> DQN -> AC -> A2C / A3C -> DDPG -> TD3

DQN

算法简要说明：采用经验回放与神经网络对Q-learning进行优化，使其能够输入连续的数，并更好的利用数据。

参考代码

"""
https://www.bilibili.com/read/cv13271394
"""
import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
import gym

# 项目参数（超参数）
BATCH_SIZE = 32  # 随机抽取BATCH_SIZE条数据。
LR = 0.01  # 学习率 （learning rate）
EPSILON = 0.9  # # 最优选择动作百分比 （greedy policy）
GAMMA = 0.9  # 奖励递减参数 （reward discount）
TARGET_REPLACE_ITER = 100  # Q 现实网络的更新频率 （target update frequency）
MEMORY_CAPACITY = 2000  # 记忆库大小
env = gym.make('CartPole-v0')  # 导入模拟实验,创建一个实验环境
env = env.unwrapped  # 还原env的原始配置， if 不还原就会限制step的次数(<200) 还原后就不受限制了
N_ACTIONS = env.action_space.n  # 杆子能做的动作 # 查看这个环境中可用的action有多少个，返回int
N_STATES = env.observation_space.shape[0]  # 杆子能获取的环境信息数 #查看这个环境中observation的特征有多少个，返回int
ENV_A_SHAPE = 0 if isinstance(env.action_space.sample(), int) else env.action_space.sample().shape  # to confirm the shape


# 定义神经网络class
class Net(nn.Module):
    def __init__(self, ):
        super(Net, self).__init__()
        # 这里以一个动作为作为观测值进行输入，然后把他们输出给50个神经元
        # N_STATES 与 图像的特征值个数有关
        self.fc1 = nn.Linear(N_STATES, 50)
        # N_ACTIONS 与 能做的动作个数有关
        self.fc1.weight.data.normal_(0, 0.1)  # 初始化权重，用二值分布来随机生成参数的值
        # 经过50个神经元运算过后的数据， 把每个动作的价值作为输出。
        #
        self.out = nn.Linear(50, N_ACTIONS)  # 做出每个动作后，每个动作的价值作为输出。
        self.out.weight.data.normal_(0, 0.1)  # 初始化权重，用二值分布来随机生成参数的值
        # 输入-当前状态 action --Net网络--输出--》 所有动作价值

    def forward(self, x):
        x = self.fc1(x)
        x = F.relu(x)
        actions_value = self.out(x)
        return actions_value


net = Net()


# 定义DQN 网络class
class DQN(object):
    def __init__(self):
        # 建立一个评估网络（eaval） 和 Q现实网络 （target）
        self.eval_net, self.target_net = Net(), Net()
        # 用来记录学习到第几步了
        self.learn_step_counter = 0  # for target updating
        # 用来记录当前指到数据库的第几个数据了
        self.memory_counter = 0  # for storing memory
        # MEMORY_CAPACITY = 2000 ， 限制了数据库只能记住2000个。前面的会被后面的覆盖
        # 一次存储的数据量有多大   MEMORY_CAPACITY 确定了memory数据库有多大 ，  后面的 N_STATES * 2 + 2 是因为 两个 N_STATES（在这里是4格子，因为N_STATES就为4）  + 一个 action动作（1格） + 一个 rward（奖励）
        self.memory = np.zeros((MEMORY_CAPACITY, N_STATES * 2 + 2))  # initialize memory
        # 优化器，优化评估神经网络（仅优化eval）
        self.optimizer = torch.optim.Adam(self.eval_net.parameters(), lr=LR)
        self.loss_func = nn.MSELoss()

    # 进行选择动作
    def choose_action(self, x):
        # 获取输入
        x = torch.unsqueeze(torch.FloatTensor(x), 0)
        # input only one sample
        # 在大部分情况，我们选择 去max-value
        if np.random.uniform() < EPSILON:  # greedy # 随机结果是否大于EPSILON（0.9）
            actions_value = self.eval_net.forward(x)  # if 取max方法选择执行动作
            action = torch.max(actions_value, 1)[1].data.numpy()
            action = action[0] if ENV_A_SHAPE == 0 else action.reshape(ENV_A_SHAPE)  # return the argmax index
        # 在少部分情况，我们选择 随机选择 （变异）
        else:  # random   # not if 取随机方法执行动作。
            action = np.random.randint(0, N_ACTIONS)
            action = action if ENV_A_SHAPE == 0 else action.reshape(ENV_A_SHAPE)
        # 输入动作action
        return action

    # 存储数据
    # 本次状态，执行的动作，获得的奖励分， 完成动作后产生的下一个状态。
    # 存储这四个值
    def store_transition(self, s, a, r, s_):
        # 把所有的记忆捆在一起，以 np类型
        # 把 三个矩阵 s ,[a,r] ,s_  平铺在一行 [a,r]是因为 他们都是 int 没有 [] 就无法平铺 ，并不代表把他们捆在一起了
        transition = np.hstack((s, [a, r], s_))
        # index 是 这一次录入的数据在 3000 的哪一个位置
        index = self.memory_counter % MEMORY_CAPACITY
        # 如果，记忆超过上线，我们重新索引。即覆盖老的记忆。
        self.memory[index, :] = transition
        self.memory_counter += 1

    # 从存储学习数据
    #  target 是 达到次数后更新， eval net是 每次learn 就进行更新
    def learn(self):
        # target parameter update  是否要更新现实网络
        # target Q现实网络 要间隔多少步跟新一下。 如果learn步数 达到 TARGET_REPLACE_ITER  就进行一次更新
        if self.learn_step_counter % TARGET_REPLACE_ITER == 0:
            # 把最新的eval 预测网络 推 给target Q现实网络
            # 也就是变成，还未变化的eval网
            self.target_net.load_state_dict(self.eval_net.state_dict())  # 把 eval的所有参数 赋值到 target中
        self.learn_step_counter += 1

        #  eval net是 每次learn 就进行更新
        #  更新逻辑就是从记忆库中随机抽取BATCH_SIZE个（32个）数据。
        sample_index = np.random.choice(MEMORY_CAPACITY, BATCH_SIZE)  # 从 数据库中 随机 抽取 BATCH_SIZE条数据
        b_memory = self.memory[sample_index, :]  # 把这BATCH_SIZE个（32个）数据打包
        # 下面这些变量是 32个数据打包的变量
        b_s = torch.FloatTensor(b_memory[:, :N_STATES])  # 32个记忆的包，包里是（当时的状态）
        b_a = torch.LongTensor(b_memory[:, N_STATES:N_STATES + 1].astype(int))  # 32个记忆的包，包里是（当时做出的动作）
        b_r = torch.FloatTensor(b_memory[:, N_STATES + 1:N_STATES + 2])  # 32个记忆的包，包里是 （当初获得的奖励）
        b_s_ = torch.FloatTensor(b_memory[:, -N_STATES:])  # 32个记忆的包，包里是 （执行动作后，下一个动作的状态）

        # q_eval w.r.t the action in experience
        # q_eval的学习过程
        # self.eval_net(b_s).gather(1, b_a)  输入我们包（32条）中的所有状态 并得到（32条）所有状态的所有动作价值， .gather(1,b_a) 只取这32个状态中 的 每一个状态的最大值
        # 预期价值计算 ==  随机32条数据中的最大值
        q_eval = self.eval_net(b_s).gather(1, b_a)  # shape (batch, 1)

        # 输入下一个状态 进入我们的现实网络 输出下一个动作的价值  .detach() 阻止网络反向传递，我们的target需要自己定义该如何更新，它的更新在learn那一步
        q_next = self.target_net(b_s_).detach()  # detach from graph, don't backpropagate
        # q_target 实际价值的计算  ==  当前价值 + GAMMA（未来价值递减参数） * 未来的价值
        q_target = b_r + GAMMA * q_next.max(1)[0].view(BATCH_SIZE, 1)  # shape (batch, 1)
        # q_eval预测值， q_target真实值
        loss = self.loss_func(q_eval, q_target)
        # 根据误差，去优化我们eval网
        # 因为这是eval的优化器
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()


# 运行总流程！！！

dqn = DQN()  # 实例化DQN类，也就是实例化这个强化学习网络
print('\nCollecting experience...')
# 进行2100次训练
for i_episode in range(2100):
    # 每一次新的训练
    # 开始，会重置我们的env， 每一次训练的环境都是独立的而完全一样的，只有网络记忆是一直留存的
    s = env.reset()  # 获得初始化 observation 环境特征
    ep_r = 0  # 作为一个计数变量，来统计我第n次训练。 完成所有动作的分的总和

    # 开始实验循环
    # 只有env认为 这个实验死了，才会结束循环
    while True:
        env.render()  # 刷新环境状态  ， 使得screen 可以联系的动
        # 根据 输入的环境特征s  输出选择动作 a
        a = dqn.choose_action(s)
        # 通过当前选择的动作得到，执行这个动作后的结果也就是，下一步状态s_（也就是observation） 特征值矩阵  ，
        # 立即回报r 返回动作执行的奖励 ， r是一个float类型
        # 终止状态 done （done=True时环境结束） ， done 是 bool
        # 调试信息 info （一般没用）
        s_, r, done, info = env.step(a)  # env.step(a) 是执行 a 动作   它返回的就是 s_ ,r ,done , info
        # 到这里，预测流程就结束........

        # 下面是对预测的结果进行评价与修正.......
        # 因为 env.step(a)返回的rward难学，所以下面是对rward的规则进行调整，让训练时间短一点
        # 方便理解，可以认为它还是r (返回执行动作的奖励)
        x, x_dot, theta, theta_dot = s_
        r1 = (env.x_threshold - abs(x)) / env.x_threshold - 0.8
        r2 = (env.theta_threshold_radians - abs(theta)) / env.theta_threshold_radians - 0.5
        r = r1 + r2
        #####

        # 存储数据
        # 每完成一个动作，记忆存储数据一次
        dqn.store_transition(s, a, r, s_)

        # 最终得分 = 每一步得分 求合
        # 最后打印它，看这一次训练，最终得分是多少（可知道总分，但不知道执行了多少个动作，当然你也可以做一个计算器算一下，不难）
        ep_r += r
        # 假如我们总训练2000次，
        # 在训练第i_episode（200）次后，我们数据库中累计的信息超过3000条后。
        # 这个时 dqn中的数据库中的记忆条数  大于 数据库的容量
        if dqn.memory_counter > MEMORY_CAPACITY:
            # 它就会开对去学习。
            # eavl 每学一次就会更新一次  # 它的更新思路是从我历史记忆中随机抽取数据。 #学习一次，就在数据库中随机挑选BATCH_SIZE（32条） 进行打包

            # 而target不一样，它是在我们学习过程中到一定频率（TARGET_REPLACE_ITER，来决定）。它的思路是：target网会去复制eval网的参数
            dqn.learn()
            # 在满足 大于数据库容量的条件下，我再看env.step(a) 返回的done，env是否认为实验结束了
            if done:
                # 如果done=True , 打印这是第n次训练和这次训练的总分
                # 打印这是i_episode次训练 ， Ep_r代表这次的总分
                print('Ep: ', i_episode,
                      '| Ep_r: ', round(ep_r, 2))
        # if done=Truue
        # env判断游戏结束跳出while循环，开始进行下一次训练
        if done:
            break
        # env判断游戏没有结束进行while循环，下次状态变成当前状态， 开始走下一步。
        s = s_

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

"""

https://www.bilibili.com/read/cv13271394

"""

import torch

import torch.nn as nn

import torch.nn.functional as F

import numpy as np

import gym

# 项目参数（超参数）

BATCH_SIZE = 32 # 随机抽取BATCH_SIZE条数据。

LR = 0.01 # 学习率（learning rate）

EPSILON = 0.9 # # 最优选择动作百分比（greedy policy）

GAMMA = 0.9 # 奖励递减参数（reward discount）

TARGET_REPLACE_ITER = 100 # Q 现实网络的更新频率（target update frequency）

MEMORY_CAPACITY = 2000 # 记忆库大小

env = gym.make('CartPole-v0') # 导入模拟实验,创建一个实验环境

env = env.unwrapped # 还原env的原始配置， if 不还原就会限制step的次数(<200) 还原后就不受限制了

N_ACTIONS = env.action_space.n # 杆子能做的动作 # 查看这个环境中可用的action有多少个，返回int

N_STATES = env.observation_space.shape[0] # 杆子能获取的环境信息数 #查看这个环境中observation的特征有多少个，返回int

ENV_A_SHAPE = 0 if isinstance(env.action_space.sample(), int) else env.action_space.sample().shape # to confirm the shape

# 定义神经网络class

class Net(nn.Module):

def __init__(self, ):

super(Net, self).__init__()

# 这里以一个动作为作为观测值进行输入，然后把他们输出给50个神经元

# N_STATES 与图像的特征值个数有关

self.fc1 = nn.Linear(N_STATES, 50)

# N_ACTIONS 与能做的动作个数有关

self.fc1.weight.data.normal_(0, 0.1) # 初始化权重，用二值分布来随机生成参数的值

# 经过50个神经元运算过后的数据，把每个动作的价值作为输出。

self.out = nn.Linear(50, N_ACTIONS) # 做出每个动作后，每个动作的价值作为输出。

self.out.weight.data.normal_(0, 0.1) # 初始化权重，用二值分布来随机生成参数的值

# 输入-当前状态 action --Net网络--输出--》所有动作价值

def forward(self, x):

x = self.fc1(x)

x = F.relu(x)

actions_value = self.out(x)

return actions_value

net = Net()

# 定义DQN 网络class

class DQN(object):

def __init__(self):

# 建立一个评估网络（eaval）和 Q现实网络（target）

self.eval_net, self.target_net = Net(), Net()

# 用来记录学习到第几步了

self.learn_step_counter = 0 # for target updating

# 用来记录当前指到数据库的第几个数据了

self.memory_counter = 0 # for storing memory

# MEMORY_CAPACITY = 2000 ，限制了数据库只能记住2000个。前面的会被后面的覆盖

# 一次存储的数据量有多大 MEMORY_CAPACITY 确定了memory数据库有多大，后面的 N_STATES * 2 + 2 是因为两个 N_STATES（在这里是4格子，因为N_STATES就为4） + 一个 action动作（1格） + 一个 rward（奖励）

self.memory = np.zeros((MEMORY_CAPACITY, N_STATES * 2 + 2)) # initialize memory

# 优化器，优化评估神经网络（仅优化eval）

self.optimizer = torch.optim.Adam(self.eval_net.parameters(), lr=LR)

self.loss_func = nn.MSELoss()

# 进行选择动作

def choose_action(self, x):

# 获取输入

x = torch.unsqueeze(torch.FloatTensor(x), 0)

# input only one sample

# 在大部分情况，我们选择去max-value

if np.random.uniform() < EPSILON: # greedy # 随机结果是否大于EPSILON（0.9）

actions_value = self.eval_net.forward(x) # if 取max方法选择执行动作

action = torch.max(actions_value, 1)[1].data.numpy()

action = action[0] if ENV_A_SHAPE == 0 else action.reshape(ENV_A_SHAPE) # return the argmax index

# 在少部分情况，我们选择随机选择（变异）

else: # random # not if 取随机方法执行动作。

action = np.random.randint(0, N_ACTIONS)

action = action if ENV_A_SHAPE == 0 else action.reshape(ENV_A_SHAPE)

# 输入动作action

return action

# 存储数据

# 本次状态，执行的动作，获得的奖励分，完成动作后产生的下一个状态。

# 存储这四个值

def store_transition(self, s, a, r, s_):

# 把所有的记忆捆在一起，以 np类型

# 把三个矩阵 s ,[a,r] ,s_ 平铺在一行 [a,r]是因为他们都是 int 没有 [] 就无法平铺，并不代表把他们捆在一起了

transition = np.hstack((s, [a, r], s_))

# index 是这一次录入的数据在 3000 的哪一个位置

index = self.memory_counter % MEMORY_CAPACITY

# 如果，记忆超过上线，我们重新索引。即覆盖老的记忆。

self.memory[index, :] = transition

self.memory_counter += 1

# 从存储学习数据

# target 是达到次数后更新， eval net是每次learn 就进行更新

def learn(self):

# target parameter update 是否要更新现实网络

# target Q现实网络要间隔多少步跟新一下。如果learn步数达到 TARGET_REPLACE_ITER 就进行一次更新

if self.learn_step_counter % TARGET_REPLACE_ITER == 0:

# 把最新的eval 预测网络推给target Q现实网络

# 也就是变成，还未变化的eval网

self.target_net.load_state_dict(self.eval_net.state_dict()) # 把 eval的所有参数赋值到 target中

self.learn_step_counter += 1

# eval net是每次learn 就进行更新

# 更新逻辑就是从记忆库中随机抽取BATCH_SIZE个（32个）数据。

sample_index = np.random.choice(MEMORY_CAPACITY, BATCH_SIZE) # 从数据库中随机抽取 BATCH_SIZE条数据

b_memory = self.memory[sample_index, :] # 把这BATCH_SIZE个（32个）数据打包

# 下面这些变量是 32个数据打包的变量

b_s = torch.FloatTensor(b_memory[:, :N_STATES]) # 32个记忆的包，包里是（当时的状态）

b_a = torch.LongTensor(b_memory[:, N_STATES:N_STATES + 1].astype(int)) # 32个记忆的包，包里是（当时做出的动作）

b_r = torch.FloatTensor(b_memory[:, N_STATES + 1:N_STATES + 2]) # 32个记忆的包，包里是（当初获得的奖励）

b_s_ = torch.FloatTensor(b_memory[:, -N_STATES:]) # 32个记忆的包，包里是（执行动作后，下一个动作的状态）

# q_eval w.r.t the action in experience

# q_eval的学习过程

# self.eval_net(b_s).gather(1, b_a) 输入我们包（32条）中的所有状态并得到（32条）所有状态的所有动作价值， .gather(1,b_a) 只取这32个状态中的每一个状态的最大值

# 预期价值计算 == 随机32条数据中的最大值

q_eval = self.eval_net(b_s).gather(1, b_a) # shape (batch, 1)

# 输入下一个状态进入我们的现实网络输出下一个动作的价值 .detach() 阻止网络反向传递，我们的target需要自己定义该如何更新，它的更新在learn那一步

q_next = self.target_net(b_s_).detach() # detach from graph, don't backpropagate

# q_target 实际价值的计算 == 当前价值 + GAMMA（未来价值递减参数） * 未来的价值

q_target = b_r + GAMMA * q_next.max(1)[0].view(BATCH_SIZE, 1) # shape (batch, 1)

# q_eval预测值， q_target真实值

loss = self.loss_func(q_eval, q_target)

# 根据误差，去优化我们eval网

# 因为这是eval的优化器

self.optimizer.zero_grad()

loss.backward()

self.optimizer.step()

# 运行总流程！！！

dqn = DQN() # 实例化DQN类，也就是实例化这个强化学习网络

print('\nCollecting experience...')

# 进行2100次训练

for i_episode in range(2100):

# 每一次新的训练

# 开始，会重置我们的env，每一次训练的环境都是独立的而完全一样的，只有网络记忆是一直留存的

s = env.reset() # 获得初始化 observation 环境特征

ep_r = 0 # 作为一个计数变量，来统计我第n次训练。完成所有动作的分的总和

# 开始实验循环

# 只有env认为这个实验死了，才会结束循环

while True:

env.render() # 刷新环境状态，使得screen 可以联系的动

# 根据输入的环境特征s 输出选择动作 a

a = dqn.choose_action(s)

# 通过当前选择的动作得到，执行这个动作后的结果也就是，下一步状态s_（也就是observation）特征值矩阵，

# 立即回报r 返回动作执行的奖励， r是一个float类型

# 终止状态 done （done=True时环境结束）， done 是 bool

# 调试信息 info （一般没用）

s_, r, done, info = env.step(a) # env.step(a) 是执行 a 动作它返回的就是 s_ ,r ,done , info

# 到这里，预测流程就结束........

# 下面是对预测的结果进行评价与修正.......

# 因为 env.step(a)返回的rward难学，所以下面是对rward的规则进行调整，让训练时间短一点

# 方便理解，可以认为它还是r (返回执行动作的奖励)

x, x_dot, theta, theta_dot = s_

r1 = (env.x_threshold - abs(x)) / env.x_threshold - 0.8

r2 = (env.theta_threshold_radians - abs(theta)) / env.theta_threshold_radians - 0.5

r = r1 + r2

#####

# 存储数据

# 每完成一个动作，记忆存储数据一次

dqn.store_transition(s, a, r, s_)

# 最终得分 = 每一步得分求合

# 最后打印它，看这一次训练，最终得分是多少（可知道总分，但不知道执行了多少个动作，当然你也可以做一个计算器算一下，不难）

ep_r += r

# 假如我们总训练2000次，

# 在训练第i_episode（200）次后，我们数据库中累计的信息超过3000条后。

# 这个时 dqn中的数据库中的记忆条数大于数据库的容量

if dqn.memory_counter > MEMORY_CAPACITY:

# 它就会开对去学习。

# eavl 每学一次就会更新一次 # 它的更新思路是从我历史记忆中随机抽取数据。 #学习一次，就在数据库中随机挑选BATCH_SIZE（32条）进行打包

# 而target不一样，它是在我们学习过程中到一定频率（TARGET_REPLACE_ITER，来决定）。它的思路是：target网会去复制eval网的参数

dqn.learn()

# 在满足大于数据库容量的条件下，我再看env.step(a) 返回的done，env是否认为实验结束了

if done:

# 如果done=True , 打印这是第n次训练和这次训练的总分

# 打印这是i_episode次训练， Ep_r代表这次的总分

print('Ep: ', i_episode,

'| Ep_r: ', round(ep_r, 2))

# if done=Truue

# env判断游戏结束跳出while循环，开始进行下一次训练

if done:

break

# env判断游戏没有结束进行while循环，下次状态变成当前状态，开始走下一步。

s = s_

Actor Critic

算法简要说明：Actor 基于概率选行为, Critic 基于 Actor 的行为评判行为的得分, Actor 根据 Critic 的评分修改选行为的概率。

说明：现已改正 CSDN 上错误代码并经行优化。Github上代码流程为跑完一次历程再进行网络优化，并且Actor和Critic共用同一个optimizer和loss，CSDN 上代码流程为原论文流程，即一边跑历程，一边训练网络，并且Actor和Critic具有不一样的optimizer和loss。

对比：原论文流程，即 CSDN 代码流程网络训练较慢，但收敛可能较快。但在跑 CartPole-v1 的时候效果还是Github 代码优异，只能说具体问题可以都试试，选择最优的代码流程。

CSDN 参考代码

"""
https://blog.csdn.net/qq_34003876/article/details/107477426
"""
import torch
import torch.nn as nn
import torch.nn.functional as F
import gym
import time
import numpy as np

# Hyper Parameters for Actor
GAMMA = 0.95  # discount factor
LR = 0.01  # learning rate

# Use GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
torch.backends.cudnn.enabled = False  # 非确定性算法


class ActorNetwork(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(ActorNetwork, self).__init__()
        self.fc1 = nn.Linear(state_dim, 20)
        self.fc2 = nn.Linear(20, action_dim)

    def forward(self, x):
        out = torch.relu(self.fc1(x))
        out = self.fc2(out)
        out = torch.softmax(out, dim=0)
        return out

    def initialize_weights(self):
        for m in self.modules():
            nn.init.normal_(m.weight.data, 0, 0.1)
            nn.init.constant_(m.bias.data, 0.01)


class Actor(object):
    # dqn Agent
    def __init__(self, env):  # 初始化
        # 状态空间和动作空间的维度
        self.state_dim = env.observation_space.shape[0]
        self.action_dim = env.action_space.n

        # init network parameters
        self.network = ActorNetwork(state_dim=self.state_dim, action_dim=self.action_dim).to(device)
        self.optimizer = torch.optim.Adam(self.network.parameters(), lr=LR)

        # init some parameters
        self.time_step = 0

    def choose_action(self, observation):
        observation = torch.FloatTensor(observation).to(device)
        network_output = self.network.forward(observation).data.numpy()
        action = np.random.choice(range(network_output.shape[0]), p=network_output)
        return action

    def learn(self, state, action, td_error):
        self.time_step += 1
        # Step 1: 前向传播
        softmax_input = self.network.forward(torch.FloatTensor(state).to(device)).unsqueeze(0)
        action = torch.LongTensor([action]).to(device)
        neg_log_prob = F.cross_entropy(input=softmax_input, target=action)
        # Step 2: 反向传播
        # 这里需要最大化当前策略的价值，因此需要最大化neg_log_prob * tf_error,即最小化-neg_log_prob * td_error
        loss_a = neg_log_prob * td_error
        self.optimizer.zero_grad()
        loss_a.backward()
        self.optimizer.step()


# Hyper Parameters for Critic
EPSILON = 0.01  # final value of epsilon
REPLAY_SIZE = 10000  # experience replay buffer size
BATCH_SIZE = 32  # size of minibatch
REPLACE_TARGET_FREQ = 10  # frequency to update target Q network


class QNetwork(nn.Module):
    def __init__(self, state_dim, action_dim):
        super(QNetwork, self).__init__()
        self.fc1 = nn.Linear(state_dim, 20)
        self.fc2 = nn.Linear(20, 1)  # 这个地方和之前略有区别，输出不是动作维度，而是一维

    def forward(self, x):
        out = F.relu(self.fc1(x))
        out = self.fc2(out)
        return out

    def initialize_weights(self):
        for m in self.modules():
            nn.init.normal_(m.weight.data, 0, 0.1)
            nn.init.constant_(m.bias.data, 0.01)


class Critic(object):
    def __init__(self, env):
        # 状态空间和动作空间的维度
        self.state_dim = env.observation_space.shape[0]
        self.action_dim = env.action_space.n

        # init network parameters
        self.network = QNetwork(state_dim=self.state_dim, action_dim=self.action_dim).to(device)
        self.optimizer = torch.optim.Adam(self.network.parameters(), lr=LR)
        self.loss_func = nn.MSELoss()

        # init some parameters
        self.time_step = 0
        self.epsilon = EPSILON  # epsilon值是随机不断变小的

    def train_Q_network(self, state, reward, next_state):
        s, s_ = torch.FloatTensor(state).to(device), torch.FloatTensor(next_state).to(device)
        # 前向传播
        v = self.network.forward(s)  # v(s)
        v_ = self.network.forward(s_)  # v(s')

        # 反向传播
        loss_q = self.loss_func(GAMMA * reward + v_, v)
        self.optimizer.zero_grad()
        loss_q.backward()
        self.optimizer.step()

        with torch.no_grad():
            td_error = GAMMA * reward + v_ - v

        return td_error


# Hyper Parameters
ENV_NAME = 'CartPole-v0'
EPISODE = 3000  # Episode limitation
STEP = 3000  # Step limitation in an episode
TEST = 10  # The number of experiment test every 100 episode


def main():
    # initialize OpenAI Gym env and dqn agent
    env = gym.make(ENV_NAME)
    actor = Actor(env)
    critic = Critic(env)

    for episode in range(EPISODE):
        # initialize task
        state = env.reset()
        # Train
        for step in range(STEP):
            action = actor.choose_action(state)  # SoftMax概率选择action
            next_state, reward, done, _ = env.step(action)
            td_error = critic.train_Q_network(state, reward, next_state)  # gradient = grad[r + gamma * V(s_) - V(s)]
            actor.learn(state, action, td_error)  # true_gradient = grad[logPi(s,a) * td_error]
            state = next_state
            if done:
                break

        # Test every 100 episodes
        if episode % 100 == 0:
            total_reward = 0
            for i in range(TEST):
                state = env.reset()
                for j in range(STEP):
                    env.render()
                    action = actor.choose_action(state)  # direct action for test
                    state, reward, done, _ = env.step(action)
                    total_reward += reward
                    if done:
                        break
            ave_reward = total_reward / TEST
            print('episode: ', episode, 'Evaluation Average Reward:', ave_reward)


if __name__ == '__main__':
    time_start = time.time()
    main()
    time_end = time.time()
    print('Total time is ', time_end - time_start, 's')

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

"""

https://blog.csdn.net/qq_34003876/article/details/107477426

"""

import torch

import torch.nn as nn

import torch.nn.functional as F

import gym

import time

import numpy as np

# Hyper Parameters for Actor

GAMMA = 0.95 # discount factor

LR = 0.01 # learning rate

# Use GPU

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

torch.backends.cudnn.enabled = False # 非确定性算法

class ActorNetwork(nn.Module):

def __init__(self, state_dim, action_dim):

super(ActorNetwork, self).__init__()

self.fc1 = nn.Linear(state_dim, 20)

self.fc2 = nn.Linear(20, action_dim)

def forward(self, x):

out = torch.relu(self.fc1(x))

out = self.fc2(out)

out = torch.softmax(out, dim=0)

return out

def initialize_weights(self):

for m in self.modules():

nn.init.normal_(m.weight.data, 0, 0.1)

nn.init.constant_(m.bias.data, 0.01)

class Actor(object):

# dqn Agent

def __init__(self, env): # 初始化

# 状态空间和动作空间的维度

self.state_dim = env.observation_space.shape[0]

self.action_dim = env.action_space.n

# init network parameters

self.network = ActorNetwork(state_dim=self.state_dim, action_dim=self.action_dim).to(device)

self.optimizer = torch.optim.Adam(self.network.parameters(), lr=LR)

# init some parameters

self.time_step = 0

def choose_action(self, observation):

observation = torch.FloatTensor(observation).to(device)

network_output = self.network.forward(observation).data.numpy()

action = np.random.choice(range(network_output.shape[0]), p=network_output)

return action

def learn(self, state, action, td_error):

self.time_step += 1

# Step 1: 前向传播

softmax_input = self.network.forward(torch.FloatTensor(state).to(device)).unsqueeze(0)

action = torch.LongTensor([action]).to(device)

neg_log_prob = F.cross_entropy(input=softmax_input, target=action)

# Step 2: 反向传播

# 这里需要最大化当前策略的价值，因此需要最大化neg_log_prob * tf_error,即最小化-neg_log_prob * td_error

loss_a = neg_log_prob * td_error

self.optimizer.zero_grad()

loss_a.backward()

self.optimizer.step()

# Hyper Parameters for Critic

EPSILON = 0.01 # final value of epsilon

REPLAY_SIZE = 10000 # experience replay buffer size

BATCH_SIZE = 32 # size of minibatch

REPLACE_TARGET_FREQ = 10 # frequency to update target Q network

class QNetwork(nn.Module):

def __init__(self, state_dim, action_dim):

super(QNetwork, self).__init__()

self.fc1 = nn.Linear(state_dim, 20)

self.fc2 = nn.Linear(20, 1) # 这个地方和之前略有区别，输出不是动作维度，而是一维

def forward(self, x):

out = F.relu(self.fc1(x))

out = self.fc2(out)

return out

def initialize_weights(self):

for m in self.modules():

nn.init.normal_(m.weight.data, 0, 0.1)

nn.init.constant_(m.bias.data, 0.01)

class Critic(object):

def __init__(self, env):

# 状态空间和动作空间的维度

self.state_dim = env.observation_space.shape[0]

self.action_dim = env.action_space.n

# init network parameters

self.network = QNetwork(state_dim=self.state_dim, action_dim=self.action_dim).to(device)

self.optimizer = torch.optim.Adam(self.network.parameters(), lr=LR)

self.loss_func = nn.MSELoss()

# init some parameters

self.time_step = 0

self.epsilon = EPSILON # epsilon值是随机不断变小的

def train_Q_network(self, state, reward, next_state):

s, s_ = torch.FloatTensor(state).to(device), torch.FloatTensor(next_state).to(device)

# 前向传播

v = self.network.forward(s) # v(s)

v_ = self.network.forward(s_) # v(s')

# 反向传播

loss_q = self.loss_func(GAMMA * reward + v_, v)

self.optimizer.zero_grad()

loss_q.backward()

self.optimizer.step()

with torch.no_grad():

td_error = GAMMA * reward + v_ - v

return td_error

# Hyper Parameters

ENV_NAME = 'CartPole-v0'

EPISODE = 3000 # Episode limitation

STEP = 3000 # Step limitation in an episode

TEST = 10 # The number of experiment test every 100 episode

def main():

# initialize OpenAI Gym env and dqn agent

env = gym.make(ENV_NAME)

actor = Actor(env)

critic = Critic(env)

for episode in range(EPISODE):

# initialize task

state = env.reset()

# Train

for step in range(STEP):

action = actor.choose_action(state) # SoftMax概率选择action

next_state, reward, done, _ = env.step(action)

td_error = critic.train_Q_network(state, reward, next_state) # gradient = grad[r + gamma * V(s_) - V(s)]

actor.learn(state, action, td_error) # true_gradient = grad[logPi(s,a) * td_error]

state = next_state

if done:

break

# Test every 100 episodes

if episode % 100 == 0:

total_reward = 0

for i in range(TEST):

state = env.reset()

for j in range(STEP):

env.render()

action = actor.choose_action(state) # direct action for test

state, reward, done, _ = env.step(action)

total_reward += reward

if done:

break

ave_reward = total_reward / TEST

print('episode: ', episode, 'Evaluation Average Reward:', ave_reward)

if __name__ == '__main__':

time_start = time.time()

main()

time_end = time.time()

print('Total time is ', time_end - time_start, 's')

Github 参考代码

"""
https://github.com/pytorch/examples/blob/main/reinforcement_learning/actor_critic.py
"""
import argparse
import gym
import numpy as np
from itertools import count
from collections import namedtuple
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.distributions import Categorical

# 设置参数
parser = argparse.ArgumentParser(description='PyTorch actor-critic example')
parser.add_argument('--gamma', type=float, default=0.99, metavar='G',
                    help='discount factor (default: 0.99)')
parser.add_argument('--seed', type=int, default=543, metavar='N',
                    help='random seed (default: 543)')
parser.add_argument('--render', action='store_true',
                    help='render the environment')
parser.add_argument('--log-interval', type=int, default=10, metavar='N',
                    help='interval between training status logs (default: 10)')
args = parser.parse_args()

# 初始化 gym
env = gym.make('CartPole-v1')
env.seed(args.seed)
torch.manual_seed(args.seed)

# ln(action probability), critic value
SavedAction = namedtuple('SavedAction', ['log_prob', 'value'])


# Actor 和 Critic 共用网络
class Policy(nn.Module):
    def __init__(self):
        super(Policy, self).__init__()
        # 共用输入层
        self.affine1 = nn.Linear(4, 128)
        # Actor 层
        self.action_head = nn.Linear(128, 2)
        # Critic 层
        self.value_head = nn.Linear(128, 1)
        # 一次模拟下保存的所有 action and reward
        self.saved_actions = []
        self.rewards = []

    # Network forward
    def forward(self, x):
        x = F.relu(self.affine1(x))
        # Actor 层使用 softmax 让概率0~1分布，提高准确率。输出每个动作的概率
        action_prob = F.softmax(self.action_head(x), dim=-1)
        # Critic 层输出得分
        state_values = self.value_head(x)
        # 输出 Actor and Critic 网络
        return action_prob, state_values


# 初始化网络相关设置
model = Policy()
optimizer = optim.Adam(model.parameters(), lr=3e-2)
eps = np.finfo(np.float32).eps.item()


# 使用 Categorical 包对 action 进行选择，并保存 ln(action probability) 至网络
def select_action(state):
    state = torch.from_numpy(state).float()
    probs, state_value = model(state)
    # 创建 categorical distribution
    m = Categorical(probs)
    # 提取 sample
    action = m.sample()
    # 保存数据至 action buffer
    model.saved_actions.append(SavedAction(m.log_prob(action), state_value))
    # 输出 action (left or right)
    return action.item()


# 当完成一个循环后训练网络，详情可参考以下网站
"""
https://blog.csdn.net/qq_30615903/article/details/80774384
"""
def finish_episode():
    R = 0
    saved_actions = model.saved_actions
    # Actor loss : - \frac { 1 } { n } \sum _ { i = 1 } ^ { n } A _ { \pi } ( s , a ) \log \pi ( s , a )
    policy_losses = []
    # Critic loss : \frac { 1 } { n } \sum _ { i = 1 } ^ { n } e _ { i } ^ { 2 }
    value_losses = []
    # 策略动作值函数 ： Q_{\pi}(s,a) = R_{s}^{a}+\gamma V_{\pi}(s\prime)
    returns = []

    # calculate the true value using rewards returned from the environment
    for r in model.rewards[::-1]:
        # calculate the discounted value
        R = r + args.gamma * R
        returns.insert(0, R)

    returns = torch.tensor(returns)
    returns = (returns - returns.mean()) / (returns.std() + eps)

    for (log_prob, value), R in zip(saved_actions, returns):
        # A _ { \pi } ( s , a ) = Q _ { \pi } ( s , a ) - V _ { \pi } ( s ) = r + \gamma V _ { \pi } ( s \prime ) - V _ { \pi } ( s )
        advantage = R - value.item()
        # calculate actor (policy) loss
        policy_losses.append(-log_prob * advantage)
        # calculate critic (value) loss using L1 smooth loss
        value_losses.append(F.smooth_l1_loss(value, torch.tensor([R])))
    # sum up all the values of policy_losses and value_losses
    loss = (torch.stack(policy_losses).sum() + torch.stack(value_losses).sum()) / len(model.rewards)

    # 训练老三步
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    # reset rewards and action buffer
    del model.rewards[:]
    del model.saved_actions[:]


def main():
    running_reward = 10

    # 无限循环
    for i_episode in count(1):

        # 重置 env
        state = env.reset()
        ep_reward = 0

        # 设置 9999 step ， 防止无限循环
        for t in range(1, 10000):

            # select action from policy
            action = select_action(state)

            # take the action
            state, reward, done, _ = env.step(action)

            if args.render:
                env.render()

            model.rewards.append(reward)
            ep_reward += reward
            if done:
                break

        # 更新总体 reward
        running_reward = 0.05 * ep_reward + (1 - 0.05) * running_reward
        # 训练网络
        finish_episode()
        # 打印结果
        if i_episode % args.log_interval == 0:
            print('Episode {}\tLast reward: {:.2f}\tAverage reward: {:.2f}'.format(
                i_episode, ep_reward, running_reward))

        # 训练结束退出循环
        if running_reward > env.spec.reward_threshold:
            print("Solved! Running reward is now {} and "
                  "the last episode runs to {} time steps!".format(running_reward, t))
            break


if __name__ == '__main__':
    main()

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

"""

https://github.com/pytorch/examples/blob/main/reinforcement_learning/actor_critic.py

"""

import argparse

import gym

import numpy as np

from itertools import count

from collections import namedtuple

import torch

import torch.nn as nn

import torch.nn.functional as F

import torch.optim as optim

from torch.distributions import Categorical

# 设置参数

parser = argparse.ArgumentParser(description='PyTorch actor-critic example')

parser.add_argument('--gamma', type=float, default=0.99, metavar='G',

help='discount factor (default: 0.99)')

parser.add_argument('--seed', type=int, default=543, metavar='N',

help='random seed (default: 543)')

parser.add_argument('--render', action='store_true',

help='render the environment')

parser.add_argument('--log-interval', type=int, default=10, metavar='N',

help='interval between training status logs (default: 10)')

args = parser.parse_args()

# 初始化 gym

env = gym.make('CartPole-v1')

env.seed(args.seed)

torch.manual_seed(args.seed)

# ln(action probability), critic value

SavedAction = namedtuple('SavedAction', ['log_prob', 'value'])

# Actor 和 Critic 共用网络

class Policy(nn.Module):

def __init__(self):

super(Policy, self).__init__()

# 共用输入层

self.affine1 = nn.Linear(4, 128)

# Actor 层

self.action_head = nn.Linear(128, 2)

# Critic 层

self.value_head = nn.Linear(128, 1)

# 一次模拟下保存的所有 action and reward

self.saved_actions = []

self.rewards = []

# Network forward

def forward(self, x):

x = F.relu(self.affine1(x))

# Actor 层使用 softmax 让概率0~1分布，提高准确率。输出每个动作的概率

action_prob = F.softmax(self.action_head(x), dim=-1)

# Critic 层输出得分

state_values = self.value_head(x)

# 输出 Actor and Critic 网络

return action_prob, state_values

# 初始化网络相关设置

model = Policy()

optimizer = optim.Adam(model.parameters(), lr=3e-2)

eps = np.finfo(np.float32).eps.item()

# 使用 Categorical 包对 action 进行选择，并保存 ln(action probability) 至网络

def select_action(state):

state = torch.from_numpy(state).float()

probs, state_value = model(state)

# 创建 categorical distribution

m = Categorical(probs)

# 提取 sample

action = m.sample()

# 保存数据至 action buffer

model.saved_actions.append(SavedAction(m.log_prob(action), state_value))

# 输出 action (left or right)

return action.item()

# 当完成一个循环后训练网络，详情可参考以下网站

"""

https://blog.csdn.net/qq_30615903/article/details/80774384

"""

def finish_episode():

R = 0

saved_actions = model.saved_actions

# Actor loss : - \frac { 1 } { n } \sum _ { i = 1 } ^ { n } A _ { \pi } ( s , a ) \log \pi ( s , a )

policy_losses = []

# Critic loss : \frac { 1 } { n } \sum _ { i = 1 } ^ { n } e _ { i } ^ { 2 }

value_losses = []

# 策略动作值函数： Q_{\pi}(s,a) = R_{s}^{a}+\gamma V_{\pi}(s\prime)

returns = []

# calculate the true value using rewards returned from the environment

for r in model.rewards[::-1]:

# calculate the discounted value

R = r + args.gamma * R

returns.insert(0, R)

returns = torch.tensor(returns)

returns = (returns - returns.mean()) / (returns.std() + eps)

for (log_prob, value), R in zip(saved_actions, returns):

# A _ { \pi } ( s , a ) = Q _ { \pi } ( s , a ) - V _ { \pi } ( s ) = r + \gamma V _ { \pi } ( s \prime ) - V _ { \pi } ( s )

advantage = R - value.item()

# calculate actor (policy) loss

policy_losses.append(-log_prob * advantage)

# calculate critic (value) loss using L1 smooth loss

value_losses.append(F.smooth_l1_loss(value, torch.tensor([R])))

# sum up all the values of policy_losses and value_losses

loss = (torch.stack(policy_losses).sum() + torch.stack(value_losses).sum()) / len(model.rewards)

# 训练老三步

optimizer.zero_grad()

loss.backward()

optimizer.step()

# reset rewards and action buffer

del model.rewards[:]

del model.saved_actions[:]

def main():

running_reward = 10

# 无限循环

for i_episode in count(1):

# 重置 env

state = env.reset()

ep_reward = 0

# 设置 9999 step ，防止无限循环

for t in range(1, 10000):

# select action from policy

action = select_action(state)

# take the action

state, reward, done, _ = env.step(action)

if args.render:

env.render()

model.rewards.append(reward)

ep_reward += reward

if done:

break

# 更新总体 reward

running_reward = 0.05 * ep_reward + (1 - 0.05) * running_reward

# 训练网络

finish_episode()

# 打印结果

if i_episode % args.log_interval == 0:

print('Episode {}\tLast reward: {:.2f}\tAverage reward: {:.2f}'.format(

i_episode, ep_reward, running_reward))

# 训练结束退出循环

if running_reward > env.spec.reward_threshold:

print("Solved! Running reward is now {} and "

"the last episode runs to {} time steps!".format(running_reward, t))

break

if __name__ == '__main__':

main()

A2C A3C

网上多数认为 DDPG TD3 PPO 优于 A3C 所以我没怎么看此两种方法。简单来说就是通过多线程同时计算多个网络，返回组合来更新策略和值函数来更新网络。

1.python库

python库

2. 3\sigma and filter

Preprocess

3. 数据处理

Data process

4. 决策树等分类

Classifier

5. TFSC

TFSC

6. DCLSTM

DCLSTM

7. NSGA-ii剪枝优化

NSGA2

排列编码

格雷编码（选择编码）

DQN

参考代码

Actor Critic

CSDN 参考代码

Github 参考代码

A2C A3C

DDPG

TD3

强化学习算法选择