3 年之前 · aa2a4dacf3
--- a/data_desc.py
+++ b/data_desc.py
@@ -0,0 +1,44 @@
 
				+import _pickle as cPickle
			
 
				+import pandas as pd
			
 
				+
			
 
				+def clean_data(df):
			
 
				+    #y = df['futre7dayreturn'].apply(lambda x: np.log(df['futre7dayreturn']+1))
			
 
				+    df['futre7dayreturn'].loc[df['futre7dayreturn']<=0] = 1
			
 
				+    y = df['futre7dayreturn']
			
 
				+    df_vids = df['videoid']
			
 
				+    #drop string
			
 
				+    #x = df.drop(['videoid', 'videotags', 'videotitle', 'videodescr', 'videodistribute_title', 'videoallwords', 'words_without_tags'], axis=1)
			
 
				+    x = df.drop(['videoid', 'videotags', 'words_without_tags', 'dt'], axis=1)
			
 
				+    #drop future
			
 
				+    #x = df.drop(['futr5viewcount', 'futr5returncount', 'futre7dayreturn'], axis=1)
			
 
				+    x = x.drop(['futre7dayreturn'], axis=1)
			
 
				+
			
 
				+    x['stage_four_retrn_added'] = x['stage_four_retrn'] - x['stage_three_retrn']
			
 
				+    x['stage_three_retrn_added'] = x['stage_three_retrn'] - x['stage_two_retrn']
			
 
				+    x['stage_two_retrn_added'] = x['stage_two_retrn'] - x['stage_one_retrn']
			
 
				+
			
 
				+    x['stage_four_retrn_ratio'] = (x['stage_four_retrn'] - x['stage_three_retrn'])/x['stage_four_retrn']
			
 
				+    x['stage_three_retrn_ratio'] = (x['stage_three_retrn'] - x['stage_two_retrn'])/x['stage_three_retrn']
			
 
				+    x['stage_two_retrn_ratio'] = (x['stage_two_retrn'] - x['stage_one_retrn'])/x['stage_two_retrn']
			
 
				+
			
 
				+    features = list(x)
			
 
				+    drop_features = [f for f in features if (f.find('day30')!=-1 or f.find('day60')!=-1)]
			
 
				+    x = x.drop(drop_features, axis=1)
			
 
				+    x = x.fillna(0)
			
 
				+    x = x.astype('float64')
			
 
				+    x = x.clip(0,2000000)
			
 
				+ 
			
 
				+    features = [f for f in features if f not in drop_features]
			
 
				+    return x, y , df_vids, features
			
 
				+
			
 
				+if __name__ == '__main__':
			
 
				+    with open(r"train_data_x.pickle", "rb") as input_file:
			
 
				+        train_data = cPickle.load(input_file)    
			
 
				+    with open(r"predict_data_x.pickle", "rb") as input_file:
			
 
				+        predict_data = cPickle.load(input_file) 
			
 
				+
			
 
				+    X,Y,_,_ = clean_data(train_data)
			
 
				+    x,y,_,_ = clean_data(predict_data)
			
 
				+    print(X.describe())
			
 
				+    print(x.describe())
			
 
				+    #Y.describe()
			
--- a/get_data.py
+++ b/get_data.py
@@ -0,0 +1,63 @@
 
				+import datetime
			
 
				+from datetime import datetime as dt
			
 
				+from odps import ODPS
			
 
				+import process_feature
			
 
				+import pandas as pd
			
 
				+
			
 
				+def getRovfeaturetable(dt, table):
			
 
				+    odps = ODPS('LTAI4FtW5ZzxMvdw35aNkmcp', '0VKnydcaHK3ITjylbgUsLubX6rwiwc', 'usercdm',
			
 
				+                endpoint='http://service.cn.maxcompute.aliyun.com/api', connect_timeout=3000, \
			
 
				+                read_timeout=500000, pool_maxsize=1000, pool_connections=1000)
			
 
				+
			
 
				+    featureArray = []
			
 
				+    for record in odps.read_table(table, partition='dt=%s' % dt):
			
 
				+        valueFeature = {}
			
 
				+        for i in process_feature.featurename:
			
 
				+            if i == 'dt':
			
 
				+                valueFeature[i] = dt
			
 
				+            else:
			
 
				+                valueFeature[i] = record[i]
			
 
				+        featureArray.append(valueFeature)
			
 
				+    featureArray = pd.DataFrame(featureArray)
			
 
				+    print(dt, table, 'feature table finish')
			
 
				+    return featureArray
			
 
				+
			
 
				+def getdatasample(date, max_range, table):
			
 
				+    new_date = dt.strptime(date, '%Y%m%d')
			
 
				+    datelist = []
			
 
				+    testlist = []
			
 
				+    for i in range(0, max_range):
			
 
				+        delta = datetime.timedelta(days=i)
			
 
				+        tar_dt = new_date - delta
			
 
				+        datelist.append(tar_dt.strftime("%Y%m%d"))
			
 
				+    print(datelist)
			
 
				+    for tm in datelist:
			
 
				+        testlist.append(getRovfeaturetable(tm, table))
			
 
				+    testdata = pd.concat(testlist)
			
 
				+    testdata.reset_index(inplace=True)
			
 
				+    testdata = testdata.drop(axis=1, columns='index')
			
 
				+    return testdata
			
 
				+
			
 
				+def process_train_predict_data():
			
 
				+    now_date = datetime.date.today() 
			
 
				+    # day = datetime.datetime.strftime(now_date, '%Y%m%d')
			
 
				+    DIFF1 = 1
			
 
				+    DIFF7= 7
			
 
				+    diff_1 = datetime.timedelta(days=DIFF1)
			
 
				+    diff_5 = datetime.timedelta(days=DIFF7)
			
 
				+    predict_dt = now_date - diff_1
			
 
				+    predict_day = datetime.datetime.strftime(predict_dt, '%Y%m%d')
			
 
				+    train_dt = now_date - diff_5
			
 
				+    train_day = datetime.datetime.strftime(train_dt, '%Y%m%d')
			
 
				+    #read data from ali
			
 
				+    train_data = getdatasample(train_day, 30, 'rov_feature_add_v1')
			
 
				+    predict_data = getdatasample(predict_day, 1, 'rov_predict_table_add_v1')
			
 
				+    #pickle for test
			
 
				+    import _pickle as cPickle
			
 
				+    with open('train_data_all.pickle','wb') as output_file:
			
 
				+        cPickle.dump(train_data, output_file)
			
 
				+    with open('predict_data_all.pickle','wb') as output_file:
			
 
				+        cPickle.dump(predict_data, output_file) 
			
 
				+
			
 
				+if __name__ == '__main__' :
			
 
				+    process_train_predict_data()
			
--- a/nohup.out
+++ b/nohup.out
--- a/rov_train_classify.py
+++ b/rov_train_classify.py
@@ -0,0 +1,222 @@
 
				+import warnings
			
 
				+
			
 
				+warnings.filterwarnings("ignore")
			
 
				+import os
			
 
				+import pandas as pd
			
 
				+import gc
			
 
				+import math
			
 
				+import numpy as np
			
 
				+import time
			
 
				+import lightgbm as lgb
			
 
				+from sklearn.model_selection import train_test_split
			
 
				+from sklearn.model_selection import StratifiedKFold
			
 
				+from sklearn import metrics
			
 
				+import pickle
			
 
				+from sklearn.metrics import top_k_accuracy_score
			
 
				+import seaborn as sns
			
 
				+import matplotlib.pylab as plt
			
 
				+from odps import ODPS
			
 
				+from odps.df import DataFrame as odpsdf
			
 
				+from datetime import datetime as dt
			
 
				+import datetime
			
 
				+import process_feature
			
 
				+import _pickle as cPickle
			
 
				+from sklearn.feature_selection import SelectFromModel
			
 
				+from sklearn.linear_model import LogisticRegression
			
 
				+
			
 
				+def getRovfeaturetable(dt, table):
			
 
				+    odps = ODPS('LTAI4FtW5ZzxMvdw35aNkmcp', '0VKnydcaHK3ITjylbgUsLubX6rwiwc', 'usercdm',
			
 
				+                endpoint='http://service.cn.maxcompute.aliyun.com/api', connect_timeout=3000, \
			
 
				+                read_timeout=500000, pool_maxsize=1000, pool_connections=1000)
			
 
				+
			
 
				+    featureArray = []
			
 
				+    for record in odps.read_table(table, partition='dt=%s' % dt):
			
 
				+        valueFeature = {}
			
 
				+        for i in process_feature.featurename:
			
 
				+            if i == 'dt':
			
 
				+                valueFeature[i] = dt
			
 
				+            else:
			
 
				+                valueFeature[i] = record[i]
			
 
				+        featureArray.append(valueFeature)
			
 
				+    featureArray = pd.DataFrame(featureArray)
			
 
				+    print(dt, table, 'feature table finish')
			
 
				+    return featureArray
			
 
				+
			
 
				+def getdatasample(date, max_range, table):
			
 
				+    new_date = dt.strptime(date, '%Y%m%d')
			
 
				+    datelist = []
			
 
				+    testlist = []
			
 
				+    for i in range(0, max_range):
			
 
				+        delta = datetime.timedelta(days=i)
			
 
				+        tar_dt = new_date - delta
			
 
				+        datelist.append(tar_dt.strftime("%Y%m%d"))
			
 
				+    for tm in datelist:
			
 
				+        testlist.append(getRovfeaturetable(tm, table))
			
 
				+    data = pd.concat(testlist)
			
 
				+    data.reset_index(inplace=True)
			
 
				+    data = data.drop(axis=1, columns='index')
			
 
				+    return data
			
 
				+
			
 
				+def discrete_y(y):
			
 
				+    y = float(y)
			
 
				+    if y>1000000:
			
 
				+        return 7
			
 
				+    elif y>500000:
			
 
				+        return 6
			
 
				+    elif y>100000:
			
 
				+        return 5
			
 
				+    elif y>50000:
			
 
				+        return 4
			
 
				+    elif y>10000:
			
 
				+        return 3
			
 
				+    elif y>5000:
			
 
				+        return 2
			
 
				+    elif y>1000:
			
 
				+        return 1
			
 
				+    else:
			
 
				+        return 0
			
 
				+
			
 
				+def clean_data(df):
			
 
				+    #y = df['futre7dayreturn'].apply(lambda x: np.log(df['futre7dayreturn']+1))
			
 
				+    df['futre7dayreturn'] = df['futre7dayreturn'].apply(discrete_y)
			
 
				+    y = df['futre7dayreturn']
			
 
				+    print(y)
			
 
				+    df_vids = df['videoid']
			
 
				+    #drop string
			
 
				+    #x = df.drop(['videoid', 'videotags', 'videotitle', 'videodescr', 'videodistribute_title', 'videoallwords', 'words_without_tags'], axis=1)
			
 
				+    x = df.drop(['videoid', 'videotags', 'words_without_tags', 'dt'], axis=1)
			
 
				+    #drop future
			
 
				+    #x = df.drop(['futr5viewcount', 'futr5returncount', 'futre7dayreturn'], axis=1)
			
 
				+    x = x.drop(['futre7dayreturn'], axis=1)
			
 
				+
			
 
				+    x['stage_four_retrn_added'] = x['stage_four_retrn'] - x['stage_three_retrn']
			
 
				+    x['stage_three_retrn_added'] = x['stage_three_retrn'] - x['stage_two_retrn']
			
 
				+    x['stage_two_retrn_added'] = x['stage_two_retrn'] - x['stage_one_retrn']
			
 
				+
			
 
				+    x['stage_four_retrn_ratio'] = (x['stage_four_retrn'] - x['stage_three_retrn'])/x['stage_four_retrn']
			
 
				+    x['stage_three_retrn_ratio'] = (x['stage_three_retrn'] - x['stage_two_retrn'])/x['stage_three_retrn']
			
 
				+    x['stage_two_retrn_ratio'] = (x['stage_two_retrn'] - x['stage_one_retrn'])/x['stage_two_retrn']
			
 
				+
			
 
				+    features = list(x)
			
 
				+    drop_features = [f for f in features if (f.find('day30')!=-1 or f.find('day60')!=-1)]
			
 
				+    x = x.drop(drop_features, axis=1)
			
 
				+    x = x.fillna(0)
			
 
				+    x = x.astype('float64')
			
 
				+    #x.fillna(0)
			
 
				+    x.clip(0,2000000)
			
 
				+ 
			
 
				+    features = [f for f in features if f not in drop_features]
			
 
				+    return x, y , df_vids, features
			
 
				+
			
 
				+def feature_selection(X, y):
			
 
				+    selector = SelectFromModel(estimator=LogisticRegression()).fit(X, y)
			
 
				+    return selector
			
 
				+
			
 
				+def auto_train(X_train, y_train):
			
 
				+    from flaml import  AutoML
			
 
				+    automl = AutoML()
			
 
				+    automl_settings = {
			
 
				+    "time_budget": 10,  # in seconds
			
 
				+    "metric": 'r2',
			
 
				+    "task": 'regression',
			
 
				+    "log_file_name": "test/auto.log",
			
 
				+    "estimator_list": ["lgbm"]
			
 
				+    }
			
 
				+    automl.fit(X_train=X_train, y_train=y_train,
			
 
				+           **automl_settings) 
			
 
				+
			
 
				+    pred_test_y = automl.predict(X_train)
			
 
				+    y_test = y_train.values
			
 
				+
			
 
				+    #err_mape = mean_absolute_percentage_error(y_test, pred_test_y)
			
 
				+    r2 = r2_score(y_test, pred_test_y)
			
 
				+    #print('err_mape', err_mape)
			
 
				+    print('r2', r2)
			
 
				+
			
 
				+    pack_result(pred_test_y, y_test,[],'autoval.csv')
			
 
				+
			
 
				+    
			
 
				+
			
 
				+def train(x,y,features):
			
 
				+    X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.33, stratify=y )
			
 
				+
			
 
				+    '''
			
 
				+    selector = feature_selection(X_train, y_train) 
			
 
				+    X_train = selector.transform(X_train)
			
 
				+    X_test = selector.transform(X_test)
			
 
				+    selected_features = []
			
 
				+    _supported = selector.get_support()
			
 
				+    for i in range(0, len(_supported)):
			
 
				+        if _supported[i]:
			
 
				+            selected_features.append(features[i])
			
 
				+    features = selected_features 
			
 
				+    '''
			
 
				+
			
 
				+    print(len(X_train), len(X_test))
			
 
				+    params = {
			
 
				+        "objective": "multiclass",
			
 
				+        "num_classes": 8,
			
 
				+        "max_depth": 6,
			
 
				+        "num_leaves": 30,
			
 
				+        "learning_rate": 0.05,
			
 
				+        "bagging_fraction": 0.7,
			
 
				+        "feature_fraction": 0.7,
			
 
				+        "bagging_freq": 8,
			
 
				+        "bagging_seed": 2018,
			
 
				+        "lambda_l1": 0.1,
			
 
				+        "boosting": "gbdt",
			
 
				+        "nthread": 4,
			
 
				+        "verbosity": -1
			
 
				+    }
			
 
				+    lgtrain = lgb.Dataset(X_train, label=y_train)
			
 
				+    lgval = lgb.Dataset(X_test, label=y_test)
			
 
				+    evals_result = {}
			
 
				+    model = lgb.train(params, lgtrain, 10000, valid_sets=[lgval], early_stopping_rounds=200, verbose_eval=20,
			
 
				+                      evals_result=evals_result)
			
 
				+
			
 
				+    pack_result(model.feature_importance(), features, [], 'importance.csv')
			
 
				+    
			
 
				+    pred_test_y = model.predict(X_test, num_iteration=model.best_iteration)
			
 
				+    
			
 
				+    top_k_accuracy_score(y_test, pred_test_y, k=1)
			
 
				+    print('top_k_accuracy_score', top_k_accuracy_score) 
			
 
				+
			
 
				+    pack_result(pred_test_y, y_test,[],'val.csv')
			
 
				+
			
 
				+    return pred_test_y, model, evals_result
			
 
				+
			
 
				+
			
 
				+def pack_result(y_, y, vid, fp):
			
 
				+    #y_ = y_.astype(int)
			
 
				+    y_.reshape(len(y_),1) 
			
 
				+    df = pd.DataFrame(data=y_, columns=['score'])
			
 
				+    if len(vid) >0:
			
 
				+        df['vid'] = vid
			
 
				+    df['y'] = y
			
 
				+    df = df.sort_values(by=['score'], ascending=False)
			
 
				+    df.to_csv(fp, index=False)
			
 
				+
			
 
				+    
			
 
				+if __name__ == '__main__':
			
 
				+    with open(r"train_data_x.pickle", "rb") as input_file:
			
 
				+        train_data = cPickle.load(input_file)    
			
 
				+    with open(r"predict_data_x.pickle", "rb") as input_file:
			
 
				+        predict_data = cPickle.load(input_file)   
			
 
				+
			
 
				+    x,y,_,features = clean_data(train_data)
			
 
				+
			
 
				+    #auto train
			
 
				+    #auto_train(x,y)
			
 
				+
			
 
				+    #train
			
 
				+    _, model, _ = train(x, y, features)
			
 
				+    with open('model.pickle','wb') as output_file:
			
 
				+        cPickle.dump(model, output_file)
			
 
				+    '''
			
 
				+    with open(r"model.pickle", "rb") as input_file:
			
 
				+        model = cPickle.load(input_file)    
			
 
				+    ''' 
			
 
				+    x,y,vid,_ = clean_data(predict_data)
			
 
				+    y_ = model.predict(x, num_iteration=model.best_iteration)
			
 
				+
			
 
				+    pack_result(y_, y, vid, 'pred.csv')
			
--- a/rov_train_describe.py
+++ b/rov_train_describe.py
--- a/rov_train_new.py
+++ b/rov_train_new.py
@@ -10,10 +10,10 @@ import time
 
				 import lightgbm as lgb
			
 
				 from sklearn.model_selection import train_test_split
			
 
				 from sklearn.model_selection import StratifiedKFold
			
 
				-from sklearn.metrics import mean_absolute_percentage_error, r2_score
			
 
				+from sklearn.metrics import r2_score
			
 
				 from sklearn import metrics
			
 
				 import pickle
			
 
				-from sklearn.metrics import mean_squared_error
			
 
				+from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error
			
 
				 import seaborn as sns
			
 
				 import matplotlib.pylab as plt
			
 
				 from odps import ODPS
			
@@ -22,7 +22,8 @@ from datetime import datetime as dt
 
				 import datetime
			
 
				 import process_feature
			
 
				 import _pickle as cPickle
			
 
				-
			
 
				+from sklearn.feature_selection import SelectFromModel
			
 
				+from sklearn.linear_model import LogisticRegression
			
 
				 
			
 
				 def getRovfeaturetable(dt, table):
			
 
				     odps = ODPS('LTAI4FtW5ZzxMvdw35aNkmcp', '0VKnydcaHK3ITjylbgUsLubX6rwiwc', 'usercdm',
			
@@ -60,6 +61,7 @@ def getdatasample(date, max_range, table):
 
				 
			
 
				 def clean_data(df):
			
 
				     #y = df['futre7dayreturn'].apply(lambda x: np.log(df['futre7dayreturn']+1))
			
 
				+    df['futre7dayreturn'].loc[df['futre7dayreturn']<=0] = 1
			
 
				     y = df['futre7dayreturn']
			
 
				     df_vids = df['videoid']
			
 
				     #drop string
			
@@ -68,24 +70,81 @@ def clean_data(df):
 
				     #drop future
			
 
				     #x = df.drop(['futr5viewcount', 'futr5returncount', 'futre7dayreturn'], axis=1)
			
 
				     x = x.drop(['futre7dayreturn'], axis=1)
			
 
				+
			
 
				+    x['stage_four_retrn_added'] = x['stage_four_retrn'] - x['stage_three_retrn']
			
 
				+    x['stage_three_retrn_added'] = x['stage_three_retrn'] - x['stage_two_retrn']
			
 
				+    x['stage_two_retrn_added'] = x['stage_two_retrn'] - x['stage_one_retrn']
			
 
				+
			
 
				+    x['stage_four_retrn_ratio'] = (x['stage_four_retrn'] - x['stage_three_retrn'])/x['stage_four_retrn']
			
 
				+    x['stage_three_retrn_ratio'] = (x['stage_three_retrn'] - x['stage_two_retrn'])/x['stage_three_retrn']
			
 
				+    x['stage_two_retrn_ratio'] = (x['stage_two_retrn'] - x['stage_one_retrn'])/x['stage_two_retrn']
			
 
				+
			
 
				     features = list(x)
			
 
				     drop_features = [f for f in features if (f.find('day30')!=-1 or f.find('day60')!=-1)]
			
 
				     x = x.drop(drop_features, axis=1)
			
 
				-
			
 
				+    x = x.fillna(0)
			
 
				+    x = x.astype('float64')
			
 
				+    #x.fillna(0)
			
 
				+    x.clip(0,2000000)
			
 
				+ 
			
 
				     features = [f for f in features if f not in drop_features]
			
 
				     return x, y , df_vids, features
			
 
				 
			
 
				+def feature_selection(X, y):
			
 
				+    selector = SelectFromModel(estimator=LogisticRegression()).fit(X, y)
			
 
				+    return selector
			
 
				+
			
 
				+def auto_train(X_train, y_train):
			
 
				+    from flaml import  AutoML
			
 
				+    automl = AutoML()
			
 
				+    automl_settings = {
			
 
				+    "time_budget": 10,  # in seconds
			
 
				+    "metric": 'r2',
			
 
				+    "task": 'regression',
			
 
				+    "log_file_name": "test/auto.log",
			
 
				+    "estimator_list": ["lgbm"]
			
 
				+    }
			
 
				+    automl.fit(X_train=X_train, y_train=y_train,
			
 
				+           **automl_settings) 
			
 
				+
			
 
				+    pred_test_y = automl.predict(X_train)
			
 
				+    y_test = y_train.values
			
 
				+
			
 
				+    #err_mape = mean_absolute_percentage_error(y_test, pred_test_y)
			
 
				+    r2 = r2_score(y_test, pred_test_y)
			
 
				+    #print('err_mape', err_mape)
			
 
				+    print('r2', r2)
			
 
				+
			
 
				+    pack_result(pred_test_y, y_test,[],'autoval.csv')
			
 
				+
			
 
				+    
			
 
				+
			
 
				 def train(x,y,features):
			
 
				-    X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=42)
			
 
				+    X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.33)
			
 
				+
			
 
				+    '''
			
 
				+    selector = feature_selection(X_train, y_train) 
			
 
				+    X_train = selector.transform(X_train)
			
 
				+    X_test = selector.transform(X_test)
			
 
				+    selected_features = []
			
 
				+    _supported = selector.get_support()
			
 
				+    for i in range(0, len(_supported)):
			
 
				+        if _supported[i]:
			
 
				+            selected_features.append(features[i])
			
 
				+    features = selected_features 
			
 
				+    '''
			
 
				+
			
 
				+    print(len(X_train), len(X_test))
			
 
				     params = {
			
 
				         "objective": "regression",
			
 
				+        "reg_sqrt":True,
			
 
				         "metric": "mape",
			
 
				-        "max_depth": 5,
			
 
				+        "max_depth": 6,
			
 
				         "num_leaves": 30,
			
 
				-        "learning_rate": 0.1,
			
 
				+        "learning_rate": 0.05,
			
 
				         "bagging_fraction": 0.7,
			
 
				         "feature_fraction": 0.7,
			
 
				-        "bagging_freq": 5,
			
 
				+        "bagging_freq": 8,
			
 
				         "bagging_seed": 2018,
			
 
				         "lambda_l1": 0.1,
			
 
				         "boosting": "gbdt",
			
@@ -95,7 +154,7 @@ def train(x,y,features):
 
				     lgtrain = lgb.Dataset(X_train, label=y_train)
			
 
				     lgval = lgb.Dataset(X_test, label=y_test)
			
 
				     evals_result = {}
			
 
				-    model = lgb.train(params, lgtrain, 10000, valid_sets=[lgval], early_stopping_rounds=100, verbose_eval=20,
			
 
				+    model = lgb.train(params, lgtrain, 10000, valid_sets=[lgval], early_stopping_rounds=200, verbose_eval=20,
			
 
				                       evals_result=evals_result)
			
 
				 
			
 
				     pack_result(model.feature_importance(), features, [], 'importance.csv')
			
@@ -103,9 +162,9 @@ def train(x,y,features):
 
				     pred_test_y = model.predict(X_test, num_iteration=model.best_iteration)
			
 
				     y_test = y_test.values
			
 
				 
			
 
				-    #err_mape = mean_absolute_percentage_error(y_test, pred_test_y)
			
 
				+    err_mape = mean_absolute_percentage_error(y_test, pred_test_y)
			
 
				     r2 = r2_score(y_test, pred_test_y)
			
 
				-    #print('err_mape', err_mape)
			
 
				+    print('err_mape', err_mape)
			
 
				     print('r2', r2)
			
 
				 
			
 
				     pack_result(pred_test_y, y_test,[],'val.csv')
			
@@ -125,13 +184,17 @@ def pack_result(y_, y, vid, fp):
 
				 
			
 
				     
			
 
				 if __name__ == '__main__':
			
 
				-    with open(r"train_data.pickle", "rb") as input_file:
			
 
				+    with open(r"train_data_x.pickle", "rb") as input_file:
			
 
				         train_data = cPickle.load(input_file)    
			
 
				-    with open(r"predict_data.pickle", "rb") as input_file:
			
 
				+    with open(r"predict_data_x.pickle", "rb") as input_file:
			
 
				         predict_data = cPickle.load(input_file)   
			
 
				 
			
 
				-    #train
			
 
				     x,y,_,features = clean_data(train_data)
			
 
				+
			
 
				+    #auto train
			
 
				+    #auto_train(x,y)
			
 
				+
			
 
				+    #train
			
 
				     _, model, _ = train(x, y, features)
			
 
				     with open('model.pickle','wb') as output_file:
			
 
				         cPickle.dump(model, output_file)
			
--- a/rov_train_paddle.py
+++ b/rov_train_paddle.py
@@ -8,6 +8,7 @@ class RovDataset(Dataset):
 
				     def __init__(self, path):
			
 
				         super(RovDataset, self).__init__()
			
 
				         self.path = path
			
 
				+        _,_,_,self.features = self._parse_dataset()
			
 
				 
			
 
				     def _parse_dataset(self):
			
 
				         self.data = []
			
@@ -21,15 +22,20 @@ class RovDataset(Dataset):
 
				             features = list(x)
			
 
				             drop_features = [f for f in features if (f.find('day30')!=-1 or f.find('day60')!=-1)]
			
 
				             x = x.drop(drop_features, axis=1)
			
 
				-            x = x.apply(lambda x: (x - np.min())/ (np.max(x) - np.min(x)))
			
 
				-            #features = [f for f in features if f not in drop_features]
			
 
				+            x.fillna(0)
			
 
				+            x = x.apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x)) )
			
 
				+            features = [f for f in features if f not in drop_features]
			
 
				             self.data = x
			
 
				             self.labels = y
			
 
				-            #return x, y , df_vids, features
			
 
				+
			
 
				+        return x, y , df_vids, features
			
 
				 
			
 
				     def __getitem__(self, idx):
			
 
				-        data, label = self.data.iloc[idx], self.labels.iloc[idx]
			
 
				-        return data.astype('float21'), label.astype('float32')
			
 
				+        try:
			
 
				+            data, label = np.array(self.data.iloc[idx]), np.array(self.labels.iloc[idx])
			
 
				+            return data.astype('float32'), label.astype('float32')
			
 
				+        except Exception as e:
			
 
				+            print(e)
			
 
				 
			
 
				     def __len__(self):
			
 
				         return len(self.labels)
			
@@ -42,6 +48,7 @@ def train():
 
				 
			
 
				     train_dataset = RovDataset("train_data.pickle")
			
 
				     test_dataset = RovDataset("predict_data.pickle")
			
 
				+    feature_dim = len(train_dataset.features)
			
 
				 
			
 
				     linear=paddle.nn.Sequential(
			
 
				             paddle.nn.Linear(feature_dim, 4096),
			
@@ -51,7 +58,7 @@ def train():
 
				             paddle.nn.Dropout(0.2),
			
 
				             paddle.nn.Linear(1024,19),
			
 
				             paddle.nn.ReLU(),
			
 
				-            paddle.nn.Linear(19,1)
			
 
				+            paddle.nn.Linear(19,result_dim)
			
 
				             )
			
 
				 
			
 
				     model=paddle.Model(linear)
			
@@ -74,6 +81,4 @@ def pack_result(y_, y, vid, fp):
 
				 
			
 
				     
			
 
				 if __name__ == '__main__':
			
 
				-
			
 
				-    #train
			
 
				-    pass
			
 
				+    train()
			
--- a/rov_train_regression.py
+++ b/rov_train_regression.py
@@ -0,0 +1,198 @@
 
				+import warnings
			
 
				+
			
 
				+warnings.filterwarnings("ignore")
			
 
				+import os
			
 
				+import pandas as pd
			
 
				+import gc
			
 
				+import math
			
 
				+import numpy as np
			
 
				+import time
			
 
				+import lightgbm as lgb
			
 
				+from sklearn.model_selection import train_test_split
			
 
				+from sklearn.model_selection import StratifiedKFold
			
 
				+from sklearn.metrics import r2_score
			
 
				+from sklearn import metrics
			
 
				+import pickle
			
 
				+from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error
			
 
				+import seaborn as sns
			
 
				+import matplotlib.pylab as plt
			
 
				+from odps import ODPS
			
 
				+from odps.df import DataFrame as odpsdf
			
 
				+from datetime import datetime as dt
			
 
				+import datetime
			
 
				+import process_feature
			
 
				+import _pickle as cPickle
			
 
				+from sklearn.feature_selection import SelectFromModel
			
 
				+from sklearn.linear_model import LogisticRegression
			
 
				+
			
 
				+def getRovfeaturetable(dt, table):
			
 
				+    odps = ODPS('LTAI4FtW5ZzxMvdw35aNkmcp', '0VKnydcaHK3ITjylbgUsLubX6rwiwc', 'usercdm',
			
 
				+                endpoint='http://service.cn.maxcompute.aliyun.com/api', connect_timeout=3000, \
			
 
				+                read_timeout=500000, pool_maxsize=1000, pool_connections=1000)
			
 
				+
			
 
				+    featureArray = []
			
 
				+    for record in odps.read_table(table, partition='dt=%s' % dt):
			
 
				+        valueFeature = {}
			
 
				+        for i in process_feature.featurename:
			
 
				+            if i == 'dt':
			
 
				+                valueFeature[i] = dt
			
 
				+            else:
			
 
				+                valueFeature[i] = record[i]
			
 
				+        featureArray.append(valueFeature)
			
 
				+    featureArray = pd.DataFrame(featureArray)
			
 
				+    print(dt, table, 'feature table finish')
			
 
				+    return featureArray
			
 
				+
			
 
				+def getdatasample(date, max_range, table):
			
 
				+    new_date = dt.strptime(date, '%Y%m%d')
			
 
				+    datelist = []
			
 
				+    testlist = []
			
 
				+    for i in range(0, max_range):
			
 
				+        delta = datetime.timedelta(days=i)
			
 
				+        tar_dt = new_date - delta
			
 
				+        datelist.append(tar_dt.strftime("%Y%m%d"))
			
 
				+    for tm in datelist:
			
 
				+        testlist.append(getRovfeaturetable(tm, table))
			
 
				+    data = pd.concat(testlist)
			
 
				+    data.reset_index(inplace=True)
			
 
				+    data = data.drop(axis=1, columns='index')
			
 
				+    return data
			
 
				+
			
 
				+
			
 
				+def clean_data(df):
			
 
				+    #y = df['futre7dayreturn'].apply(lambda x: np.log(df['futre7dayreturn']+1))
			
 
				+    df['futre7dayreturn'].loc[df['futre7dayreturn']<=0] = 1
			
 
				+    y = df['futre7dayreturn']
			
 
				+    df_vids = df['videoid']
			
 
				+    #drop string
			
 
				+    #x = df.drop(['videoid', 'videotags', 'videotitle', 'videodescr', 'videodistribute_title', 'videoallwords', 'words_without_tags'], axis=1)
			
 
				+    x = df.drop(['videoid', 'videotags', 'words_without_tags', 'dt'], axis=1)
			
 
				+    #drop future
			
 
				+    #x = df.drop(['futr5viewcount', 'futr5returncount', 'futre7dayreturn'], axis=1)
			
 
				+    x = x.drop(['futre7dayreturn'], axis=1)
			
 
				+
			
 
				+    x['stage_four_retrn_added'] = x['stage_four_retrn'] - x['stage_three_retrn']
			
 
				+    x['stage_three_retrn_added'] = x['stage_three_retrn'] - x['stage_two_retrn']
			
 
				+    x['stage_two_retrn_added'] = x['stage_two_retrn'] - x['stage_one_retrn']
			
 
				+
			
 
				+    x['stage_four_retrn_ratio'] = (x['stage_four_retrn'] - x['stage_three_retrn'])/x['stage_four_retrn']
			
 
				+    x['stage_three_retrn_ratio'] = (x['stage_three_retrn'] - x['stage_two_retrn'])/x['stage_three_retrn']
			
 
				+    x['stage_two_retrn_ratio'] = (x['stage_two_retrn'] - x['stage_one_retrn'])/x['stage_two_retrn']
			
 
				+
			
 
				+    features = list(x)
			
 
				+    drop_features = [f for f in features if (f.find('day30')!=-1 or f.find('day60')!=-1)]
			
 
				+    x = x.drop(drop_features, axis=1)
			
 
				+    x.fillna(0)
			
 
				+    x = x.astype('float64')
			
 
				+    x = x.clip(1,2000000)
			
 
				+ 
			
 
				+    #features = [f for f in features if f not in drop_features]
			
 
				+    features = list(x)
			
 
				+    return x, y , df_vids, features
			
 
				+
			
 
				+
			
 
				+def std_data(df, features):
			
 
				+    for f in features:
			
 
				+        if df[f].max()>1:
			
 
				+            df[f] = (df[f]-df[f].min()) / (df[f]-df[f].max()+1)
			
 
				+    return df
			
 
				+
			
 
				+def feature_selection(X, y):
			
 
				+    selector = SelectFromModel(estimator=LogisticRegression()).fit(X, y)
			
 
				+    return selector
			
 
				+
			
 
				+def train(x,y,features):
			
 
				+    X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.33)
			
 
				+
			
 
				+    '''
			
 
				+    selector = feature_selection(X_train, y_train) 
			
 
				+    X_train = selector.transform(X_train)
			
 
				+    X_test = selector.transform(X_test)
			
 
				+    selected_features = []
			
 
				+    _supported = selector.get_support()
			
 
				+    for i in range(0, len(_supported)):
			
 
				+        if _supported[i]:
			
 
				+            selected_features.append(features[i])
			
 
				+    features = selected_features 
			
 
				+    '''
			
 
				+
			
 
				+    print(len(X_train), len(X_test))
			
 
				+    params = {
			
 
				+        "objective": "regression",
			
 
				+        "reg_sqrt":True,
			
 
				+        "metric": "mape",
			
 
				+        "max_depth": -1,
			
 
				+        "num_leaves": 50,
			
 
				+        "learning_rate": 0.1,
			
 
				+        "bagging_fraction": 0.7,
			
 
				+        "feature_fraction": 0.7,
			
 
				+        "bagging_freq": 8,
			
 
				+        "bagging_seed": 2018,
			
 
				+        "lambda_l1": 0.11,
			
 
				+        "boosting": "dart",
			
 
				+        "nthread": 4,
			
 
				+        "verbosity": -1
			
 
				+    }
			
 
				+    lgtrain = lgb.Dataset(X_train, label=y_train)
			
 
				+    lgval = lgb.Dataset(X_test, label=y_test)
			
 
				+    evals_result = {}
			
 
				+
			
 
				+    #model = lgb.train(params, lgtrain, 5000, valid_sets=[lgval], early_stopping_rounds=100, verbose_eval=100,evals_result=evals_result, init_model='lgb_regression.txt')
			
 
				+     
			
 
				+    model = lgb.train(params, lgtrain, 5000, valid_sets=[lgval], early_stopping_rounds=100, verbose_eval=100,
			
 
				+                      evals_result=evals_result)
			
 
				+
			
 
				+    #model.save_model('lgb_regression.txt', num_iteration=model.best_iteration)
			
 
				+
			
 
				+    pack_result(model.feature_importance(), features, [], 'importance.csv')
			
 
				+    
			
 
				+    pred_test_y = model.predict(X_test, num_iteration=model.best_iteration)
			
 
				+    y_test = y_test.values
			
 
				+
			
 
				+    err_mape = mean_absolute_percentage_error(y_test, pred_test_y)
			
 
				+    r2 = r2_score(y_test, pred_test_y)
			
 
				+    print('err_mape', err_mape)
			
 
				+    print('r2', r2)
			
 
				+
			
 
				+    pack_result(pred_test_y, y_test,[],'val.csv')
			
 
				+
			
 
				+    return pred_test_y, model, evals_result
			
 
				+
			
 
				+
			
 
				+def pack_result(y_, y, vid, fp):
			
 
				+    #y_ = y_.astype(int)
			
 
				+    y_.reshape(len(y_),1) 
			
 
				+    df = pd.DataFrame(data=y_, columns=['score'])
			
 
				+    if len(vid) >0:
			
 
				+        df['vid'] = vid
			
 
				+    df['y'] = y
			
 
				+    df = df.sort_values(by=['score'], ascending=False)
			
 
				+    df.to_csv(fp, index=False)
			
 
				+
			
 
				+    
			
 
				+if __name__ == '__main__':
			
 
				+    with open(r"train_data_x.pickle", "rb") as input_file:
			
 
				+        train_data = cPickle.load(input_file)    
			
 
				+    with open(r"predict_data_x.pickle", "rb") as input_file:
			
 
				+        predict_data = cPickle.load(input_file)   
			
 
				+
			
 
				+    x,y,_,features = clean_data(train_data)
			
 
				+    #x = std_data(x, features)
			
 
				+    #print(x.describe())
			
 
				+
			
 
				+    #auto train
			
 
				+    #auto_train(x,y)
			
 
				+
			
 
				+    #train
			
 
				+    _, model, _ = train(x, y, features)
			
 
				+    with open('model.pickle','wb') as output_file:
			
 
				+        cPickle.dump(model, output_file)
			
 
				+    '''
			
 
				+    with open(r"model.pickle", "rb") as input_file:
			
 
				+        model = cPickle.load(input_file)    
			
 
				+    ''' 
			
 
				+    x,y,vid,_ = clean_data(predict_data)
			
 
				+    #x = std_data(x, features)
			
 
				+    y_ = model.predict(x, num_iteration=model.best_iteration)
			
 
				+
			
 
				+    pack_result(y_, y, vid, 'pred.csv')
			
--- a/rov_train_regression_auto.py
+++ b/rov_train_regression_auto.py
@@ -0,0 +1,205 @@
 
				+import warnings
			
 
				+
			
 
				+warnings.filterwarnings("ignore")
			
 
				+import os
			
 
				+import pandas as pd
			
 
				+import gc
			
 
				+import math
			
 
				+import numpy as np
			
 
				+import time
			
 
				+import lightgbm as lgb
			
 
				+from sklearn.model_selection import train_test_split
			
 
				+from sklearn.model_selection import StratifiedKFold
			
 
				+from sklearn.metrics import r2_score
			
 
				+from sklearn import metrics
			
 
				+import pickle
			
 
				+from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error
			
 
				+import seaborn as sns
			
 
				+import matplotlib.pylab as plt
			
 
				+from odps import ODPS
			
 
				+from odps.df import DataFrame as odpsdf
			
 
				+from datetime import datetime as dt
			
 
				+import datetime
			
 
				+import process_feature
			
 
				+import _pickle as cPickle
			
 
				+from sklearn.feature_selection import SelectFromModel
			
 
				+from sklearn.linear_model import LogisticRegression
			
 
				+
			
 
				+def getRovfeaturetable(dt, table):
			
 
				+    odps = ODPS('LTAI4FtW5ZzxMvdw35aNkmcp', '0VKnydcaHK3ITjylbgUsLubX6rwiwc', 'usercdm',
			
 
				+                endpoint='http://service.cn.maxcompute.aliyun.com/api', connect_timeout=3000, \
			
 
				+                read_timeout=500000, pool_maxsize=1000, pool_connections=1000)
			
 
				+
			
 
				+    featureArray = []
			
 
				+    for record in odps.read_table(table, partition='dt=%s' % dt):
			
 
				+        valueFeature = {}
			
 
				+        for i in process_feature.featurename:
			
 
				+            if i == 'dt':
			
 
				+                valueFeature[i] = dt
			
 
				+            else:
			
 
				+                valueFeature[i] = record[i]
			
 
				+        featureArray.append(valueFeature)
			
 
				+    featureArray = pd.DataFrame(featureArray)
			
 
				+    print(dt, table, 'feature table finish')
			
 
				+    return featureArray
			
 
				+
			
 
				+def getdatasample(date, max_range, table):
			
 
				+    new_date = dt.strptime(date, '%Y%m%d')
			
 
				+    datelist = []
			
 
				+    testlist = []
			
 
				+    for i in range(0, max_range):
			
 
				+        delta = datetime.timedelta(days=i)
			
 
				+        tar_dt = new_date - delta
			
 
				+        datelist.append(tar_dt.strftime("%Y%m%d"))
			
 
				+    for tm in datelist:
			
 
				+        testlist.append(getRovfeaturetable(tm, table))
			
 
				+    data = pd.concat(testlist)
			
 
				+    data.reset_index(inplace=True)
			
 
				+    data = data.drop(axis=1, columns='index')
			
 
				+    return data
			
 
				+
			
 
				+
			
 
				+def clean_data(df):
			
 
				+    #y = df['futre7dayreturn'].apply(lambda x: np.log(df['futre7dayreturn']+1))
			
 
				+    df['futre7dayreturn'].loc[df['futre7dayreturn']<=0] = 1
			
 
				+    y = df['futre7dayreturn']
			
 
				+    df_vids = df['videoid']
			
 
				+    #drop string
			
 
				+    #x = df.drop(['videoid', 'videotags', 'videotitle', 'videodescr', 'videodistribute_title', 'videoallwords', 'words_without_tags'], axis=1)
			
 
				+    x = df.drop(['videoid', 'videotags', 'words_without_tags', 'dt'], axis=1)
			
 
				+    #drop future
			
 
				+    #x = df.drop(['futr5viewcount', 'futr5returncount', 'futre7dayreturn'], axis=1)
			
 
				+    x = x.drop(['futre7dayreturn'], axis=1)
			
 
				+
			
 
				+    x['stage_four_retrn_added'] = x['stage_four_retrn'] - x['stage_three_retrn']
			
 
				+    x['stage_three_retrn_added'] = x['stage_three_retrn'] - x['stage_two_retrn']
			
 
				+    x['stage_two_retrn_added'] = x['stage_two_retrn'] - x['stage_one_retrn']
			
 
				+
			
 
				+    x['stage_four_retrn_ratio'] = (x['stage_four_retrn'] - x['stage_three_retrn'])/x['stage_four_retrn']
			
 
				+    x['stage_three_retrn_ratio'] = (x['stage_three_retrn'] - x['stage_two_retrn'])/x['stage_three_retrn']
			
 
				+    x['stage_two_retrn_ratio'] = (x['stage_two_retrn'] - x['stage_one_retrn'])/x['stage_two_retrn']
			
 
				+
			
 
				+    features = list(x)
			
 
				+    drop_features = [f for f in features if (f.find('day30')!=-1 or f.find('day60')!=-1)]
			
 
				+    x = x.drop(drop_features, axis=1)
			
 
				+    x.fillna(0)
			
 
				+    x = x.astype('float64')
			
 
				+    x = x.clip(1,2000000)
			
 
				+ 
			
 
				+    #features = [f for f in features if f not in drop_features]
			
 
				+    features = list(x)
			
 
				+    return x, y , df_vids, features
			
 
				+
			
 
				+
			
 
				+def std_data(df, features):
			
 
				+    for f in features:
			
 
				+        if df[f].max()>1:
			
 
				+            df[f] = (df[f]-df[f].min()) / (df[f]-df[f].max()+1)
			
 
				+    return df
			
 
				+
			
 
				+def feature_selection(X, y):
			
 
				+    selector = SelectFromModel(estimator=LogisticRegression()).fit(X, y)
			
 
				+    return selector
			
 
				+
			
 
				+def auto_train(X_train, y_train):
			
 
				+    from flaml import  AutoML
			
 
				+    automl = AutoML()
			
 
				+    automl_settings = {
			
 
				+    "time_budget": 8000,  # in seconds
			
 
				+    "metric": 'mae',
			
 
				+    "task": 'regression',
			
 
				+    "log_file_name": "auto.log",
			
 
				+    "estimator_list": ["lgbm"]
			
 
				+    }
			
 
				+    automl.fit(X_train=X_train, y_train=y_train,
			
 
				+           **automl_settings) 
			
 
				+
			
 
				+    pred_test_y = automl.predict(X_train)
			
 
				+    y_test = y_train.values
			
 
				+
			
 
				+    err_mape = mean_absolute_percentage_error(y_test, pred_test_y)
			
 
				+    r2 = r2_score(y_test, pred_test_y)
			
 
				+    print('err_mape', err_mape)
			
 
				+    print('r2', r2)
			
 
				+
			
 
				+    pack_result(pred_test_y, y_test,[],'autoval.csv')
			
 
				+
			
 
				+    
			
 
				+
			
 
				+def train(x,y,features):
			
 
				+    X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.33)
			
 
				+
			
 
				+    '''
			
 
				+    selector = feature_selection(X_train, y_train) 
			
 
				+    X_train = selector.transform(X_train)
			
 
				+    X_test = selector.transform(X_test)
			
 
				+    selected_features = []
			
 
				+    _supported = selector.get_support()
			
 
				+    for i in range(0, len(_supported)):
			
 
				+        if _supported[i]:
			
 
				+            selected_features.append(features[i])
			
 
				+    features = selected_features 
			
 
				+    '''
			
 
				+
			
 
				+    print(len(X_train), len(X_test))
			
 
				+    params = {
			
 
				+        "objective": "regression",
			
 
				+        "reg_sqrt":True,
			
 
				+        "metric": "mape",
			
 
				+        "max_depth": -1,
			
 
				+        "num_leaves": 50,
			
 
				+        "learning_rate": 0.1,
			
 
				+        "bagging_fraction": 0.7,
			
 
				+        "feature_fraction": 0.7,
			
 
				+        "bagging_freq": 8,
			
 
				+        "bagging_seed": 2018,
			
 
				+        "lambda_l1": 0.11,
			
 
				+        "boosting": "gbdt",
			
 
				+        "nthread": 4,
			
 
				+        "verbosity": -1
			
 
				+    }
			
 
				+    lgtrain = lgb.Dataset(X_train, label=y_train)
			
 
				+    lgval = lgb.Dataset(X_test, label=y_test)
			
 
				+    evals_result = {}
			
 
				+    model = lgb.train(params, lgtrain, 10000, valid_sets=[lgval], early_stopping_rounds=200, verbose_eval=20,
			
 
				+                      evals_result=evals_result)
			
 
				+
			
 
				+    pack_result(model.feature_importance(), features, [], 'importance.csv')
			
 
				+    
			
 
				+    pred_test_y = model.predict(X_test, num_iteration=model.best_iteration)
			
 
				+    y_test = y_test.values
			
 
				+
			
 
				+    err_mape = mean_absolute_percentage_error(y_test, pred_test_y)
			
 
				+    r2 = r2_score(y_test, pred_test_y)
			
 
				+    print('err_mape', err_mape)
			
 
				+    print('r2', r2)
			
 
				+
			
 
				+    pack_result(pred_test_y, y_test,[],'val.csv')
			
 
				+
			
 
				+    return pred_test_y, model, evals_result
			
 
				+
			
 
				+
			
 
				+def pack_result(y_, y, vid, fp):
			
 
				+    #y_ = y_.astype(int)
			
 
				+    y_.reshape(len(y_),1) 
			
 
				+    df = pd.DataFrame(data=y_, columns=['score'])
			
 
				+    if len(vid) >0:
			
 
				+        df['vid'] = vid
			
 
				+    df['y'] = y
			
 
				+    df = df.sort_values(by=['score'], ascending=False)
			
 
				+    df.to_csv(fp, index=False)
			
 
				+
			
 
				+    
			
 
				+if __name__ == '__main__':
			
 
				+    with open(r"train_data_x.pickle", "rb") as input_file:
			
 
				+        train_data = cPickle.load(input_file)    
			
 
				+    with open(r"predict_data_x.pickle", "rb") as input_file:
			
 
				+        predict_data = cPickle.load(input_file)   
			
 
				+
			
 
				+    x,y,_,features = clean_data(train_data)
			
 
				+    #x = std_data(x, features)
			
 
				+    #print(x.describe())
			
 
				+
			
 
				+    #auto train
			
 
				+    auto_train(x,y)
			
 
				+
			
--- a/test/parse.py
+++ b/test/parse.py
@@ -0,0 +1,14 @@
 
				+import json
			
 
				+
			
 
				+fp = 'video_score_0927.json'
			
 
				+a = 0
			
 
				+t = 0
			
 
				+
			
 
				+with open(fp) as f:
			
 
				+    for line in f:
			
 
				+        j = json.loads(line)
			
 
				+        for i in j:
			
 
				+            if i['score'] > 0:
			
 
				+                t += 1
			
 
				+            a += 1
			
 
				+print(t, a)
			
--- a/test/parse2.py
+++ b/test/parse2.py
@@ -0,0 +1,7 @@
 
				+import pandas as pd
			
 
				+
			
 
				+fp = 'video_metric.csv'
			
 
				+
			
 
				+df = pd.read_csv(fp)
			
 
				+df = df.sort_values(['score'], ascending=False)
			
 
				+df.to_csv('df.csv')
			
--- a/test/parse3.py
+++ b/test/parse3.py
@@ -0,0 +1,9 @@
 
				+import pandas as pd
			
 
				+
			
 
				+fp = 'feature_importance.csv'
			
 
				+
			
 
				+df = pd.read_csv(fp)
			
 
				+df = df.sort_values(['importance'], ascending=False)
			
 
				+print(df.iloc[0].values)
			
 
				+df.to_csv('df_importance.csv')
			
 
				+
			
--- a/test/video_score_0927.json
+++ b/test/video_score_0927.json