まずデータから欠損値を消した。あまりにもこの実験にspeci c で使 えないデータ(実験の回の番号など)、欠損値が多すぎるデータ(出身大 学、主観的な成功率の予測、事後アンケートへの回答など)、アメリカで しか通用しないデータ(zipcode 関連)を落とした。パートナーのデータ は、のちにユーザーデータをユーザーごとにまとめてそれをマージする 予定なので、パートナーのid 以外は落とした。データの中には、重要な 指標(年齢など)で欠損値が出ているユーザーがいたので、それらのユー ザーは削除した。 次に、職種、人種、専門分野、イベントへの参加目的を表す整数値に意 味はないので、これらのパラメーターをワンホットエンコードした。 次に、実験の回ごとにアンケートへの回答の仕方が異なっていたため、 これを正規化した。具体的には、6 10 以外の回ではどのアンケートも、点 数の合計が100 になるように重要だと思う度合いに応じて点数をいくつ かの項目にわたって振り分ける形式だったのに対して、6 10 の回ではそ れぞれの項目を個別に10 段階で評価する形式だった。ここは、間をとっ て、点数の合計が30 となるように正規化した(30 という数字は、点数を 振り分ける項目数が基本的に6 コで、10 段階での平均が5 だということ から導出した恣意的な数字である)。 最後に、このデータをもとにマッチングのデータ及びユーザーごとの csv ファイルに書き出している。ユーザーごとのデータは、先ほどの加工 済みデータをユーザーごとにグルーピングして取得している。学習デー タは、このユーザーデータと加工済みデータをjoin することで作成して いる。ただし、各パラメーター(例えば年齢)は、性別によって異なる意 味を持つことが想定される。そのため、最終的な学習データは、男性ユー ザーと女性ユーザーのパラメーターを区別して保存している。ユーザー データ及び作成した学習データは、user data.csv, full matching data.csv というファイルとして保存している。