学習データ前処理用のソース
色々試行錯誤しながら編集していたのでこれは編集用ソースの一部です
新聞記事データから必要なカラムのみを取り出し、空白がある行や学習に不向きなデータを含む行を削除している
その後学習のために各カラムに分けている
(編集してから各カラムに分けないと行の削除によって行同士がズレる為注意)
最初のNumberで読み込むファイル、書き出すファイルを指定している(デフォルトでは13が入っている)
学習用データセットを複数人で作成したのでそれをまとめるために使用
もっと賢いやり方もある
こんなことせずに頂いたデータセットを全部まとめてから編集した方が速かったことに後から気が付いた