2019-01-01から1ヶ月間の記事一覧
Google Colabとは、環境構築がほぼ不要でJupyter Notebookを触ることができ、GPUも一定無料で使えるという最強のサービスのことです。 Preferred Networks が最近出した記事で触る機会があったのと、データを読み込ませる連携に困ったのでメモ Google Develo…
matplotlibの使い方、subplot関数の使い方についてまとめました 基本準備 Irisのデータを使う import numpy as np import pandas as pd import matplotlib.pyplot as plt df = sns.load_dataset("iris") 通常のグラフ作成 軸の範囲・表示値設定 xlim:x軸の…
「生命情報向けの機械学習入門」という内容で、生物×機械学習という分野でコンテンツを作られている方のgitを見つけて色々触ってみたので、書き留めておきます。 github.com 「4章 : 配列を解析する深層学習」という内容を触ってみました。 内容としては、以…
都道府県の名称など、値自体に意味が無い変数を扱う場合は、そのまま機械学習にかけてしまうと意味不明な結果が出る。 図1 都道府県と目的変数 そこで、よく使うカテゴリ変数の対処方法をまとめた。 ダミー変数化 変数を各種類ごとのカラムに分けて、0,1表記…
モデルを作った後、説明する際に 「ここら辺の特徴量が効いてます。」 的なことを言わないといけない。 そこで、変数重要度をよく使う。 ランダムフォレストやXGboostでの変数の重要度評価をメモがてらまとめてみた。 RandomForestを活用した変数重要度評価 …
何もしないでDataFrameを表示させると、カラムが省略されたり行が省略されたりする。 メモ書きに、DataFrameを省略させない方法について記載する。 カラムを省略させない方法 以下のコードをDataFrameを表示させる前に書いておけばいい。 pd.set_option('dis…
前回に引き続き、seabornの中の関数について、自分のメモがてら紹介していきます。 今回は相関関係の可視化を中心に取り扱います。 import seaborn as sns import pandas as pd df = sns.load_dataset("iris") #データ準備 df['test'] = df['petal_length'] …
グラフを作成する際に、良く使うseabornを紹介します。 seabornは簡単に統計グラフを書くことができる関数を多数提供しています。 ここでは、factorplot関数を使ったグラフ作成を中心に紹介します。 import seaborn as sns df = sns.load_dataset("iris") #…
やったこと 小麦の遺伝子の情報から表現型を予測するという論文を読んでみました。 DeepGS: Predicting phenotypes from genotypes using Deep Learning という論文です。twitterでいい感じの論文ないかなと思って探してたら、ちょうどいいのを見つけました…
pandasでビニング処理(ビン分割)を行うにはcut関数、またはqcut関数を使用。 それぞれ、 cut関数は、最小値と最大値から、等間隔に切ってビン分割するのに対して、 qcut関数は、ビンの中の値の数を揃えてビン分割するという違いがある。 cut関数 第一引数x…
前回まとめた関数以外に、よく使う関数の一覧 nissyl.hatenablog.com 値の並び替え sort_values関数 DataFrame内のカラムの値に基づいて、並び順をソートする。 defaultは昇順。降順にする場合は、"ascending = False"にする。 (例) df.sort_values('petal_l…
1回目のやつで、IBDの遺伝的要因について軽く見てみたやつの続きです。 nissyl.hatenablog.com ということで、引き続き自分が読んだ後の思い出す用メモです。 1報目 「Twin study indicates loss of interaction between microbiota and mucosa of patients …
今回は生命科学系の論文を読んでみました。 参考にしたのは、Epidemiology and risk factors for IBDというレビューです。 とりあえず、 一旦、IBDの全体感を掴みたかったので、この論文を選びました。 以下、自分で思い出す用のメモで書いたものです。 論文…
前回のNumpyの使い方に引き続き、 nissyl.hatenablog.com 今回はPandas関数で、集計する際によく使う「groupby関数」「pivot_table関数」について整理。 Irisのデータセットを使って、色々触っていきます。 データ準備 [in] import sklearn,seaborn as sns i…
LightGBMとは、2017年にMicrosoftから出された機械学習アルゴリズム。 こちらの論文に詳細は記載されている。 論文中では、LightGBMのことを以下のように紹介してる We call our new GBDT implementation with GOSS and EFB LightGBM.Our experiments on mul…
numpyの中のよく使う集合関数について整理。 単にデータ処理するだけでなく、エラーの原因を調べるためにも重宝します。 よく使う集合関数 insersect1d関数 重複しているものだけを取り出したい時。 (例) [in] np.intersect1d([1, 3, 4, 3], [3, 1, 2, 1])…
この記事では、Pythonを使用してデータ処理をする上で必須なNumpy関数について整理。 集約関数 mean関数 平均を算出する関数。 (例) [in] import numpy as np nobel_lab = np.random.randn(5,4) [out] array([[ 0.06561081, -1.15944786, 0.72381315, 0.22…