2018-11-01から1ヶ月間の記事一覧

Spark DataFrameに新しい列を追加する

下記のようにUDF使うか, mapでDataFrameごと新しくするか、なのか? import spark.implicits._ import org.apache.spark.sql.functions._ // Example data val df = Seq( (1, 2), (3, 4), (5, 6) ).toDF("x", "y") // Define function val hoge = udf({(x: I…

sum_{i=1}^{N}(標準正規分布×標準正規分布) = 標準正規分布×自由度Nのカイ分布

なんでこうなるかの数式の証明はまだ読み切れてないんだが、とりあえずコード書いて検算したのとLINKのメモ。確かにヒストグラムがほぼほぼ重なる… #自由度とサンプルサイズ df <- 10 size <- 10^4 # 標準正規分布×自由度dfのカイ分布(カイ二乗分布に従う乱…

rlangと戯れて気が付いたこやつとの私的正しい付き合い方

掲題の件、Tidy Evalというかrlangパッケージを、下記の記事をはじめいろいろ使いこなそうと試行錯誤してきた。 いい加減、俺なりの楽なやり方が見つかったのでまとめておく。 eval(parse(text=...))をモダンに書きたい - My Life as a Mock Quant 全ての引…