でーたさいえんすって何それ食えるの?

JuliaとかRとかPythonとかと戯れていたい

2023.11.07 OpenAIリリース内容について

完全自分用の備忘メモ GPTモデルの改善で、GPT-4, GPT-3.5が高機能化 GPT-4 Turbeがリリース コンテクストに使えるトークン数が128Kに増加 学習は2023年4月までのデータとなる Function Callのアップデート 1つのメッセージから複数のファンクションコールが…

データ分析でコケないための進め方とは。。。?

比較的ポエミーな内容で、いつもとは毛色が違う内容を書いてみたいと思います。 というのも、データ分析PJTが多く実行されているにも関わらず、相変わらず燃えたり効果が得られず気まずくなったり、というPJTが少なくないと聞きます。 要因は様々あるとは思…

lightGBM, CatBoostの特徴概要

CatBoostのアルゴリズムを復習しているついでに、良く使うCatBoostとLightGBMがざっくりどんな特徴のアルゴリズムかぺら1枚で整理してみました。 読み/理解のし間違いがあるかもしれないので、これをそのまま鵜呑みにしちゃ危ないですからね! Reference: Ke…

catboostのハイパーパラメータチューニング方針メモ

仕事上、KTする機会が意外と多いトピックなので備忘録として掲載。 あくまで、お気持ちを把握するための情報に留めてあり厳密情報は公式のDocumentと実装論文を読むのが一番良いです。 【参考】PDFの元となっているドキュメントへのリンク https://catboost.…

GBM系ライブラリの変数重要度計算ロジックメモ(特にcatboostについて)

Gradient Boosting Machine系のライブラリは予測の初手としてよく使われるアルゴリズムで、予測分析といったらとりあえずこれをつかうのではないかという程度に普及した手法です。 ところで、何気なく使っている説明変数重要度の値ですがアルゴリズム毎に計…

ROC曲線とPR曲線を直観的に把握するウェブアプリをつくった

機械学習で二値分類タスクのモデル評価時によく使うROC曲線と、特に不均衡データの評価時に使うPR曲線、そして混同行列 これらは元をたどれば予測とその結果の正誤について別々な表現方法で見ているので、相互に関係しあった評価方法です しかし、これらを横…

「戦略がすべて」の読書メモ

新潮新書から出版されている瀧本 哲史 著「戦略がすべて」を読んで、主に自分で再利用するためのアウトプットです。 この本は、コンサルティング講師やYouTubeでの発信で活躍なされている髙松さんがおすすめ本として紹介されていた中にあった本 www.kanataw.…

R版metaflowの使い方

2019年12月にpython版が公開され、2020年8月にR版が公開されたので早速チュートリアルを参考にしながら使ってみてポイントをメモとして残しておく。 触ってみた所感は、DS人材のようにプロダクションReadyなソースをつくることに比重を置いていない人に対し…

Rチートシート訳しました

いまのところ、次のRチートシートの和訳をやりました。 致命的な間違いとかあれば教えてほしいです。。。 RStudio IDE R Markdown Sparklyr Deep Learning with Keras

mecab-pythonモジュールを使わずにpythonからmecabで処理する方法

mecab-pythonのインストールでエラー吐いて、インストール問題解決に時間がかかった。。。 簡単な関数をつくって回避したので備忘録がてら、残しておく import os import codecs import pandas as pd import subprocess def extract_words(s, exclude_keys=[…

R 3.4.0 のJITバイトコンパイラってどんくらい早くなるの?

R3.4.0がリリースされましたね。 で、大きな変更点のひとつにJITバイトコンパイラがデフォルトでONになってるとのことです。 これによって、forループやfunctionは特に何もせずともバイトコンパイルが行われて高速化が行われることになります。 ※ただしbrows…

tf-seq2seq

what’s this? google翻訳の中身とほぼ同じやつ research.googleblog.com Overview - seq2seq GitHub - google/seq2seq: A general-purpose encoder-decoder framework for Tensorflow KeyPoints 翻訳で実際に使用しているのはseq2seq tf-seq2seqはseq2seqの…

Microsoft LightGBMをmacOSで触ってみた

モチベーション 普通なマシン(Macbook Air)で分析してるので、ライトウェイトかつ高速な勾配ブースティング環境って有難いわけですよね。 さらに、kaggleのBOSCHコンペで暫定3位の方のソリューションでもこのLightGBMが使われてたそうなので、 さらに興味が…

Rodeo --RStudioっぽいPython開発環境

motivation データ分析をする時、Rを使う場合は大抵RStudioを使ってます。 RStudioがあれば、コーディング、コードのお試し実行、ヘルプ参照、プロットの閲覧etc. が1画面でサクサク作業出来て便利なわけです。[1] 私の場合、ある程度コードの塊を書いたら、…

Jupyter on Mac OS X El Capitan

El CapitanでJupyterの環境整備してたら途中で詰まったので、その時の備忘録 c.f. http://jupyter.readthedocs.org/en/latest/install.html 前置き 上のリンクにある通りコマンドを打ってみる sudo pip install jupyter と、インストールがコケる どうやらEl…

R import multiple packages at once

モチベーション Rでlibrary()を打つ行数減らしたいよねー e.g. ふつーなら library(magrittr) library(dplyr) library(igraph) library(data.frame) 一気にやりたいんで libs <- c("magrittr", "dplyr", "igraph", "data.frame") apply(libs, require, chara…