・◡・

cislunar room

文系で統計検定1級に合格した

題の通り。2017年11月26日の試験で数理と応用に受かった。応用は社会科学を選択。

20歳で合格だが、最年少というわけではないらしい。というわけで何をやったのかを記しておく。

※記事下部にいくつか追記しました 特に追記2を読んでほしい

 

もくじ

背景 

勉強法(使った本・サイト)

モチベについて

追記

 

自身の背景・勉強を始めた日

その前に自分のバックボーンを語っといたほうが参考にしやすいと思うので書く。

大学は一橋で文系。経済系だろと言われるが、それも違くて自分は商学部商学科。専攻はITマーケティングということになっている。受験で数学は使った。センター試験は新課程1年目で、データの分析が入り始めたころだった。まあでもセンターレベルなので簡単。

講義で統計学と名のつくものは受けておらず、少し被るところの量的データ解析を受講したことがある。その内容は、特に社会科学系の論文で使いがちなことを基礎からやりましょうねという感じで、数式も使わなければデータラングリングを教えるわけでもない、まあ微妙なものだったと、振り返ってみて思う。本学の統計学に被る講義は、計量経済学などの経済学部系の講義や、一般教養であり必修の線形代数微積分があるが、前者は受講しておらず(勉強はじめてから友人に講義ノートを借りて独学はしたけど)、後者はあまりにも出席せず単位を落とすなんてこともしている。

要は、なんも事前知識がないどころか数学的素養にも乏しい状態で始めたということになる。検定を受けるのも今回が初めて。

ただ、これは後述するが、英語は割とすらすら読める(ネイティブではないし留学経験もないけど、受験英語で)。これは役に立った。

 

さて、統計の勉強を始めた日だが、

 

 

このツイートにある通り、2016年9月7日である。だが、このときは買って満足するという大学生が陥りがちなアレに罹患していた時期なので、実際に勉強を始めたのは2017年頭らへんだと思う。そしてさらに、当初は統計学というよりもPythonやRの習得にオネツだったので、数式を見始めたのは2017年の5~6月ごろである。天元突破とは。

 

まあでもPythonやRでデータの扱い方とか「こういうときにこれを使うと嬉しい」みたいなことは攫えていたんだと思う。ちなみにPythonはUdemyと本とブログで勉強した。Rはブログだけで勉強(勉強?)していて、いまんとこ困ってない。

 

勉強法

肝心の統計の勉強は、基本は本読む→わからなかったらググるを繰り返していただけ。一日何時間とか決めずに、暇な時とか、講義に集中できないときとかにやってた。特にググったりするのは電車で暇な時にちょいちょいやっていた気がする。

まず本に関してだが、とっつきやすいものを読んでふんわりイメージを掴んでから本腰を入れたという流れ。あとは、エラい人たちの力を借りて効率化しましょうという感じ。以下、読んだ本とコメント。

 

 ■高橋信『マンガでわかる統計学』シリーズ ☆☆☆☆☆

最初の最初に読んだ3冊。これらは良書だと思う。

どういう時にどういう流れで、どういう意図をもってやるのかが書いてある。漫画だと思って侮るなかれ。最近はベイズのやつも出たそうですけど、これは未読です

マンガでわかる統計学

マンガでわかる統計学

 
マンガでわかる統計学 回帰分析編

マンガでわかる統計学 回帰分析編

 
マンガでわかる統計学 因子分析編

マンガでわかる統計学 因子分析編

 

↓これは読んでないけど紹介

マンガでわかるベイズ統計学

マンガでわかるベイズ統計学

 

 

■久保川達也『現代数理統計学の基礎』☆☆☆☆☆

これがなかったら受かっていない、というかこれを完璧にしたから受かったみたいなところある。もちろんこれ1冊でいいかと言われれば違うわけだが。

解説→演習問題という、よくあるタイプの参考書形式。だが、とにかく説明が分かり易い。「いや、その分かり易いって分かり易くないだろ」っていうのはコミュニケーションを解さない数学書あるあるだが、これは本当にそんなことはないと思う。というより、これにある数式が理解できないときは、数学の理解に穴がある状態なので、立ち戻った方が良い。「それが分かり易くないってことだろ」と言われるかもしれないけれど。

現代数理統計学の基礎 (共立講座 数学の魅力)

現代数理統計学の基礎 (共立講座 数学の魅力)

 

 

■丹野雄吉『教養の微分積分』☆☆☆☆ 

教養がなかったのでやった。薄くコンパクトなので携帯しやすく、講義に集中できないときなどにパラパラ見て問題解いてた。教養がある人はいらないと思うけど、微積分は統計学の礎なのでおろそかにせず。

教養の微分積分

教養の微分積分

 

 

■村上正康『教養の線形代数』☆☆☆

 同上。教養を求める人向け。まあでもやっといたほうが良い。

教養の線形代数

教養の線形代数

 

 

南風原朝和『心理統計学の基礎ー統合的理解のために』☆☆☆☆

よく文系の課程で使われることがある(らしい)教科書。たしかにわかりやすい。それと、よく使われるためにググると良い解説がいっぱい出てくる。そういう意味でおすすめかも。

心理統計学の基礎―統合的理解のために (有斐閣アルマ)

心理統計学の基礎―統合的理解のために (有斐閣アルマ)

 

 

■山田剛史『よくわかる心理統計』☆☆☆

上の心理統計が良く分からなかった人が読むやつ。たしかによくわかる。ただ文中に登場するキャラがウザい。狭量なので。

よくわかる心理統計 (やわらかアカデミズム・わかるシリーズ)

よくわかる心理統計 (やわらかアカデミズム・わかるシリーズ)

 

 

東京大学出版会統計学入門』☆☆

どうせ図書館に行けばあるから、たまに見るといい。別に読むものではない。買ったけど。

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

 

 

東京大学出版会『人文・社会科学の統計学』☆☆

同上。買わなくていい。買ったけど。

人文・社会科学の統計学 (基礎統計学)

人文・社会科学の統計学 (基礎統計学)

 

 

■久保拓弥『データ解析のための統計モデリング入門ー一般化線型モデル・階層ベイズモデル・MCMC』☆☆☆☆

いつもの。統計学の勉強として用いるのは微妙かもしれない。しかし、いまは偉い大人の人たちがこの本を元に数式を解説してくれている資料やブログがいっぱいある。それを参照しながら見ると、とても効率いい。

 

だいたいこんなところ。もっと他にもチラ見した本はあるけれど、おおよそこんな感じで受かった。あと過去問もやった。

次は使ったサイトを記す。

 

使ったサイト

ググり先(?)で特に重宝していたものは、

 

Qiita(エライ人たちがめっちゃ書いてくれる)☆☆☆☆☆

はてなブログ(エライ人たちがめっちゃ書いてくれる)☆☆☆☆☆

SpeakerDeck(輪読会の資料がオススメ)☆☆☆☆

大学の講義資料(東大・一橋・慶應など、計量経済に明るい大学の資料に良作が多い)☆☆☆

Stackoverflow(Hey)☆☆

 

最初は必ず日本語サイトを探す。なぜなら読むのが楽なので。それでも分からなかったら英語でググる。すると嬉しいことに、統計検定1級レベルはここまでやれば完全に網羅できる(逆に言えば、しょせんその程度の検定なので自慢は出来ない)。

Stackoverflowを取り上げたが、英語のサイトは別にこれに限らない。日本語サイトを探すと言った手前アレだが、英語でググれること・英語でググった結果を理解できることはめちゃくちゃ重要である。論文読むときとか、あるいはなんかの分析の結果を解釈するときとか、そういうときに現れるのはおよそ英語だ。英語ができないとダメ、とまで言えそう。ここまで書いて急激に自分の英語力がつらくなってきたのでやめます。ただ、本当に重要です。

 

その他 モチベについて

モチベーションは重要であるけれど、モチベーション以前に重要なことは習慣作りだと思う。モチベーションとかいう不確かなものに賭けるから終わらないのであって、IFTTTを体内に仕込めばそれが損なわれることは滅多にない。

自分はまず机に向かうこと、とりあえず本を開くことまでは習慣化してる。あと疲れたら筋トレするか、動画サイト見るかTwitterするか、そんな感じで発散している。それ以上に疲れたりしたら、もうやらないで、その日は疲れをとることに集中する。射撃しながら前進しましょう。

長く続けるコツは気を張らずストレスを溜めないことというか、真面目にやらないことだと思っていて、「今日は○○分やれなかった」とかそういうのは学習を妨げると思う。別に5分でも進捗には変わりないので、「今日はレポート書かなきゃいけないからこれだけ!」「今日は飲みに行くから数字のこと考えたくない、変なブログ眺めとこ」とか、そんな感じでいいと思う。気張るのが一番よくないので、ガス抜きしながらやっていきましょう。

 

 

なにかあったらTwitterでリプライなり飛ばしてください カジュアルな会話を好みます。

twitter.com

 

 

 追記

*追記1 2018/8/16

文系と冠している通り、自分は数理統計を専門にしているわけではなく、むしろ統計的一般化や実証主義の偏重に対して疑義を投げかける学徒(ビジネス勉強してるのにね)。統計を全く知らずに統計やデータサイエンスの問題点を指摘するのもアホらしいので勉強した。そんなわけでツイッターは「お前全然数学っぽい話しないじゃねーかよ」って感じではあると思います。すいません。

 

*追記2 2018/9/7

この記事を読んでいる人は、データサイエンスに関連するビジネス領域や数学、あるいは経済学などに興味がある人たちだと思う。データというファクトに基づいて指針を決める、実証主義的な考えだ。しかし、特にこれから先、データサイエンスが当たり前になる時代においては、実証主義だけにすがるようでは有用な知見を残せない。これは改めて書こうと思っているが、データサイエンスはデータがあるものしか表現できない。マイノリティ、被差別民といったデータなき者たちの声は、モデルの前に捨象されてしまうというのは肌感覚でわかると思う。そこで有用になってくるのが、特に文化人類学が牽引してきたエスノグラフィだったり、質的データ調査(自然言語処理とかQDAを使った調査もあるけど、それは保留)だ。データサイエンティストやエンジニアは、自分の立ち位置や権力性を意識しなくてはならない。目先の数字だけを上げたい人は「何をバカなことを」と思うかもしれないが、そういう人は意識的にも無意識的にも統計やデータサイエンスを悪く使うことに繋がることに注意してほしい。情報の量でなく情報の質が求められる時代が到来しているのだから、理工系の人々も人文的な方法論や思想を学ぶべきだ。 もちろん、人文系が線形代数を学ばないのも問題だが。

マイノリティを見ることは何も企業の社会的責任を果たすという効用に止まらない。数多くの変革が少数者によって為されてきたことは、少し歴史を学んでいれば知っていると思う。みんなが大好きなジョブズザッカーバーグだっていい。イノベーターを目指すなら、文理の壁は無くした方がいい。

自分がこの追記で述べたいことは、データサイエンスやAI人材志向の偏重に対する暴走への懸念だ。 データサイエンティストが悪い人だと言っているわけではない。むしろ彼らの中に世の中を幸せにしたいと思っていない人がいるのだろうか。ただ、「地獄への道は善意によって舗装されている」というのも真だ。善意を持っているのなら、それをより正しい方向へと発揮するようにしたい。そのためには、まずは自分を客観的に知ることが先決だ。

もし自分の立ち位置を客観的に捉えたい人は、以下の本を手元に置くことを強く勧める。「社会科学」と題にあるが、文脈を超えて通用する。主義(立ち位置)の分類と同定に始まり、用いられる方法論を非常に明快にまとめている。これによって、立ち位置と用いる方法論の齟齬を減らすことができるだろう。研究をする人もしない人も、必ず役に立つと思う。なんなら研究(アカデミックでもビジネスでも。商品開発もそう)する人で自分の立ち位置が明快でない人は、すぐに立ち返った方がいい。

社会科学の考え方―認識論、リサーチ・デザイン、手法―

社会科学の考え方―認識論、リサーチ・デザイン、手法―

 

 むしろ自分はこっちのが専門なので、なんかありましたらリプください。

 

おまけ

さいきんこの本が良かったです。機械学習ブラックボックス化がもたらす影響について。社会的分類化の話に通じています。

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy