博士ニートまとめ

博士を取りましたが進路が定まっておりません。
また、将来きちんと定職に就ける保証もありません。
私のような博士は多いはず。そのような場合でも生活ができるようにと考えて始めたまとめサイトです。
普通のまとめサイトとは異なり、自分で書いた記事も投稿していきます! もし不適切なところなどがありましたら、メニューバーのコンタクト、右カラム下側のメッセージや記事のコメント欄等に書いてお知らせください。できるだけ迅速に対処させていただきます。

    カテゴリ:科学 > 統計

    1: 田杉山脈 ★ 2019/06/21(金) 12:01:56.83 ID:CAP_USER
    このほど、「matloff/R-vs.-Python-for-Data-Science|GitHub」に、データサイエンスで利用するという観点からプログラミング言語であるRとPythonを比較した記事が掲載された。これまで、データサイエンスの分野ではRが使われることが多かったが、近年はPythonの利用が進んでいる。

    記事の執筆者であるNorm Matloff氏はカリフォルニア大学デービス校におけるコンピュータサイエンスの教授。以前は、同大学で統計学の教授だったようだ。同氏はR関連の書籍を4冊執筆しているほか、現在はR Journalの編集長を務めている。同氏はこれまでの経験および統計学者/コンピュータ学者という視点から、今回のトピックに関して有用な光を当てることができるだろうと説明している。

    執筆段階で掲載されている比較の主な内容は次のとおり。

    項目 内容
    優雅さ 明らかにPythonの勝ち。主観的ではあるもの、これまでさまざまなプログラミング言語を使ってきた経験や教育してきた経験から、Pythonにおける括弧や中括弧の利用が大幅に減少したことにとても感謝している

    学習曲線 Rの大勝利。Pythonを使ってデータサイエンスを始めるにはNumPy、Pandas、matplotlibなど、Python以外のライブラリについて学ぶ必要がある。また、パッケージ構成も時に難しい。Pythonに比べると、Rには行列型と基本的なグラフが最初から組み込まれており、数分以内に簡単なデータ解析を行うことができる

    データサイエンス向けライブラリ Rがちょっとだけ優勢。CRANに登録されているパッケージは1万4000個ほど、PyPIに登録されているパッケージは18万3000個ほどとPytPIのほうが多い。しかし、データサイエンスに関するものはそれほど多くない

    機械学習 Pythonがちょっとだけ優勢。多くの人にとって機械学習はNNを意味しており、NN用ソフトウェアの多くはPythonに関連している

    統計的な正確さ Rの大勝利。Rは統計学者によって統計学者のために開発されている

    並列計算 引き分け。RもPythonもベースバージョンはマルチコア計算に対して優れたサポートを提供しているとは言い難い

    C/C++インタフェース Rがちょっとだけ優勢。どちらにもC/C++インタフェースは存在しているが、PythonのそれはRと比べるとそれほど強力なものではない

    オブジェクト指向/メタプログラミング Rがちょっとだけ優勢。どちらもオブジェクト指向をサポートしているが、RのほうがPythonよりも真剣度が高い

    言語の統一性 Rはとてもひどい状況。Rは複数の実装系が存在しており、使っていない実装系のコードは読むことが難しい状況になっている

    リンクデータ構造 Pythonの勝ち。Pythonでは簡単に実装することができる

    オンラインヘルプ Rの大勝利。Rのhelp()関数はPythonよりも情報が多い
    以下ソース
    https://news.mynavi.jp/article/20190619-845288/
    【【IT】データサイエンス向け言語はRとPythonのどっち? 】の続きを読む

    1: 田杉山脈 ★ 2019/01/12(土) 18:37:50.17 ID:CAP_USER
    「Python」と「R」はデータサイエンティスト職の求人で最も多く要求されるスキルに数えられている。ところが、こうしたプロフェッショナルの仕事で最も頻繁に使用されているプログラミング言語について調査した複数の報告書によると、実際は評価が分かれるという。Cloud Academyの米国時間12月27日付の報告書で明らかになった。

     まず、TIOBE Programming Community Indexによれば、2018年の検索エンジンのリクエスト数でみたRの順位は下降気味だったという。だが、データプロフェッショナル1万6000人を対象に実施したKaggleの調査では、全体で最も人気の高いプログラミング言語はPythonであるものの、統計およびデータサイエンティストは他のどの職務よりも業務でRを使用している割合が高いことが分かった。データサイエンティストの87%はPythonを、71%はRを業務で使用していると回答していると、同報告書に記
    以下ソース
    https://japan.techrepublic.com/article/35131060.htm
    【【IT】データサイエンティスト職に求められる言語のトップに「Python」--「R」を上回る 】の続きを読む

    1: しじみ ★ 2018/10/16(火) 12:29:37.99 ID:CAP_USER
    科学・技術・工学・数学の教育分野を指すSTEMは「女性よりも男性の方が向いている」というステレオタイプがいまだ存在します。では実際に性別によって差異はあるのか?と、160万人の高校生の成績を男女で比較した結果が発表されています。

    Gender differences in individual variation in academic grades fail to fit expected patterns for STEM | Nature Communications
    https://www.nature.com/articles/s41467-018-06292-0

    Study of 1.6 million grades shows little gender difference in maths and science at school
    https://theconversation.com/study-of-1-6-million-grades-shows-little-gender-difference-in-maths-and-science-at-school-101242

    ニューサウスウェールズ大学のRose O'Deas氏やShinichi Nakagawa氏らが160万人の学生の数学およびエンジニアリングの成績を調査したところ、成績に男女差はほとんど認められなかったとのこと。このことから、STEMの分野で女性のキャリアと男性のキャリアに差があるのは、学術的な成果が理由ではないと研究者はみています。

    研究者によると、STEM分野における男女のギャップは「Variability hypothesis(変動仮説)」によるとのこと。変動仮説は、「女性に比べ、男性は性質の変動が大きい」とする考えで、認知能力に関して「女性は男性に比べて知性が低い/高い」という議論においってしばしば用いられてきました。

    以下のグラフは赤が女性、青が男性を示しており、男女ともにピークは同じ位置ですが、グラフないの各水平ラインを比べると、男性のグラフの方が幅広になっていることがわかります。これが、女性よりも男性の方が「パフォーマンスが低い人」「パフォーマンスを高い人」がともに多いということを示しており、「女性に比べ、男性は性質の変動が大きい」という考えにつながります。

    これまで、「天才」や「著名人」は男性の領域だと考えられがちでした。親は娘よりも息子に対して「天賦の才」があると思い、「男の子よりもずっとかしこい女の子」の存在を子どもたちは考えませんでした。そして、天賦の才が重要になる数学や哲学の分野で雇われる女性は少数でした。

    変動仮説が男性の優位性を説明するために初めて用いられたのは1800年代のこと。その後の2005年になり、変動仮説は再び顕著になってきました。ハーバード大学の学長となる経済学者のLawrence Summers氏は、科学やエンジニアリングの分野のトップになぜ男性が多いのかについて、2005年1月に次のように述べています。

    「科学やエンジニアリングという特別なケースで、本質的な適性の問題、特に適性の変異性という問題が存在します。このような懸念は、社会化や継続的な差別といった要素によってより大きくなります」

    生来的に男女で能力に差があることを示唆するこの発言は即座に非難され、最終的に謝罪記事が掲載されることとなりました。

    実際に男女で能力に差はあるのか?ということを確かめるため、今回、研究者はメタアナリシスでグループ間の違いをテストする方法を開発。この方法を用いて、これまでに行われた研究結果のデータを使用し、学術パフォーマンスにおける変異性をテストしました。この時データとして使われたのは1931年から2013年までに268の異なる高校およびクラスに通った160万人の生徒の成績で、その多くが北アメリカを中心とした英語話者だったとのこと。

    それぞれのグループで、男女の変異性と平均スコアにどのような差があるのかが計算されました。

    その結果、STEMにおいて少年・少女の成績分布は似通ったものだったといいます。STEMではない科目で最もジェンダーギャップがあったのは英語で、少女は平均7.8%評価が高く、少年に比べて変異性が13.8%小さかったとのこと。

    続きはソースで

    no title

    no title

    https://gigazine.net/news/20181015-gender-difference-in-maths/
    【科学や数学の分野において男女に成績の差があるのか、160万人の高校生のデータから判明したこととは? 】の続きを読む

    1: しじみ ★ 2018/10/06(土) 14:28:43.41 ID:CAP_USER
     一夜にして、数千万~数億円が手に入る可能性がある宝くじ。「そう簡単に当たるわけないんだよな」と落ち込んだり、「日頃の行いが良いからね」とゴキゲンになったりと、当選結果に一喜一憂した経験がある人は少なくないはずですが、実際のところ、“どれくらい当たる”ものなのでしょうか。

     今回は、高校数学でも学習する「期待値」の考え方を使って「宝くじ1枚でいくら手に入るか」を考えてみます。

    ■「期待値」とは?

     そもそも「期待値」とは何なのかというと、「ある確率変数が平均してどのような値をとるか」を示す値であるといえます。ちょっと分かりにくいので、「サイコロの目の期待値」を例に挙げてみましょう。

     1から6まであるサイコロ面が、それぞれ同じ確率(=6分の1)で出るとします。出る目の値の平均は「1/6×1」「1/6×2」……「1/6×6」を全て足したもので、計算すると「3.5」になります。

     サイコロの目のようなランダムに変化する値を「確率変数」と呼び、確率変数がとる値とそうなる確率の積を足し合わせていくと、得られる結果の平均、すなわち期待値が分かるというわけです。

    no title


    ■定番! ジャンボ宝くじ

     さて、ここからが本題。確率変数を「宝くじ1枚で得られる金額」として、その期待値を求めてみましょう。

     まずは、定番とも言うべきジャンボ宝くじについて。

     一般にいわれる「5大ジャンボ」とは、当せん金が高額な5つの宝くじの総称で、「バレンタインジャンボ(2月)」「ドリームジャンボ(5月)」「サマージャンボ(8月)」「ハロウィンジャンボ(10月)」「年末ジャンボ(12月)」を指します。

     直近にあった2018年のサマージャンボでは、1等の5億円に当たる確率は0.00001%と微々たるものでしたが、6等300円まで行くと10%となかなかのものです。これらの「金額×確率」の値を足していったところ、期待値はおよそ141円でした。

    no title


    他のジャンボ宝くじや同時発売の「ジャンボ宝くじミニ(最高額が低め)」でも、おおむね同じ値が出ましたが、年末ジャンボはもう少し高く、昨年(2017)末で約150円の期待値。これらの宝くじは1枚あたり300円と価格が同じなので、狙うなら年末でしょうか。

    ■スクラッチの場合

     では、逆にチャンスが多いスクラッチではどうでしょうか。

     スクラッチはいつでも販売されており、その場で当たり外れが分かるのが特徴です。回によってまちまちですが、今年(2018年)8月の「ドラゴンボールスクラッチ 魔人ブウ ラッキートライアル」は最高1000万円と、ジャンボ宝くじよりは低額ですが、その分当たりそうな気がします。

     先ほど同様、各等の「金額×確率」を足して計算すると、「魔人ブウ ラッキートライアル」の期待値は90円となりました。1枚が200円のため、割合にすると45%。300円のものもありますが、どれも価格の45%程度の期待値であり、ジャンボ宝くじよりも低くなっています。

    ■数字選択式宝くじの場合

     続いては数字選択式宝くじを見てみましょう。この中には「ロト6」「ロト7」「ミニロト」や「ナンバーズ」「ビンゴ5」という、読んで字のごとく数字を選んで買う宝くじが含まれます。

     同じくじなら価格は同じで、数字選択式宝くじの配当率は各等合計して45%と決まっており、期待値は原則どれを選んでも価格の45%です(実際には、100円未満が切り捨てられるので若干ブレますが)。

     ジャンボ宝くじの期待値が150円(価格の50%)弱ということを考えると、「ジャンボ宝くじの方が良いんじゃ?」という結論になりそうですが……注目すべきはロト6、ロト7の「キャリーオーバー」という制度。

     これは「1等の当たりが出なかった場合、次回にその分の金額を繰り越す」というもの。繰越金額は次の1等に上乗せされ、合計配当率45%とは“別に加算”されていきます。例えば、ロト7では1等の当せん金は最高10億円まで上がる可能性があるのですが、このときの各等の配当率の合計はおよそ58%になり、ジャンボ宝くじの期待値(の価格に対する割合)を上回ります。

    http://nlab.itmedia.co.jp/nl/articles/1809/13/news009.html
    続く)
    【【数学】宝くじは“どれくらい当たる”のか? 高校数学で考える「当せん金額の期待値」】の続きを読む

    1: しじみ ★ 2018/03/06(火) 17:30:50.98 ID:CAP_USER
    2022年度から施行される新指導要領の案が公開され、高校の数学教育に携わる人々に激震が走っている。
    最も衝撃的なのは、統計学が数学B(高校2年、理文共通)において事実上必修化され、
    その割を食ってベクトルが数学C(高校3年、理系のみ)にはね飛ばされる、という変更点だ。
    数学Bで必修化される統計学とは、「仮説検定」や「区間推定」などの「統計的推定」と呼ばれる方法論である。
    これは小学校や中学校の統計の授業では学ばない、統計学の核心といって良い部分だ。
    これまで普通は大学に入ってから学ぶものだった。

     これについて、批判点は二つある。第一は、ベクトルが理系のみの学習で良いのか、という点。
    第二は、統計学を数学で必修化するのは正しいか、という点。
    筆者の意見では、第二の点は大問題であり、その意味で第一の点にも批判的とならざるを得ない。

    ■数学は「演繹的」、統計学は「帰納的」

     ベクトルというのは、2次元や3次元の数を扱う代数の方法論だ。
    確かに、経済学でもベクトルは必須の道具であるから、文系も学習したほうがいいという意見には同意できる。
    しかし、ベクトルの計算自体は、そんなに難しいものではなく、
    大学生になってから教わっても障壁が大きいわけではない。
    むしろ、文系の高校生が数学という抽象的分野の中で教わるより、大学の経済学において、
    経済現象という具体的なモデルをもって教わるほうがイメージよく理解できるように思える。

     だから、文系にとってもっと有益な分野があるなら、ベクトルを排除しても仕方ないが、
    統計学にはその価値はない。なぜなら、統計学は決して数学ではないからだ。

     数学は「演繹(えんえき)的」な理論である。
    これは、仮定から結論を、数理論理(「かつ」「または」「ならば」「でない」「すべて」「存在する」から展開される論理)だけで導く学問である。
    だから、数学で証明された法則(定理)は常に正しい(真である)。
    たとえ話で言えば、「すべてのカラスは黒い」を前提として、「だから、このカラスは黒い」を導くのが「演繹」である。

     かたや、統計学は「帰納的」な理論である。
    これは、観測された現象から「たぶんこうだろう」という推論を導く技術だ。
    言い換えると、経験的な推論を行う理論である。
    カラスのたとえで言えば、「これまで見たカラスは黒かった」を前提として、
    「だからきっと、カラスというのはみんな黒いのだろう」という推論を行うのが「帰納」である。
    したがって、統計学の結論では間違い(偽であること)が必然的に起きる。

     このように数学と統計学は全く異なる性質の論理なのである。

    続きはソースで

    関連ソース画像
    http://img.chess443.net/S2010/upload/2018022700003_1.jpg

    WEBRONZA - 朝日新聞社の言論サイト
    http://webronza.asahi.com/science/articles/2018022700003.html/
    【【統計学】高校数学での統計学必修化は間違っている まったく異なる原理を持つ「数学」と「統計学」 】の続きを読む

    このページのトップヘ