
少し前からディープラーニングやAIなどのデータサイエンスが流行っています。一説によると海外の企業は優秀なデータサイエンティストを探していて、データサイエンティストの収入は最低でも1000万円は超えるらしいですね。これは海外で働いているシニアエンジニアと同じくらいの給料で、高騰していると言えます。理由は簡単で人が足りないからです。貴重なものには価値がつく。それだけです。今回はデータサイエンスを始めるための準備作業であるAnacondaとJupyter Notebookの使い方を紹介します。
見出し
Anacondaとは?
Anacondaとは、プログラミングに慣れていないデータサイエンスのためのPython開発環境です。簡単に言うとデータサイエンス向けの仮想環境やパッケージのインストールが簡単にできるよ、というものです。GUIとCUIの両方で提供されています。パッケージ内にはCondaというpipに代わるパッケージ管理ツールと、Jupyter Notebookが標準で入っています。Condaはパッケージをビルド済の状態でインストールできるので、各々の環境差分によるビルド失敗を防げます。個人的にはpipより優れていると思いますので、ついでに使ってみると良いと思いますよ。
Jupyter Notebookとは?
Jupyter Notebookは、データ分析などの作業をする時に、ソースコードを書いて実行結果を記録しながらノートブック形式でまとめるためのツールです。
Anacondaの環境構築
今回はインストーラをダウンロードしてきてインストールする方法はとりません。それは不便だからです。コーディング以外の作業はコマンドラインで完結すべきです。もしどうしてもインストーラが必要な方は上のAnacondaのサイトからダウンロードできます。
pyenvのインストール
pyenvとは、Pythonのバージョンを管理するためのツールです。Python2.7とPython3.5を切り替えて使うことができます。今回の場合はさらにanacondaを切り替えて使います。
pyenvのインストールに関しては以前に書いた「MacでRubyとPythonとJavaとNodeとPerlの複数バージョンを管理する方法」の記事を参考にしてください。
余談ですが、python以外の言語も同様の方法で管理したい人はanyenvを試してみると良いでしょう。
Anacondaのインストール
Pyenvからanacondaのバージョンを探してインストールします。コマンドラインから簡単にできます。
$ pyenv install -l
$ pyenv install anaconda3-4.3.0
$ mkdir my-project
$ cd my-project
$ pyenv local anaconda3-4.3.0
$ python --version
Python 3.6.0 :: Anaconda 4.3.0 (x86_64)
もしanaconda以外のPythonをあまり使わない場合は、pyenv globalを使用して下さい。
また、MinicondaというAnacondaから機能を削ぎ落としたバージョンもありますので、気になる方は調べてみて下さい。ただし、pyenvでインストールすると一部のコマンドが競合する可能性があるのでパスに気をつけてください。
Jupyter Notebookの使い方
起動と停止
Anacondaに入っているJupyter Notebookのバージョンを確認しましょう。
$ jupyter --version
4.2.1
$ jupyter notebook --version
4.3.1
大丈夫そうですね。では、さっそく起動してみましょう。
$ jupyter notebook
[I 16:28:09.211 NotebookApp] Serving notebooks from local directory: /Users/user/my-project
[I 16:28:09.211 NotebookApp] 0 active kernels
[I 16:28:09.211 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/?token=c7884031a95bc68086b28eb122a340bf73d7b4bf12d44d6b
[I 16:28:09.211 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
[C 16:28:09.216 NotebookApp]
Copy/paste this URL into your browser when you connect for the first time,
to login with a token:
http://localhost:8888/?token=c7884031a95bc68086b28eb122a340bf73d7b4bf12d44d6b
[I 16:28:09.846 NotebookApp] Accepting one-time-token-authenticated connection from ::1
では「http://localhost:8888/tree」にアクセスしてみましょう。
停止する時は普通にControl+Cでできます。
Shutdown this notebook server (y/[n])? y
[C 16:30:02.625 NotebookApp] Shutdown confirmed
[I 16:30:02.626 NotebookApp] Shutting down kernels
新しいノートブックを作ってみる
では新しノートブックを作ってみましょう。
Jupyter Notebookを起動したところから始めます。それでは「New -> Python3」をクリックして下さい。
これでPython3のノートブックが作成されました。以下のようにコードを入力して、実行ボタンを押すと、以下のように実行結果が表示されます。
メニューの「Code」のプルダウンからMarkdownに変更することもできます。
こうすると普通にMarkdownで書けます。
こんな感じです。ソースコードの実行結果とMarkdownでデータ分析した内容を整理できることが分かります。
あと、ちゃんとファイルには名前をつけて分かるようにしましょう。
「File -> Rename」でできます。
よくあるインターフェースなので分かりやすいです。
作業が終了したら保存します。左端のアイコンからできます。
そして終了します。
「File -> Close and Halt」です。
終了すると、最初の一覧に戻ります。ここで作成したファイルを一覧で管理できます。ノートブック形式で保存されていることが分かりますね。
作ったノートブックを出力する
作ったノートブックのページから「File -> Download as」から好きな形式でダウンロードできます。
出力できる形式
- Notebook
- Python
- HTML
- reST
便利ですね。ほしいフォーマットはだいたいあります。
作ったノートブックをシェアする
作ったノートブックはnbviewerを通して世界にシェアできます。試してみて下さい。
最後に
いかがでしたか?初歩的な内容ではありますが、データサイエンスを始める上では役に立ったのではないでしょうか。今後TonsorFlowなどの流行りのディープラーニングライブラリを使う場合なども今回の環境からスタートできます。では。
環境
- OS : macOS High Sierra 10.13.2
- Anaconda : 4.3.0
- Python : 3.6.0
- Jupyter : 4.2.1
- Jupyter Notebook : 4.3.1


コメントを残す