В прошлый
раз я похвастался свежеприобретенными
знаниями – пройденным курсом Scalable
Machine Learning. Теперь буду писать
отчет-конспект, для памяти.
Все практические
работы, лабораторки, мы проводили на
спецом подготовленных виртмашинах.
Каждый студень на свою станцию установил
VirtualBox 4 и в него закатал заранее
подготовленный образ виртуалки, с
помощью Vagrant.
На виртуалке
этой крутится Apache Spark и Python обвязка для
него. Так что все взаимодействие со
Спарк идет через iPython notebooks в браузере.
На ГитХабе
есть репозиторий
https://github.com/spark-mooc/mooc-setup
со всеми
необходимыми материалами. Есть смысл
сразу себе его скачать.
В этом репе
есть файл
из которого
поднимается виртуалка.
Кроме того там
еще нотебуки лабораторок, их можно сразу
грузить в виртуалку и начинать заниматься,
все очень доступно даже без лекций.
Приведу вырезки
из официальных инструкций, как поднять,
запустить и использовать виртуалку
(все очень просто, нет причин не
воспользоваться подготовленным
полигоном):
Note: If you already
have either software package installed, makes sure that the versions
are VirtualBox 4.3.28 (or later) and Vagrant 1.7.2 (or later).
Create a custom
directory under your user profile
- Windows:
c:\users\<your_user_name>\sparkvagrant
- Mac:
/Users/<your_user_name>/sparkvagrant
- Linux:
/home/<yousr_user_name>/sparkvagrant
Please ensure you have
enough space the disk where your user profile is.
Download this file
(https://github.com/spark-mooc/mooc-setup/archive/master.zip)
to the custom directory and unzip it.
From the unzipped file,
copy Vagrantfile to the custom directory you created in step #1
(NOTE: The file must be named exactly "Vagrantfile" with no
extension)
Open a command prompt
(Windows) or Terminal (Mac/Linux), change to the custom directory,
and issue the command
"vagrant up
--provider=virtualbox"
To start the VM, from a
DOS prompt (Windows) or Terminal (Mac/Linux), issue the command
"vagrant up".
To stop the VM, from a
DOS prompt (Windows) or Terminal (Mac/Linux), issue the command
"vagrant halt". Note: You should always stop the VM before
you log off, turn off, or reboot your computer.
Once the Virtual
Machine is running, access the Jupyter web UI for running IPython
notebooks by navigating your web browser to "http://localhost:8001"
(or "http://127.0.0.1:8001/").
On the Jupyter web
page, use the Upload button to upload the "lab0_student.ipynb"
Spark iPython notebook file that was mentioned in step #2, to the
home directory.
Select the file and run
each cell - verify that you do not encounter any errors.
original post http://vasnake.blogspot.com/2015/08/apache-spark-vm.html
Комментариев нет:
Отправить комментарий