もう結構前からやろうやろうと思っていたのですが
TensorFlowのほうも手を出したりして結局どちらも中途半端・・でも
今までつまずいた部分は忘れずにメモ。
TensorFlowのほうも手を出したりして結局どちらも中途半端・・でも
今までつまずいた部分は忘れずにメモ。
activator runでエラーがでる。
sparkのインストールと経過
OS Xはやはりbrewで入れられるならそれが一番よいので、
ただ、spark-shellをあれこれしているとspark-submitというコマンドが反応しないことがあるので、その場合は
unset SPARK_HOME && spark-submit
というおまじない的なので対処している。(qiita:エラーが出た時の対処)
あと結局sbtもインストールすることになる。
brew install sbt
実例がほしい
まずは公式(QuickStart, Programming Guide)をさらっと通した(といいつつかなり時間がかかっている)、何かもうちょっとだけ実用に近いようなものを・・というところでは
↑チュートリアルのkuromoji*.zipだけgithubにはないようなので、atilikaのサイトからダウンロードする。
このあたりがSpark, MLibってなんだろう 、というのもちょっと説明しながらで良いかな・・と思ったらWord2Vecというのが出てきてこれはこれでもっと掘り下げたいところでもう少しScalaとSparkというところにフォーカスしたかったので一旦動作確認しただけ・・
2時間くらいかかった。
あと検索していたらodsb2014というのがあってインフルエンザの流行データとか調べてて、それっぽい・・!とか思ったら環境構築が自分がやったのと微妙に違って面倒そうで(VMで提供してるっぽい)。これはまたあとでやろうと。
HDFSでやりたい
やはり、分散環境を作ってなんぼかな、と思ってちょうどDigitalOceanを使っていたので
https://dwbi.org/etl/bigdata/183-setup-hadoop-cluster
このあたりをやってみると
NameNode, DataNodeまではできて
hadoop fs -ls /
こんな感じのもできてHDFSクラスターもできてるぽいのでいいかな、と思ったら
次のEdgeNodeがうまくできない。(NoRouteToHostというエラーが出てしまう)
もっと手頃なのはMacBook内で解決することなのでは
と思って結局
brew install hadoop
これが一番早そう(qiita)。
ちなみに、ここでハマる人がいるのかわからないのですが私はstart-yarn.shで微妙に数時間(実は半日)ほどはまりました。
例題に
hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount someFile.txt /out
こんな感じに動作を確かめるのがあって
sbin/start-dfs.sh
こっちはいいのですが、
sbin/start-yarn.sh
こっちがResourceManagerを起動してくれない。
いつものようにStackOverflowを調べて設定ファイル側のxmlとかを修正するほうを一生懸命調べていたのですが
よくエラーメッセージを見ていたら
nohup can't detach from console
というのが出ていてtmuxのせいということがわかりました・・
コメント
コメントを投稿