JAWS-UG Summit2012にいってきた　(2012-03-02)第一日目

AmazonWebService UserGroup Japanのユーザサミットにいってきました。
公式http://jaws-ug.jp/news/jaws-ug-summit-2012

AWSの東京リージョンが開設されたのが、昨年３月１０日で約一年。２５ある全国ユーザグループのサミット。
直前にAmazonSimpleWorkflowやAmazonDynamoDBがサービスイン、新しいエヴァンジェリスト（エバ２号機）が発表されるなど、サービスやデザインパターンの解説あり、中の人やUG幹部の講演あり、ワークショップありでAWSの一色の２日間でした。

備忘録的に走り書きメモをアップしておきます。書き落としている箇所多数

The Role of the AWS Ecosystem[Welcome to AWS Eco-System: AWSとデベロッパーエコシステム](アリエルケイマン氏）

Ecosystem Service←→Could Virtualization←→ApplicationService

Amazon DynamoDB(3/1 日本リージョンでリリース）

Geographic Expansion
- 8 Regions
- 26 Edge locations
- Now 82Services (at 2011)

Amazon S3 Usage
- Q4 2011 763Billion
- peak Request 500000/per second

Price Reductions
Scale & Innovation

AWS Adoption

IaaS Market Share Leader
- AWS=59%

New Evangelistの発表
- 堀内氏（元Gumi CTO)

What's New
- Cloud Dating(2012/3/22 18:30〜）
- Lean Cloud Event Eric Ries (Lean StartUp)2012/4/6 開催予定
- AWS Startup Challenge -Japan Stage-2012/4 スタート2012/9 最終選考
- AWS Summit in Tokyo 2012/9 開催予定
- AWS Sumurai award 2012/12 開催予定

AWS上でアプリケーションを構築しよう[Build your own apps on AWS: AWSでクラウド デベロッパーになろう](ジェフバー @jeffbarr)

agenda
- AWS2011 のレビュー
- 新サービスの紹介

AWSレビュー
- 好循環スパイラル
- →より多くの顧客利用→資本の投下→テクノロジーへの投資→効率のカイゼン→値下げ→

新AWSロケーション
- 東京リージョン 2011/3
- GovCloud 2011/8
  - ITARコンプライアント、米国政府、州、関連業者向け
  - 他国の政府向けにも計画中
- 米国西（Oregon）　2011/11
- 南米（San Paulo) 2011/12

新AWSサービス
1. AWS EBS
2. AWS ElasticCache(キャッシングアズアサービス）
3. AWS Direct Connect（専用線サービス）
4. AWS CloudFormation
5. Amazon SNS
6. AWS Storage Gateway（オンプレミスのストレージアプライアンス）
7. Amazon DynamoDB
8. Amazon Simple Workflow

EBS(Elastic Beanstalk)とは
- 開発者がより簡単にアプリケーションをAWS クラウド上にデプロイし、管理できる
- 数分で、AWS上にアプリケーションをアプし起動できる
- 対象はApacheTomcat 上のWebのJava デベロッパー
- これから複数スタック、言語をサポートできるようにする。
EBSのメリット
- EC2インスタンスへのルートアクセス
- コンフィグレーションの設定を一箇所で管理
- あらゆるデータベースを使える
- AmazonRDS, AmazonSimpleDB,, Microsoft SQLServer or Oracle
- カスタムAMIを使える
- EC2で他のサービスも稼働できる

AWS ElasticCache
- キャッシングアズアサービス (Caching as a Service)
- memcachedをホスト
- スケーラブルで従量課金
- WEBコンソールから管理

AWSDirect Connect
- 専用線接続
- １Gbps,１０Gbpsの接続を選択できる
- プライベートネットワークのサブネットとして機能する

AWSCloudFormation
- 再利用可能なテンプレートからアプリケーションスタックを作成
- 宣言形式でテンプレート作成
- 依存関係を考慮した順番でリソース作成
- Webコンソールのサポート
- 定義済みのテンプレートを用意（AWSの各サービスを組み合わせて利用するテンプレート）
- WordPressのサンプルテンプレート
- パラメタ、マッピング、リソース、アウトプット

AmazonSNS
- 簡単にメール送信
  - ・トランザクション
  - ・バルク
- 簡単にセットアップ
- 高いスケーラビリティ
- デリバビリティの管理
- 開発用サンドボックス
- 本番用への移行リスエスト
- （ECサイトのユーザ登録や大量の同時メール配信に有効）

Amazon Simple Workflow
- 分散アプリケーションのパーツをコーディネートできるワークフローサービス
- システムセットアップ
- ビジネスプロセス
- クラウドもオンプレミス

新AWS機能
- VirtualPrivateCloud
- S3
  - 現在：7620億のオブジェクトを保存している
  - サーバーサイド暗号化（S3保存時にファイルを暗号化できるオプション）
  - オブジェクト有効期間設定(オブジェクト（ファイル）を自動削除できる）
  - Webサイトホスティング

IAM(Identity and Access Management)
- ユーザ認証のための基盤

RDS(Relational Database Service)
- Oracle11g,MySQL5.5を提供

EC2
- Amazon Linux AMI()
- 追加OS
  - SUSE Linux
  - WindowsServer2008R2
- VMインポート
- インスタンスステータスモニタリング
- 追加のリザーブドインスタンスオプション

- CC2インスタンスタイプ
- ハイパフォーマンスクラスターコンピューティング
  - 22スレッド
  - 88 ECU
  - 60.5 GB RAM
  - 3.37 TB のストレージ
  - 10 GBitレート

Amazon Cloud Front
- 20000以上のユーザ
- 26エッジロケーション（拡大中）
- IAMサポート
- WEBコンソールサポート
- ストリーミングサポート
- 20GBのオブジェクトサポート

AMS Management Console
AWSツールキット for Visual Studio
AWS SDK for Ruby

既存のDBサービス
- NoSQLDB(SimpleDB)
- RalationalDB(RDS)
- n-Memory Cache(Elastic Cache)
AmazonRDS
- ElasticCache
- クリックでスケール
- MultiAZ（Avaliablity Zone)(Master -Slave)
- リードレプリカ

ビッグデータのスケーラビリティへの挑戦
- スケールすると、パフォーマンスは落ちる
  - →これまではサーバをスケール、アップして解決していた

Amazon DynamoDB
- フルマネージドなNoSQLデータベースサービスであり、非常に高速で予測可能な
- パフォーマンス、シームレスなスケーラビリティ
  - ZeroAdministration
  - LowLatency SSD
  - Guaranteed Throughput
  - Unlimited Potencial Storage and Throughput
- 低遅延（Low Latency)
- SSDベースのストレージノード
  - Read < 5ms , Writes < 10ms
- シームレスな高いスケーラビリティ
  - テーブルサイズ、スループットの制限なし
- 予測可能なパフォーマンス
- 冗長性、可用性
- 管理不要

- プロビジョンド・スループット
  - 各テーブルごとに必要なIOPS(InputOutput per second)をテーブル作成時に設定、いつでもAPI経由で増加・減少設定可能
  - スループットとストレージ容量で課金
  - しきい値でメール警告通知可能

- 概念
  - Table=Collection of items
  - Item=information in a table; attribute collection
  - Attribute= Name/Type/Value
  - Types : String/Integer/String set/Number set
  - PrimaryKey: Hash / Hash + Range

- DynamoDB API
  - Table Management = CreateTable, UpdateTable,DeleteTable, DescribeTable
  - Basic Item Operation putItem,updateItem / getItem, BatchGetItem
  - Advanced Item Operation = Conditional PutItem / Conditional UpdateItem
  - Large-scale Retrieval = Scan/MapReduce

- R/W のレートを起動中に変更できる。

2012年のAWSは？
- より多くのロケーション
- 多くの機能追加
- 新サービス
- サポート向上
- たくさんのイベント

The Changing Economics of Data[The Challenge Economics of Data: アマゾン内の事例にみる、

ビックデータとクラウドの活用最前線] (ジョン：ラウザーJohn Rauser @jrauser)

アジェンダ
- Amazonスゴイっていうけど、Amazon社内でAWS使ってるのか調べてみた。

Case#1 Amazon association Program

月額の売上を集計し、アフィリエイタに支払いを行う。
Amazonの注文DBに接続し、２時間ごとにログファイルを書き出し、日時バッチで集計をおこなって、月次バッチで再集計し決済システムに支払額を渡していた。C++で実装。

- クリスマスシーズンにトラフィックが大変なことになり、集計が難しくなっていた。メモリ不足など

- 分散コンピューティングは難しく、マシンが１台から２台になるときに難易度は10^6乗倍となりあとはそれほど大きくならなない。

- そこでHadoop。
  - MapReduce パラダイムの実装

- メリット
  - 開発者同じ概念で考えられる
  - データをグループで分割できる。分割して処理できる
  - 神のような開発者は不要で、優秀な開発者で扱える

- 上記業務をHadoopで再実装した。

オーダーをフィルターしてS3へ保存。Hadoop クラスタ（５０ノード）で計算し、結果をS3へ保存。１００GBを３０分で計算している

- - Hadoopを使うことで、並列処理の難易度は１台のときとほとんど変わらなくなった
  - 上記でもリソースのアイドル率は７６％程度ある。

- - そこで、ElasticMapReduce(EMR)ですよ。
  - 処理が完了したら、リソースをリリースする。一日６時間以上使わない。
  - 開発のコストとリソースコストを低減できる

Case Study#2 ItemClassfication

商品ごとに「可燃物」「高価」「壊れ物」は分類が難しい（ゴルフシャツはスポーツグッズor衣類？）商品ごとのカテゴリ・ルール付け。高価なものはAmazon配送センターのハイセキュアレベルで扱う。
仕様を決め→SQLを発行してDWHに格納し→HRVListとして出力して確認→発送センターに指示

- 商品カテゴリを学習する必要性がある。
- DWHは高価で、ロースピード。
- カタログをS3に格納（10億アイテム以上）→EMRクラスタ（２ノード）３％ぐらいを扱える
- カタログをS3に格納（10億アイテム以上）→EMRクラスタ（５０ノード２ｈ）総入れ替え時

- 総入れ替えするには数日かかるため、新しいアルゴリズムをテストする場合そんなに待てない

Innovation is impossible to predict.(技術革新は予測不能）

- 分散システムの学習コストを下げることができる

- ところでビックデータってなに？
  - １台のサーバで扱えないデータをビックデータとしている。
  - 超巨大（Extremeluy BigData(Exa, PetaByte)）なものだけでない。
  - 以前は１台のマシンで処理できない場合、別のマシンでシステムを構築する必要があり難易度は飛躍的に高かった。
  - Hadoopをつかえば飛躍的な低減が可能。

＋#CaseStudy 3 Amazon Cloud Drive

- 2011年３月にローンチ
- S3+EMRで構築
- ログ処理を数時間ごとにEMRを使ってS3からマイニングし、結果をS3へ返す。EMRをリリース
- ３０００行のコード、２週間で開発
- Amazon社内ではEMRがでてきてからHadoopの利用が高まった。