JAWS-UG Summit2012にいってきた (2012-03-02)第一日目

AmazonWebService UserGroup Japanのユーザサミットにいってきました。
公式http://jaws-ug.jp/news/jaws-ug-summit-2012

AWSの東京リージョンが開設されたのが、昨年3月10日で約一年。25ある全国ユーザグループのサミット。
直前にAmazonSimpleWorkflowやAmazonDynamoDBがサービスイン、新しいエヴァンジェリストエバ2号機)が発表されるなど、サービスやデザインパターンの解説あり、中の人やUG幹部の講演あり、ワークショップありでAWSの一色の2日間でした。

備忘録的に走り書きメモをアップしておきます。書き落としている箇所多数

The Role of the AWS Ecosystem[Welcome to AWS Eco-System: AWSデベロッパーエコシステム](アリエルケイマン氏)

Ecosystem Service←→Could Virtualization←→ApplicationService

Amazon DynamoDB(3/1 日本リージョンでリリース)

  1. Geographic Expansion
    • 8 Regions
    • 26 Edge locations
    • Now 82Services (at 2011)
  1. Amazon S3 Usage
    • Q4 2011 763Billion
    • peak Request 500000/per second
  1. Price Reductions
  2. Scale & Innovation
  1. AWS Adoption
  1. IaaS Market Share Leader
  1. New Evangelistの発表
    • 堀内氏(元Gumi CTO)
  1. What's New
    • Cloud Dating(2012/3/22 18:30〜)
    • Lean Cloud Event Eric Ries (Lean StartUp)2012/4/6 開催予定
    • AWS Startup Challenge -Japan Stage-2012/4 スタート2012/9 最終選考
    • AWS Summit in Tokyo 2012/9 開催予定
    • AWS Sumurai award 2012/12 開催予定

AWS上でアプリケーションを構築しよう[Build your own apps on AWS: AWSクラウドデベロッパーになろう](ジェフバー @jeffbarr)

  1. agenda
    • AWS2011 のレビュー
    • 新サービスの紹介
  1. AWSレビュー
    • 好循環スパイラル
    • →より多くの顧客利用→資本の投下→テクノロジーへの投資→効率のカイゼン→値下げ→
  1. AWSロケーション
    • 東京リージョン 2011/3
    • GovCloud 2011/8
      • ITARコンプライアント、米国政府、州、関連業者向け
      • 他国の政府向けにも計画中
    • 米国西(Oregon) 2011/11
    • 南米(San Paulo) 2011/12
  1. AWSサービス
    1. AWS EBS
    2. AWS ElasticCache(キャッシングアズアサービス)
    3. AWS Direct Connect(専用線サービス)
    4. AWS CloudFormation
    5. Amazon SNS
    6. AWS Storage Gateway(オンプレミスのストレージアプライアンス
    7. Amazon DynamoDB
    8. Amazon Simple Workflow
  1. EBS(Elastic Beanstalk)とは
    • 開発者がより簡単にアプリケーションをAWSクラウド上にデプロイし、管理できる
    • 数分で、AWS上にアプリケーションをアプし起動できる
    • 対象はApacheTomcat 上のWebのJavaデベロッパ
    • これから複数スタック、言語をサポートできるようにする。
  2. EBSのメリット
    • EC2インスタンスへのルートアクセス
    • コンフィグレーションの設定を一箇所で管理
    • あらゆるデータベースを使える
    • AmazonRDS, AmazonSimpleDB,, Microsoft SQLServer or Oracle
    • カスタムAMIを使える
    • EC2で他のサービスも稼働できる
  1. AWS ElasticCache
    • キャッシングアズアサービス (Caching as a Service)
    • memcachedをホスト
    • スケーラブルで従量課金
    • WEBコンソールから管理
  1. AWSDirect Connect
    • 専用線接続
    • 1Gbps,10Gbpsの接続を選択できる
    • プライベートネットワークのサブネットとして機能する
  1. AWSCloudFormation
    • 再利用可能なテンプレートからアプリケーションスタックを作成
    • 宣言形式でテンプレート作成
    • 依存関係を考慮した順番でリソース作成
    • Webコンソールのサポート
    • 定義済みのテンプレートを用意(AWSの各サービスを組み合わせて利用するテンプレート)
    • WordPressのサンプルテンプレート
    • パラメタ、マッピング、リソース、アウトプット
  1. AmazonSNS
  1. Amazon Simple Workflow
    • 分散アプリケーションのパーツをコーディネートできるワークフローサービス
    • システムセットアップ
    • ビジネスプロセス
    • クラウドもオンプレミス
  1. AWS機能
    • VirtualPrivateCloud
    • S3
      • 現在:7620億のオブジェクトを保存している
      • サーバーサイド暗号化(S3保存時にファイルを暗号化できるオプション)
      • オブジェクト有効期間設定(オブジェクト(ファイル)を自動削除できる)
      • Webサイトホスティング
  1. IAM(Identity and Access Management)
    • ユーザ認証のための基盤
  1. RDS(Relational Database Service)
    • Oracle11g,MySQL5.5を提供
  1. EC2
    • CC2インスタンスタイプ
    • ハイパフォーマンスクラスターコンピューティング
      • 22スレッド
      • 88 ECU
      • 60.5 GB RAM
      • 3.37 TB のストレージ
      • 10 GBitレート
  1. Amazon Cloud Front
    • 20000以上のユーザ
    • 26エッジロケーション(拡大中)
    • IAMサポート
    • WEBコンソールサポート
    • ストリーミングサポート
    • 20GBのオブジェクトサポート
  1. AMS Management Console
  2. AWSツールキット for Visual Studio
  3. AWS SDK for Ruby
  1. 既存のDBサービス
    • NoSQLDB(SimpleDB)
    • RalationalDB(RDS)
    • n-Memory Cache(Elastic Cache)
  2. AmazonRDS
    • ElasticCache
    • クリックでスケール
    • MultiAZ(Avaliablity Zone)(Master -Slave)
    • リードレプリカ
  1. ビッグデータのスケーラビリティへの挑戦
    • スケールすると、パフォーマンスは落ちる
      • →これまではサーバをスケール、アップして解決していた
  1. Amazon DynamoDB
    • フルマネージドなNoSQLデータベースサービスであり、非常に高速で予測可能な
    • パフォーマンス、シームレスなスケーラビリティ
      • ZeroAdministration
      • LowLatency SSD
      • Guaranteed Throughput
      • Unlimited Potencial Storage and Throughput
    • 低遅延(Low Latency)
    • SSDベースのストレージノード
      • Read < 5ms , Writes < 10ms
    • シームレスな高いスケーラビリティ
    • 予測可能なパフォーマンス
    • 冗長性、可用性
    • 管理不要
    • プロビジョンド・スループット
      • 各テーブルごとに必要なIOPS(InputOutput per second)をテーブル作成時に設定、いつでもAPI経由で増加・減少設定可能
      • スループットとストレージ容量で課金
      • しきい値でメール警告通知可能
    • 概念
      • Table=Collection of items
      • Item=information in a table; attribute collection
      • Attribute= Name/Type/Value
      • Types : String/Integer/String set/Number set
      • PrimaryKey: Hash / Hash + Range
    • DynamoDB API
      • Table Management = CreateTable, UpdateTable,DeleteTable, DescribeTable
      • Basic Item Operation putItem,updateItem / getItem, BatchGetItem
      • Advanced Item Operation = Conditional PutItem / Conditional UpdateItem
      • Large-scale Retrieval = Scan/MapReduce
    • R/W のレートを起動中に変更できる。
  1. 2012年のAWSは?
    • より多くのロケーション
    • 多くの機能追加
    • 新サービス
    • サポート向上
    • たくさんのイベント

The Changing Economics of Data[The Challenge Economics of Data: アマゾン内の事例にみる、

ビックデータ とクラウドの活用最前線] (ジョン:ラウザーJohn Rauser @jrauser)

  1. アジェンダ
    • Amazonスゴイっていうけど、Amazon社内でAWS使ってるのか調べてみた。
  1. Case#1 Amazon association Program

月額の売上を集計し、アフィリエイタに支払いを行う。
Amazonの注文DBに接続し、2時間ごとにログファイルを書き出し、日時バッチで集計をおこなって、月次バッチで再集計し決済システムに支払額を渡していた。C++で実装。

    • クリスマスシーズンにトラフィックが大変なことになり、集計が難しくなっていた。メモリ不足など
    • 分散コンピューティングは難しく、マシンが1台から2台になるときに難易度は10^6乗倍となりあとはそれほど大きくならなない。
    • メリット
      • 開発者同じ概念で考えられる
      • データをグループで分割できる。分割して処理できる
      • 神のような開発者は不要で、優秀な開発者で扱える
    • 上記業務をHadoopで再実装した。

オーダーをフィルターしてS3へ保存。Hadoopクラスタ(50ノード)で計算し、結果をS3へ保存。100GBを30分で計算している

      • Hadoopを使うことで、並列処理の難易度は1台のときとほとんど変わらなくなった
      • 上記でもリソースのアイドル率は76%程度ある。
      • そこで、ElasticMapReduce(EMR)ですよ。
      • 処理が完了したら、リソースをリリースする。一日6時間以上使わない。
      • 開発のコストとリソースコストを低減できる
  1. Case Study#2 ItemClassfication

商品ごとに「可燃物」「高価」「壊れ物」は分類が難しい(ゴルフシャツはスポーツグッズor衣類?)商品ごとのカテゴリ・ルール付け。高価なものはAmazon配送センターのハイセキュアレベルで扱う。
仕様を決め→SQLを発行してDWHに格納し→HRVListとして出力して確認→発送センターに指示

    • 商品カテゴリを学習する必要性がある。
    • DWHは高価で、ロースピード。
    • カタログをS3に格納(10億アイテム以上)→EMRクラスタ(2ノード)3%ぐらいを扱える
    • カタログをS3に格納(10億アイテム以上)→EMRクラスタ(50ノード2h)総入れ替え時
    • 総入れ替えするには数日かかるため、新しいアルゴリズムをテストする場合そんなに待てない

Innovation is impossible to predict.(技術革新は予測不能

    • 分散システムの学習コストを下げることができる
    • ところでビックデータってなに?
      • 1台のサーバで扱えないデータをビックデータとしている。
      • 超巨大(Extremeluy BigData(Exa, PetaByte))なものだけでない。
      • 以前は1台のマシンで処理できない場合、別のマシンでシステムを構築する必要があり難易度は飛躍的に高かった。
      • Hadoopをつかえば飛躍的な低減が可能。

+#CaseStudy 3 Amazon Cloud Drive

    • 2011年3月にローンチ
    • S3+EMRで構築
    • ログ処理を数時間ごとにEMRを使ってS3からマイニングし、結果をS3へ返す。EMRをリリース
    • 3000行のコード、2週間で開発
    • Amazon社内ではEMRがでてきてからHadoopの利用が高まった。