标签:serving 压测 wrk two plus ms half TF
serving服务
# 启动镜像
docker run -t --rm -p 8501:8501 \
-v "${PATH}/serving/tensorflow_serving/servables/tensorflow/testdata/saved_model_half_plus_two_cpu:/models/half_plus_two" \
-e MODEL_NAME=half_plus_two \
tensorflow/serving &
# 验证
curl -d '{"instances": [1.2, 2.0, 5.0]}' \
-X POST http://localhost:8501/v1/models/half_plus_two:predict
安装
mac:
brew install wrk
linux:
git clone https://github.com/wg/wrk.git
make
编辑test.lua
wrk.method = "POST"
wrk.headers["Content-Type"] = "application/json"
wrk.body = '{"instances": [1.2, 2.0, 5.0]}'
压测
wrk -t8 -c200 -d20s --script=test.lua --latency http://localhost:8501/v1/models/half_plus_two:predict
# 结果
Running 20s test @ http://localhost:8501/v1/models/half_plus_two:predict
8 threads and 200 connections
Thread Stats Avg Stdev Max +/- Stdev
Latency 49.89ms 31.43ms 322.27ms 94.01%
Req/Sec 550.19 145.19 790.00 70.58%
Latency Distribution
50% 41.94ms
75% 49.79ms
90% 64.09ms
99% 215.99ms
86347 requests in 20.09s, 15.48MB read
Non-2xx or 3xx responses: 86347
Requests/sec: 4297.20
Transfer/sec: 788.94KB
标签:serving,压测,wrk,two,plus,ms,half,TF 来源: https://blog.csdn.net/jklcl/article/details/118960215
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。