首页 > 编程语言> 文章详细

删除异常值(/ – 3 std)并用Python / pandas中的np.nan替换

2019-10-08 17:58:18 阅读：207 来源： 互联网

标签：outliers python grouping

我已经看到了几个解决我的问题的解决方案

link1
link2

但到目前为止他们还没有帮助我成功.

我相信以下解决方案是我需要的,但继续得到错误(我没有声誉点评论/问题)：link

(我得到以下错误,但我不明白.copy()的位置,或者在管理以下命令时添加“inplace = True”df2 = df.groupby(‘install_site’).transform(replace)：

SettingWithCopyWarning：
尝试在DataFrame的切片副本上设置值.
尝试使用.loc [row_indexer,col_indexer] = value

请参阅文档中的警告：link

所以,我试图提出自己的版本,但我一直陷入困境.开始.

我有一个按时间索引的数据框,其中包含站点列(许多不同站点的字符串值)和浮点值.

time_index            site       val

我想通过按站点分组的’val’列,并用NaN(每组)替换任何异常值(那些/ – 与平均值的3个标准偏差).

当我使用以下函数时,我无法用我的True / Falses向量索引数据框：

def replace_outliers_with_nan(df, stdvs):
    dfnew=pd.DataFrame()
    for i, col in enumerate(df.sites.unique()):
        dftmp = pd.DataFrame(df[df.sites==col])
        idx = [np.abs(dftmp-dftmp.mean())<=(stdvs*dftmp.std())] #boolean vector of T/F's
        dftmp[idx==False]=np.nan  #this is where the problem lies, I believe
        dfnew[col] = dftmp
    return dfnew

另外,我担心上面的函数需要花费很长时间才能生成700万行,这就是我希望使用groupby函数选项的原因.

解决方法:

如果我理解正确,则无需迭代列.该解决方案替换了与NaN偏离三个以上组标准偏差的所有值.

def replace(group, stds):
    group[np.abs(group - group.mean()) > stds * group.std()] = np.nan
    return group

# df is your DataFrame
df.loc[:, df.columns != group_column] = df.groupby(group_column).transform(lambda g: replace(g, 3))

标签：outliers,python,grouping
来源： https://codeday.me/bug/20191008/1873348.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

删除异常值(/ – 3 std)并用Python / pandas中的np.nan替换