博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark groupByKey 也是可以filter的
阅读量:6720 次
发布时间:2019-06-25

本文共 517 字,大约阅读时间需要 1 分钟。

>>> v=sc.parallelize(["one", "two", "two", "three", "three", "three"])>>> v2=v.map(lambda x: (x,1))>>> v2.collect()[('one', 1), ('two', 1), ('two', 1), ('three', 1), ('three', 1), ('three', 1)]  >>> v3=v2.groupByKey()>>> v3.collect()[('one', 
), ('two',
), ('three',
)]>>> v4=v3.filter(lambda x:len(x[1].data)>2)>>> v4.collect()[('three',
)]

过滤了出现次数大于2的结果

本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/7764934.html,如需转载请自行联系原作者

你可能感兴趣的文章
10天学通Android开发(8)-多媒体
查看>>
Zabbix监控屏幕全屏显示多个监控项
查看>>
windows 实验报告
查看>>
$POST 、$HTTP_RAW_POST_DATA、php://input三者之间的区别
查看>>
SQL SERVER 2008 自动备份图解教程
查看>>
Docker分离部署LNMP
查看>>
Tomcat version 7.0 only supports J2EE 1.2, 1.3, 1.4, and Java EE 5 and 6 Web mod
查看>>
oracle忘记system密码修改方法
查看>>
RHEL7.x解决SSH登录慢
查看>>
linux下如何删除大量小文件
查看>>
对于背板带宽和包转发率的解释
查看>>
Linux各类压宿包的解压方法
查看>>
MySQL操作-管理命令
查看>>
安装oracle数据库时的报错处理[INS-35172]
查看>>
MAC外接显示器死机问题
查看>>
SCCM2012功能测试(完整版)
查看>>
[职业生涯] 运维工程师的职责和前景
查看>>
微信登陆,支付防坑指南
查看>>
Centos7快速安装haproxy
查看>>
SQL Server 获取最后一天(指定时间的月最后一天日期)
查看>>