用MapReduce操作mongodb与hdfs的读写例子 -

szjian

浏览: 72166 次
性别:
来自: 深圳

最近访客更多访客>>

leisureWong

iamjustlyl

run7428821

yinhong_sh

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

用MapReduce操作mongodb与hdfs的读写例子

博客分类：

HADOOP
JAVA

mapreduce mongodb HDFS

需要引入的类包:mongo-java-driver-2.11.2.jar、mongo-hadoop-core_1.0.4-1.1.0.jar

一、从MongoDB上读数据，进行MapReduce后，把结果在在HDFS上。
1、Job的配置启动类:
package com.test.similarity.dataimport;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.log4j.Logger;

import com.test.similarity.util.Constants;
import com.test.similarity.util.HdfsUtil;
import com.mongodb.hadoop.MongoInputFormat;
import com.mongodb.hadoop.util.MongoConfigUtil;

/**
 * 从mongondb中读取数据,导入到指定的hdfs路径上.
 * @author 907897
 */

public class ImportJob {
	private static final Logger logger = Logger.getLogger(ImportJob.class);
	public boolean run(String import_source,String import_data){
		try{
			Configuration conf = new Configuration();
			MongoConfigUtil.setInputURI(conf,import_source);
			conf.set("mapred.job.tracker", Constants.MAPRED_JOB_TRACKER);
			conf.set("fs.default.name", Constants.FS_DEFAULT_NAME);
			Job job = new Job(conf, "MongoDBJob job");
			
			// job 处理类配置
			job.setJarByClass(ImportJob.class);
			job.setMapperClass(ImportMapper.class);
			job.setReducerClass(ImportReducer.class);
			
			FileSystem fileSys = FileSystem.get(conf);
			
			// job 类型配置
			job.setOutputKeyClass(Text.class);
	                job.setOutputValueClass(Text.class);
			job.setInputFormatClass(MongoInputFormat.class);
			job.setOutputFormatClass(TextOutputFormat.class);
			
			// 判断输出路径relation_data是否已存在。如存在：则删除之。
			if (HdfsUtil.checkFileExist(fileSys, import_data)) {
				logger.info("输出路径:" + import_data + "已存在。程序已对其进行删除。");
				HdfsUtil.deleteFileOrPath(fileSys, import_data);
			}		
			
			// job 输入输出路径配置
			
			FileOutputFormat.setOutputPath(job, new Path(import_data));
			
			// job 运行
			boolean runOK = job.waitForCompletion(true) ? true : false;
			return runOK;
		}catch(Exception e){
			e.printStackTrace();
		}
		return false;
	}
}



2、对应的Mapper处理函数
package com.test.similarity.dataimport;

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.bson.BSONObject;

import com.test.similarity.asset.AssetUtil;
import com.test.similarity.asset.AssetVO;

public class ImportMapper  extends Mapper<Object, BSONObject, Text, Text> {
	public void map(Object key, BSONObject value, Context context) throws IOException, InterruptedException{
//		System.out.println("value:"+value);
		AssetVO assetVO = AssetUtil.trunBSONObjectToAssetVO(value);
		value = null;
        context.write(new Text(assetVO.getAssetId()), new Text(assetVO.toString()));
    }
}



3、对应的Reducer处理函数
package com.test.similarity.dataimport;

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class ImportReducer extends Reducer<Text, Text, Text, Text>{
	public void reduce(Text key, Iterable<Text> values,
			Context context) throws IOException, InterruptedException {
		
		Iterator<Text> iterator = values.iterator(); 
		while(iterator.hasNext()) { 
			context.write(iterator.next(),null);
		}
	}
}


二、从HDFS上读数据，通过MapReduce处理后，结果存放于MongoDB中。
1、Job的配置启动类:
package com.test.similarity.dataexport;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;

import com.test.similarity.util.Constants;
import com.mongodb.hadoop.MongoOutputFormat;
import com.mongodb.hadoop.util.MongoConfigUtil;

public class ExportJob {
//private static Log logger = LogFactory.getLog(ExportJob.class);
	
	public boolean run(String relation_data,String export_dest){
		try{
			Configuration conf = new Configuration();
			MongoConfigUtil.setOutputURI(conf,export_dest);
			
			conf.set("mapred.job.tracker", Constants.MAPRED_JOB_TRACKER);
			conf.set("fs.default.name", Constants.FS_DEFAULT_NAME);
			Job job = new Job(conf, "MongoDBJob job");
			
			// job 配置
			job.setJarByClass(ExportJob.class);
			job.setMapperClass(ExportMapper.class);
			job.setReducerClass(ExportReducer.class);
			
			job.setOutputKeyClass(Text.class); // 输出的key类型，在OutputFormat会检查
			job.setOutputValueClass(Text.class);// 输出的value类型，在OutputFormat会检查
	        
	        job.setInputFormatClass(KeyValueTextInputFormat.class);
	        job.setOutputFormatClass(MongoOutputFormat.class);
	        
	        FileInputFormat.setInputPaths(job, new Path(relation_data));
			
			// job 运行
			boolean runOK = job.waitForCompletion(true) ? true : false;
			return runOK;
		}catch(Exception e){
			e.printStackTrace();
		}
		return false;
	}
}

2、对应的Mapper处理函数
package com.test.similarity.dataexport;

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class ExportMapper  extends Mapper<Text, Text, Text, Text> {
//private static Log logger = LogFactory.getLog(ExportMapper.class);

    public void map(Text key, Text value, Context context ) throws IOException, InterruptedException{
        System.out.println("key:"+key.toString());
        System.out.println("value:"+value.toString());
    	context.write(key, value);
    }
}

3、对应的Reducer处理函数
package com.test.similarity.dataexport;

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import org.bson.types.ObjectId;

import com.test.similarity.util.Constants;
import com.test.similarity.util.DateUtil;
import com.test.similarity.util.StringUtil;
import com.mongodb.BasicDBObject;
import com.mongodb.hadoop.io.BSONWritable;

public class ExportReducer extends Reducer<Text, Text, Text, BSONWritable>{
	private static final String splitFlag = Constants.FIELD_SPLIT; // ;
	private static final String keyValueFlag = Constants.KEY_VALUE_SIGN; // =
	private static final String itemSplitFlag = Constants.ITEM_SPLIT_SIGN; // #@#
	
	public void reduce(Text key, Iterable<Text> values,
			Context context) throws IOException, InterruptedException {
		String text = key.toString();
		if (StringUtil.isNull(text)) {
			return;
		}
		
		BSONWritable bsonWritable = new BSONWritable();
		BasicDBObject document = new BasicDBObject();
		String[] result = text.toString().trim().split(itemSplitFlag);
		int pos = 0;
		String content = "";
		document.put("_id",new ObjectId());
		for (int i = 0; i < result.length; i++) {
			content = result[i];
			pos = content.indexOf(keyValueFlag);
			document.put(content.substring(0, pos), content.substring(pos + 1));
		}
//		document.put("createTime", DateUtil.getCurDate(1));
		bsonWritable.setDoc(document);
		// System.out.println("bsonWritable:"+bsonWritable);
		context.write(key, bsonWritable);
	}
}

分享到：

hadoop 集群管理-内存设置 | Hadoop 1.0 体系结构

2014-02-13 13:50
浏览 7105
评论(3)
分类:编程语言
查看更多

3 楼 aqi915 2015-12-08

aqi915 写道

可以发下代码么，你的其它类没有呢

929228748@qq.com

2 楼 aqi915 2015-12-08

可以发下代码么，你的其它类没有呢

1 楼 linux_yao 2014-03-26

你好，可以贡献一下你的这个程序么？我是初学Hadoop，正想了解一下这方面的资料。你的这个我复制eclipse里面缺少很多类。谢谢了(mywiki95@gmail.com)。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

用MapReduce操作mongodb与hdfs的读写例子

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

用MapReduce操作mongodb与hdfs的读写例子

评论

发表评论

相关推荐

Win7下用Eclipse向Hadoop2.5.2集群提交MapReduce程序的注意事项

HBase

hadoop 集群管理-内存设置

Yarn基本组成结构

MapReduce 1.0基本组成结构介绍

Task运行过程分析

MapReduce编程模型简解

目录结构

Struts2+Spring+MyBatis开发模式

JAVA读取系统参数设置的值

hadoop面试题

Hadoop集群的配置调优

hadoop重用Decommission状态的数据节点

hadoop的namenode和secondnamenode分开部署在不同服务器

java 实现相似度算法

Hive UDF开发

htmlparser获取循环节点内容和单个标签内容的方法

HBase入门

MyEclipse 8.0下SVN插件的使用

处理request的参数中含有#符号的方法

最近访客更多访客>>