早上看到hadoop的计算结果没有进入到mysql数据库,查看关于hadoop计划任务的输出日志发现有报错信息。果断拿来手动执行相关的python脚本,并没有错误,然后丢到计划任务里面就报错,折腾了我一上午终于搞好了。

报错信息

报错执行/data/datax/bin/tool_hive2mysql_build_json.py脚本的时候ImportError

[root@uhadoop-mrdv2j-task1 data]# tailf /var/log/bigdata/run-hive-qz_yy_uv_source_2mysql.sh.log
	at com.alibaba.datax.core.util.ConfigParser.parse(ConfigParser.java:26)
	at com.alibaba.datax.core.Engine.entry(Engine.java:137)
	at com.alibaba.datax.core.Engine.main(Engine.java:204)
Caused by: java.io.FileNotFoundException: File '/data/datax/job/hive-qz_yy_uv_source-2mysql.json' does not exist
	at org.apache.commons.io.FileUtils.openInputStream(FileUtils.java:299)
	at org.apache.commons.io.FileUtils.readFileToString(FileUtils.java:1711)
	at org.apache.commons.io.FileUtils.readFileToString(FileUtils.java:1748)
	at com.alibaba.datax.core.util.ConfigParser.getJobContent(ConfigParser.java:106)
	... 4 more

Traceback (most recent call last):
  File "/data/datax/bin/tool_hive2mysql_build_json.py", line 6, in 
    import argparse
ImportError: No module named argparse

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2016, Alibaba Group. All Rights Reserved.


2017-11-24 10:28:02.649 [main] ERROR Engine - 

解决

经过google、baidu得知,crontab执行出错(或者不执行计划任务)90%的错误都是环境变量引起的。此次问题的原因是crontab本身的环境变量中找不到python的argparse模块,所以就抛出ImportError。我的解决方法是在python脚本中添加相关模块的路径到$PYTHONPATH中。
1.查询模块的位置

>>> import argparse
>>> argparse.__file__  //查询argparse模块的位置
'/usr/local/lib/python2.7/argparse.pyc'

2.在脚本中将模块的路径append到PYTHONPATH中

#!/usr/local/bin/python2.7
#coding:utf-8
import json
import sys
sys.path.append("/usr/local/lib/python2.7") //append一定要在报错模块之前
import argparse
.....
   coding
.....

参考资料:http://blog.csdn.net/rj03hou/article/details/5709276

文章目录