A. 怎麼把 elasticsearch 裡面的數據導入到 hadoop 裡面
input {
file {
type => "log"
#stat_interval => "\t"
path
=> "啟磨滑/home/hadoop/xinwang_XW351464_2110.log"
}
}
filter {
if
[path] =~ "xinwang_XW351464_2110" {
mutate { replace => { "type" =>
"apache_access" } }
grok {
match => { "message" =>
"%{COMBINEDAPACHELOG}" }
}
}
date {
match => [ "timestamp" ,
"dd/MMM/yyyy:HH:mm:ss Z" ]
}
}
output {
elasticsearch
{
#cluster => "logstash_ela"
#node_name=> "es_master"
host =>
"192.168.1.152"
index => "eslsg"
index_type => "type"
protocol
=> "http"
port => 9200
workers => 1
}
}
執行 ./logstash agent -v -f txtTes.conf 的時候出現:
Grok loading patterns from file
{:path=>"/home/hadoop/logstash-1.4.2/patterns/postgresql",
:level=>:info}
Grok loading patterns from file
{:path=>"/home/hadoop/logstash-1.4.2/patterns/mongodb",
:level=>:info}
Grok loading patterns from file
{:path=>"/home/hadoop/logstash-1.4.2/patterns/mcollective",
:level=>:info}
Grok loading patterns from file
{:path=>"/home/hadoop/logstash-1.4.2/patterns/redis",
:level=>:info}
Grok loading patterns from file
{:path=>"/home/hadoop/logstash-1.4.2/patterns/java",
:level=>:info}
Grok loading patterns from file
{:path=>"/home/hadoop/logstash-1.4.2/patterns/ruby",
:level=>:info}
Grok loading patterns from file
{:path=>"/home/hadoop/logstash-1.4.2/patterns/junos",
:level=>:info}
Match data
{:match=>{"message"=>"%{COMBINEDAPACHELOG}"}, :level=>:info}
Grok
compile {:field=>"message", :patterns=>悄臘["%{COMBINEDAPACHELOG}"],
:level=>:info}
Pipeline started {:level=>:info}
New Elasticsearch
output {:cluster=>nil, :host=>"192.168.1.152", :port=>9200,
:embedded=>false, :protocol=>"http", :level=>:info}
Automatic
template management enabled {:manage_template=>"true",
:level=>:info}
Using mapping template {:template=>"{ \"template\" :
\"logstash-*\", \"settings\" : { \"index.refresh_interval\" : \"5s\" },
\"mappings\" : { \"_default_\" : { \"_all\" : {\"enabled\" : true},
\"dynamic_templates\" : [ { \"string_fields\" : { \"match\" : \"*\",
\"match_mapping_type\" : \"string\", \"mapping\" : { \"type\" : \"string\",
\"游稿index\" : \"analyzed\", \"omit_norms\" : true, \"fields\" : { \"raw\" :
{\"type\": \"string\", \"index\" : \"not_analyzed\", \"ignore_above\" : 256} } }
} } ], \"properties\" : { \"@version\": { \"type\": \"string\", \"index\":
\"not_analyzed\" }, \"geoip\" : { \"type\" : \"object\", \"dynamic\": true,
\"path\": \"full\", \"properties\" : { \"location\" : { \"type\" : \"geo_point\"
} } } } } }}", :level=>:info}
B. 如何向 hadoop 導入數據
1.2 使用Hadoop shell命令導入和導出數據到HDFS
實驗准備
實例需要用到的數據-weblog_entries.txt
在namenode創建2個文件夾用來存放實驗用的數據
mkdir /home/data 1
mkdir /home/data_download1
將weblog_entries.txt上傳到namenode里的/home/data文件夾(我使用SecureFXPortable.exe 工具)
註:以下命令都是在namenode節點運行的
實驗過程
1.在HDFS中創建一個新的文件夾,用於保存weblog_entries.txt
hadoop fs -mkdir /data/weblogs1
2.將weblog_entries.txt文件從本地文件系統復制到HDFS剛創建的新文件夾下
cd /home/data1
hadoop fs -FromLocal weblog_entries.txt /data/weblogs1
3.列出HDFS上weblog_entries.txt文件的信息:
hadoop fs –ls /data/weblogs/weblog_entries.txt 1
4.將HDFS上的weblog_entries.txt文件復制到本地系統的當前文件夾下
cd /home/data_download1
hadoop fs -ToLocal /data/weblogs/weblog_entries.txt ./weblog_entries.txt 1
最後用 ls 命令檢驗下時候將weblog_entries.txt 下載到本地
C. 怎樣把oracle中數據遷移到hadoop
大講台hadoop 在線學習為你解答:通過使用MapRece的方式,使Hadoop可以直宴判接訪問Oracle,並將相關的數據寫入到HDFS文件當中。 從而陵祥和可以順利地將Oracle中的數據遷移到Hadoop文件系統中尺盯。
D. 請教如何在hadoop獲取數據
我們的一些應用程序中,常常避免不了要與資料庫進行交互,而在我們的hadoop中,有時候也需要和資料庫進行交互,比如說,數據分析的結果存入資料庫,
或者是,讀取資料庫的信息寫入HDFS上,不過直接使用MapRece操作資料庫,這種情況在現實開發還是比較少,一般我們會採用Sqoop來進行數
據的遷入,遷出,使用Hive分析數據集,大多數情況下,直接使用Hadoop訪問關系型資料庫並中姿,可能培物產生比較大的數據訪問壓力,尤其是在資料庫還是單機
的情況下,情況可能更加糟糕,在集群的模式下壓力會相對少一些。
那麼,今天散仙就來看下,如何直接使用Hadoop1.2.0的MR來讀寫操作資料庫,hadoop的API提供了DBOutputFormat和
DBInputFormat這兩個類,來進行與資料庫交互,除此之外,我們還需要定義一個類似JAVA
Bean的實體類,來與資料庫的每行記錄進行對應,通常這個類要實現Writable和DBWritable介面,來重寫裡面的絕絕4個方法以對應獲取每行記
E. 怎樣通過web前端把數據傳至hadoop里
hadoop跑在伺服器上,屬於後台。
web前端屬於前台。
首先得把數據從前台傳到後台,然後再從後台傳入hadoop是這么個思路滑孫。
從前台傳入後台,就是標準的web傳值,表單也好信飢鏈ajax也好,然後後台用個struts的action啊或者servelt么得接收一下。
然後傳入hadoop就好辦了,寫入文件么的都可肢嫌以,後台就簡單了,不多說了。
F. hadoop把結果寫進txt文件中
向hadoop文件系統hdfs寫入數據
import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI;import org.apache.commons.compress.utils.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.util.Progressable;public class FileCopyWithProgress
{ public static void main(String[] args) throws IOException
{
String localsrc = args[0];
String dst = args[1];
InputStream in = new BufferedInputStream(new FileInputStream(localsrc));
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(dst),conf);
try (OutputStream out = fs.create(new Path(dst),new Progressable(){ public void progress()
{
System.out.print(".");//用於顯示文件復制進度
}
}))
{
IOUtils.(in, out);
}
}
}
G. 如何使用Hadoop讀寫資料庫
可以啊,可以上傳本地文本文件到HDFS,還有與資料庫hbase與hive連接的介面
H. 如何將Lucene索引寫入Hadoop2.x
將索引寫在Hadoop2.x的HDFS上,寫入2.x的Hadoop相對1.x的Hadoop來說要簡單的
說了,因為默認solr(4.4之後的版本)裡面自帶的HDFSDirectory就是支持2.x的而不支持1.x的,使用明笑2.x的Hadoop平台,可
以直接把solr的corejar包拷貝到工程裡面,即激友含可使用建索引,散仙,是在eclipse上使用eclipse插件來運行hadoop程序,具體要
用到的jar包,告悄除了需要用到hadoop2.2的所有jar包外,還需增加lucene和solr的部分jar包,截圖如下,散仙本次使用的是
Lucene4.8.1的版本:
具體的代碼如下:
package com.mapreceindex;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.util.Version;
import org.apache.solr.store.hdfs.HdfsDirectory;
import org.wltea.analyzer.lucene.IKAnalyzer;
/**
*
* 將索引存儲在Hadoop2.2的HDFS上
*
* @author qindongliang
* QQ技術交流群:
* 1號群: 324714439 如果滿員了請加2號群
* 2號群: 206247899
*
*
* **/
public class MyIndex {
public static void createFile()throws Exception{
Configuration conf=new Configuration();
FileSystem fs=FileSystem.get(conf);
Path p =new Path("hdfs://192.168.46.32:9000/root/abc.txt");
fs.createNewFile(p);
//fs.create(p);
fs.close();//釋放資源
System.out.println("創建文件成功.....");
}
public static void main(String[] args)throws Exception {
//createFile();
//long a=System.currentTimeMillis();
// add();
// long b=System.currentTimeMillis();
// System.out.println("耗時: "+(b-a)+"毫秒");
query("8");
//delete("3");//刪除指定ID的數據
}
/***
* 得到HDFS的writer
*
* **/
public static IndexWriter getIndexWriter() throws Exception{
Analyzer analyzer=new IKAnalyzer(true);
IndexWriterConfig config=new IndexWriterConfig(Version.LUCENE_48, analyzer);
Configuration conf=new Configuration();
conf.set("fs.defaultFS","hdfs://192.168.46.32:9000/");
//conf.set("maprece.framework.name", "yarn");
//conf.set("yarn.resourcemanager.address", "192.168.46.32:8032");
//Path p1 =new Path("hdfs://10.2.143.5:9090/root/myfile/my.txt");
//Path path=new Path("hdfs://10.2.143.5:9090/root/myfile");
Path path=new Path("hdfs://192.168.46.32:9000/qin/myindex");
//HdfsDirectory directory=new HdfsDirectory(path, conf);
HdfsDirectory directory=new HdfsDirectory(path, conf);
IndexWriter writer=new IndexWriter(directory, config);
return writer;
}
public static void add()throws Exception{
IndexWriter writer=getIndexWriter();
// Document doc=new Document();
// doc.add(new StringField("id", "3", Store.YES));
// doc.add(new StringField("name", "lucene是一款非常優秀的全文檢索框架", Store.YES));
// doc.add(new TextField("content", "我們的工資都不高", Store.YES));
// Document doc2=new Document();
// doc2.add(new StringField("id", "4", Store.YES));
// doc2.add(new StringField("name", "今天天氣不錯呀", Store.YES));
// doc2.add(new TextField("content", "錢存儲在銀行靠譜嗎", Store.YES));
//
// Document doc3=new Document();
// doc3.add(new StringField("id", "5", Store.YES));
// doc3.add(new StringField("name", "沒有根的野草,飄忽的命途!", Store.YES));
// doc3.add(new TextField("content", "你工資多少呀!", Store.YES));
// writer.addDocument(doc);
// writer.addDocument(doc2);
// writer.addDocument(doc3);
for(int i=6;i<10000;i++){
Document doc=new Document();
doc.add(new StringField("id", i+"", Store.YES));
doc.add(new StringField("name", "lucene是一款非常優秀的全文檢索框架"+i, Store.YES));
doc.add(new TextField("content", "今天發工資了嗎"+i, Store.YES));
writer.addDocument(doc);
if(i%1000==0){
writer.commit();
}
}
//writer.forceMerge(1);
writer.commit();
System.out.println("索引3條數據添加成功!");
writer.close();
}
/***
* 添加索引
*
* **/
public static void add(Document d)throws Exception{
IndexWriter writer=getIndexWriter();
writer.addDocument(d);
writer.forceMerge(1);
writer.commit();
System.out.println("索引10000條數據添加成功!");
writer.close();
}
/**
* 根據指定ID
* 刪除HDFS上的一些數據
*
*
* **/
public static void delete(String id)throws Exception{
IndexWriter writer=getIndexWriter();
writer.deleteDocuments(new Term("id", id));//刪除指定ID的數據
writer.forceMerge(1);//清除已經刪除的索引空間
writer.commit();//提交變化
System.out.println("id為"+id+"的數據已經刪除成功.........");
}
public static void query(String queryTerm)throws Exception{
System.out.println("本次檢索內容: "+queryTerm);
Configuration conf=new Configuration();
conf.set("fs.defaultFS","hdfs://192.168.46.32:9000/");
//Path p1 =new Path("hdfs://10.2.143.5:9090/root/myfile/my.txt");
// Path path=new Path("hdfs://192.168.75.130:9000/root/index");
Path path=new Path("hdfs://192.168.46.32:9000/qin/myindex");
Directory directory=new HdfsDirectory(path, conf);
IndexReader reader=DirectoryReader.open(directory);
System.out.println("總數據量: "+reader.numDocs());
long a=System.currentTimeMillis();
IndexSearcher searcher=new IndexSearcher(reader);
QueryParser parse=new QueryParser(Version.LUCENE_48, "content", new IKAnalyzer(true));
Query query=parse.parse(queryTerm);
TopDocs docs=searcher.search(query, 100);
System.out.println("本次命中結果: "+docs.totalHits+" 條" );
for(ScoreDoc sc:docs.scoreDocs){
System.out.println("評分: "+sc.score+" id : "+searcher.doc(sc.doc).get("id")+" name: "+searcher.doc(sc.doc).get("name")+" 欄位內容: "+searcher.doc(sc.doc).get("content"));
}
long b=System.currentTimeMillis();
System.out.println("第一次耗時:"+(b-a)+" 毫秒");
// System.out.println("============================================");
// long c=System.currentTimeMillis();
// query=parse.parse(queryTerm);
//
// docs=searcher.search(query, 100);
// System.out.println("本次命中結果: "+docs.totalHits+" 條" );
// for(ScoreDoc sc:docs.scoreDocs){
//
// System.out.println("評分: "+sc.score+" id : "+searcher.doc(sc.doc).get("id")+" name: "+searcher.doc(sc.doc).get("name")+" 欄位內容: "+searcher.doc(sc.doc).get("content"));
//
// }
// long d=System.currentTimeMillis();
// System.out.println("第二次耗時:"+(d-c)+" 毫秒");
reader.close();
directory.close();
System.out.println("檢索完畢...............");
}
}
使用IK的分詞器,建立索引完畢後,在HDFS上的索引如下截圖:
檢索數據時,第一次檢索往往比較慢,第一次之後因為有了Block Cache,所以第二次,檢索的速度非常快,當然這也跟你機器的配置有關系:
本次檢索內容: 8
WARN - NativeCodeLoader.<clinit>(62) | Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
總數據量: 9994
本次命中結果: 1 條
評分: 4.7582965 id : 8 name: lucene是一款非常優秀的全文檢索框架8 欄位內容: 今天發工資了嗎8
第一次耗時:261 毫秒
============================================
本次命中結果: 1 條
評分: 4.7582965 id : 8 name: lucene是一款非常優秀的全文檢索框架8 欄位內容: 今天發工資了嗎8
第二次耗時:6 毫秒
INFO - HdfsDirectory.close(97) | Closing hdfs directory hdfs://192.168.46.32:9000/qin/myindex
檢索完畢...............
I. 如何向 hadoop 導入數據
1.2 使用Hadoop shell命令導入和導出數據到HDFS
實驗准備
實例需要用到的數據-weblog_entries.txt
在namenode創建2個文件夾用來存放實驗用的數據
mkdir /home/data 1
mkdir /home/data_download1
將肆搭weblog_entries.txt上傳到namenode里的/home/data文件夾(我使用SecureFXPortable.exe 工具)
註:以下命令都是在namenode節點運行的
實驗過程
1.在HDFS中創建一個新的文件夾,用於保存weblog_entries.txt
hadoop fs -mkdir /data/weblogs1
2.將weblog_entries.txt文件從本地文件系統復制到HDFS剛創建的新文件夾下
cd /home/data1
hadoop fs -FromLocal weblog_entries.txt /data/weblogs1
3.列出HDFS上weblog_entries.txt文件的信息:
hadoop fs –ls /data/weblogs/weblog_entries.txt 1
4.將HDFS上的weblog_entries.txt文件復制到本地系統的當前文件夾下
cd /home/data_download1
hadoop fs -ToLocal /data/weblogs/weblog_entries.txt ./weblog_entries.txt 1
最後用 ls 命令檢驗下時候將weblog_entries.txt 下載到本地
Oracle 11g數據導入到10g
一、在11g伺服器上,使用expdp命令備份數據
11g 導出語句:EXPDP USERID='facial/facial@orcl as sysdba' schemas=facialdirectory=DATA_PUMP_DIR mpfile=test.dmp logfile=test.log version=10.2.0.1.0
二、在10g伺服器上,使用impdp命令恢復數據
准備工作:1.建庫2.建表空間3.建用戶並授權4.將test.dmp拷貝到10g的dpmp目錄下
--創建表空間
create tablespace TS_Facial datafile 'E:ORACLEPRODUCT10.2.0ORADATAORCLFacial.DBF' size 500M autoextend on next 50M;
--創建用戶
create user Facial identified by Facial default tablespace TS_Facial;
--授權給用戶
grant connect,resource,dba to Facial;
test.dmp 和 test.log 放在E:oracleproct10.2.0adminorcldpmp目錄下
10g 導入語句:IMPDP USERID='facial/facial@orcl as sysdba' schemas=facialdirectory=DATA_PUMP_DIR mpfile=test.dmp logfile=test.log version=10.2.0.1.0
下載mongoDB(mongoDB下載地址),筆者使用的是mongoDB 2.0.4的linux 64-bit版本。
解壓:tar xzf mongo.tgz
默認情況下,mongoDB將數據存儲在/data/db目錄下,但它不會自乎橡動創建該目錄,所以我們需要手動創建它:
$ sudo mkdir -p /data/db/
$ sudo chown `id -u` /data/db
也可以使用--dbpath參數來指定別的資料庫目錄。
如果只是想在單機上測試一下mongoDB的話,非常簡單,首先啟動MongoDB server,
$ ./mongodb-xxxxxxx/bin/mongod
在另外一個終端,連接到我們啟動的server:
$ ./mongodb-xxxxxxx/bin/mongo
> db.foo.save( { a : 1 } )
> db.foo.find()
在resources找到database節點連上去就可以,之後按照你的用戶名和密碼填好就可以,但是在之前要配置資料庫。
打開SQL Server Management Studio,在對象資源管理器中,展開「SQL Server 實例」→「資料庫」→「MySchool」節點,單擊滑鼠右鍵,選擇「任務」→「導出數據」命令。出現導入和導出向導的歡迎界面,單擊「下一步」按鈕,出現「選擇數據源」對話框,如圖
在「選擇數據源」對話框中設置如下選項:
數據源:SQL Native Client 10.0。
伺服器名稱:DC。
身份驗證:Windows身份驗證。
資料庫:MySchool。
單擊「下一步」按鈕,出現「選擇目標」對話框,設置如下選項(如圖所示):
目標:平面文件目標。
文件名:C:student.txt。
格式:帶分隔符。
單擊「下一步」按鈕,出現「指定表復制或查詢」對話框,如圖所示。
在「指定表復制或查詢」對話框中選中「復制一個或多個表或視圖的數據」單選按鈕,單擊「下一步」按鈕,出現「配置平面文件目標」對話框,如圖所示。
設置源表或源視圖為MySchool.dbo.student,單擊「下一步」按鈕。
在「保存並執行包」對話框中選中「立即執行」復選框,如圖所示,然後單擊「下一步」按鈕。
在如圖所示的對話框中單擊「完成」按鈕。
如圖所示,當執行完後,單擊「關閉」按鈕。
8
在Windows資源管理器中打開C:student.txt文件,驗證導出的結果。
工具/原料
sql2008
方法/步驟
登錄sql2008資料庫,其實其他版本的資料庫也是一樣的原理
使用windows賬戶登錄,登錄成功之後打開資源管理器窗口
在資料庫上單擊右鍵,選擇【新建資料庫】
在彈出的新建資料庫窗口中,輸入資料庫名字【test】然後點擊確定
資料庫【test】新建完成,在資料庫上單擊右鍵,選擇【任務】【導入數據】
彈出導入數據向導,選擇下一步
數據源選擇【Excel】,文件路徑選擇我們需要導入的文件
目標資料庫選擇我們剛才新建的【test】資料庫,其他保存默認不變,一直單擊【下一步】
勾選我們需要導入的Excel表,如圖所示,然後單擊下一步,完成
開始導入數據,如圖所示,成功導入,點擊【關閉】
這樣我們就導入了Excel中的數據
1、右擊新建連接 2、選擇Oracle 3、將要填的數據都填好了,下拉框選sid,點測試,通過就ok了 4、狂點下一步,最後完成。 註:無需安裝oracle客戶端。只有這個dbeaver就可以,只是需要個驅動包這個不用說。不會加驅動可以追問
首先把excel文件放在work文件夾里,假設文件名為a.xls。
然後在matlab命令窗口輸入a=xlsread('a.xls');
此時,a矩陣即為exel里對應的數據
使用Matlab中的Excel Link就可以了。
如果使用Excel 2003版本,操作如下:
1 打開Excel。
2 在菜單欄中選擇工具→載入項→瀏覽。
3 在Matlab的安裝目錄下打開toolboxexlink文件夾,選擇EXCLLINK.XLA,點擊確認。
4 自動回到載入項對話框後,確保對話框中有「Excel
Link」,選中後點擊確認按鈕即可,菜單欄中自動添加了Matlab載入項。
5 使用其中的putmatrix,既可以將數據導入到Matlab中。
如果使用Excel 2007版本,操作如下:
1 打開Excel。
2 點擊左上的office按鈕→Excel選項→轉到→載入項→瀏覽。
3 在Matlab的安裝目錄下打開toolboxexlink文件夾,選擇EXCLLINK.XLA,點擊確認。
4 自動回到載入項對話框後,確保對話框中有「ExcelLink」,選中後點擊確認按鈕即可,菜單欄中自動添加了Matlab載入項。
5 使用其中的putmatrix,既可以將數據導入到Matlab中。
J. csv數據導入Hadoop中的HDFS
作者 : lly
本文介紹通過使用Hadoop命令的方式將csv數據導入進入HDFS中
具體的環境准備及搭建流程可參考以下文章,本文不再做贅述
基礎環境准備:https://blog.csdn.net/supermapsupport/article/details/91443032
Hadoop集群搭建:https://blog.csdn.net/supermapsupport/article/details/91972499
未注冊到 iServer的 csv 數據進行分布式分析服務,則需確保在 csv 存放目錄下有與其對應的 .meta 文件,該.meta文件包含 csv 數據文件的元信息,所以我們將兩個數據一起拷入。以示範數據 newyork_taxi_2013-01_14k.csv 為例,.meta 文件內容為:
"FieldInfos": [
{
"name": "col0",
"type": "WTEXT"
} ,
{
"name": "col1",
"type": "WTEXT"
} ,
{
備蔽 "name": "col2",
"type": "WTEXT"
} ,
{
"name": "col3",
"type": "INT32"
} ,
{
"name": "col4",
"type": "WTEXT"
} ,
{
源滾鄭 "name": "col5",
"type": "WTEXT"
} ,
{
"name": "col6",
"type": "WTEXT"
} ,
{
"name": "col7",
"type": "INT32"
} ,
{
"name": "col8",
"type": "INT32"
} ,
{
"name": "col9",
"type": "DOUBLE"
} ,
{
"name": "X",
"type": "DOUBLE"
} ,
{
"name": "Y",
"type": "DOUBLE"
} ,
{
"name": "col12",
"type": "DOUBLE"
} ,
{
雹頌 "name": "col13",
"type": "DOUBLE"
}
] ,
"GeometryType": "POINT",
"HasHeader": false,
"StorageType": "XYColumn"
}
1.首先將數據放到opt目錄下
2.將示例數據導入到 hdfs 中,啟動 hadoop,在 hadoop-2.7.7/bin 中執行
. /hadoop fs -mkdir /input #創建/input 目錄
. /hdfs dfs -put /opt / newyork_taxi_2013-01_14k.csv /input/ #將 taxi 數據導入到/input 目錄中
. /hdfs dfs -put /opt / newyork_taxi_2013-01_14k.meta /input/
3.導入完成後,可以使用如下命令查看
. /hadoop fs -ls /input
4.輸出結果如下