一、大數(shù)據(jù)采集工程師項目簡介
大數(shù)據(jù)采集工程師是由工業(yè)和信息化部教育與考試中心推出?一套專業(yè)化?,科學(xué)化?,系統(tǒng)化的人才考核標(biāo)準(zhǔn)?,涉及在互聯(lián)網(wǎng)、零售、金融、??電信、醫(yī)學(xué)、旅游、新聞媒體等行業(yè)專門從事數(shù)據(jù)采集、數(shù)據(jù)分析、機器學(xué)習(xí)、人工智能并能制作業(yè)務(wù)報告、提供決策的新型數(shù)據(jù)分析人才所需要的技能。
“大數(shù)據(jù)采集工程師?”是對在大數(shù)據(jù)采集、清洗、存儲、處理及系統(tǒng)架構(gòu)設(shè)計及大數(shù)據(jù)技術(shù)等前沿科技領(lǐng)域中,使用大數(shù)據(jù)采集技術(shù)作為主要工具和方法進行工作的專業(yè)人員的全面技能考核,分為初級,?中級?,高級三個等級。
二、能力標(biāo)準(zhǔn)
1、大數(shù)據(jù)采集工程師(初級)
需要掌握 Python 編程基礎(chǔ)、用于編寫數(shù)據(jù)采集腳本和進行數(shù)據(jù)處理,了解基本的數(shù)據(jù)結(jié)構(gòu)和算法,以優(yōu)化數(shù)據(jù)采集和處理過程,掌握SQL語言及MySQL等關(guān)系型數(shù)據(jù)庫,便于從數(shù)據(jù)庫中提取和整合數(shù)據(jù)、網(wǎng)絡(luò)爬蟲知識、離線數(shù)據(jù)采集和實時數(shù)據(jù)采集技術(shù),以從不同渠道捕獲數(shù)據(jù),熟悉Linux系統(tǒng)命令和shell編程,為搭建大數(shù)據(jù)集群環(huán)境做準(zhǔn)備解決基本的數(shù)據(jù)分析問題,能夠理解業(yè)務(wù)目標(biāo)?,并能將業(yè)務(wù)目標(biāo)初步轉(zhuǎn)化為大數(shù)據(jù)采集與應(yīng)用問題?,能結(jié)合具體技術(shù)進行初步目標(biāo)實現(xiàn)。適合政府、金融、電信、零售等行業(yè)前端業(yè)務(wù)及???從事市場、管理、財務(wù)、供應(yīng)、咨詢等職位的相關(guān)人員。
2、大數(shù)據(jù)采集工程師(中級)
一年以上大數(shù)據(jù)采集應(yīng)用工作經(jīng)驗 ,或已獲得大數(shù)據(jù)采集工程師(初級)證書。掌握 Python 編程基礎(chǔ)、用于編寫數(shù)據(jù)采集腳本和進行數(shù)據(jù)處理,了解基本的數(shù)據(jù)結(jié)構(gòu)和算法,以優(yōu)化數(shù)據(jù)采集和處理過程,掌握SQL語言及MySQL等關(guān)系型數(shù)據(jù)庫,便于從數(shù)據(jù)庫中提取和整合數(shù)據(jù)、網(wǎng)絡(luò)爬蟲知識、離線數(shù)據(jù)采集和實時數(shù)據(jù)采集技術(shù),以從不同渠道捕獲數(shù)據(jù),熟悉Linux系統(tǒng)命令和shell編程,搭建大數(shù)據(jù)集群環(huán)境做準(zhǔn)備解決基本的數(shù)據(jù)分析問題,能夠理解業(yè)務(wù)目標(biāo)?,并能將業(yè)務(wù)目標(biāo)初步轉(zhuǎn)化為大數(shù)據(jù)采集與應(yīng)用問題?,能結(jié)合具體技術(shù)進行初步目標(biāo)實現(xiàn)。適合政府、金融、電信、零售等行業(yè)前端業(yè)務(wù)及???從事市場、管理、財務(wù)、供應(yīng)、咨詢等職位的相關(guān)人員。
3、大數(shù)據(jù)采集工程師(高級)
三年以上大數(shù)據(jù)采集應(yīng)用崗位工作經(jīng)驗,或已獲得大數(shù)據(jù)采集工程師(中級)證書。掌握 Python 編程基礎(chǔ)、用于編寫數(shù)據(jù)采集腳本和進行數(shù)據(jù)處理,了解基本的數(shù)據(jù)結(jié)構(gòu)和算法,以優(yōu)化數(shù)據(jù)采集和處理過程,掌握SQL語言及MySQL等關(guān)系型數(shù)據(jù)庫,便于從數(shù)據(jù)庫中提取和整合數(shù)據(jù)、網(wǎng)絡(luò)爬蟲知識、離線數(shù)據(jù)采集和實時數(shù)據(jù)采集技術(shù),以從不同渠道捕獲數(shù)據(jù),熟悉Linux系統(tǒng)命令和shell編程,搭建大數(shù)據(jù)集群環(huán)境做準(zhǔn)備解決基本的數(shù)據(jù)分析問題,多行業(yè)多領(lǐng)域大數(shù)據(jù)技采集應(yīng)用、深度學(xué)習(xí)、人工智能應(yīng)用?,能充分理解業(yè)務(wù)目標(biāo)?,并將業(yè)務(wù)目標(biāo)精準(zhǔn)轉(zhuǎn)換、拆分為具體技術(shù)任務(wù);具有超強數(shù)據(jù)采集能力,不僅能自主完成各環(huán)節(jié)任務(wù)還能帶領(lǐng)數(shù)據(jù)采集團隊完成大型項目?,為企業(yè)生產(chǎn)賦能。適合政府、金融、電信、零售、互聯(lián)網(wǎng)、?電商、?醫(yī)學(xué)等行業(yè)數(shù)據(jù)分析應(yīng)用資深人員。
三、課程內(nèi)容
階段 | 課程 | 知識模塊 |
基礎(chǔ)知識 | 數(shù)據(jù)分析 | 數(shù)據(jù)分析概述 |
Numpy數(shù)組 | ||
Numpy矩陣與讀寫文件 | ||
數(shù)據(jù)挖掘 | 數(shù)據(jù)挖掘概述 | |
編程基礎(chǔ) | ||
常用庫使用 | ||
數(shù)據(jù)采集基礎(chǔ) | ?Python爬蟲環(huán)境與爬蟲簡介 | |
網(wǎng)頁前端基礎(chǔ) | ||
簡單靜態(tài)網(wǎng)頁爬取-生成HTTP請求 | ||
簡單靜態(tài)網(wǎng)頁爬取-解析網(wǎng)頁 | ||
簡單靜態(tài)網(wǎng)頁爬取-爬取并存儲數(shù)據(jù) | ||
大數(shù)據(jù)采集與存儲技術(shù) | 數(shù)據(jù)存儲技術(shù) | 數(shù)據(jù)倉庫 |
數(shù)據(jù)庫管理系統(tǒng)與數(shù)據(jù)存儲 | ||
查詢事務(wù)管理與系統(tǒng)結(jié)構(gòu) | ||
分布式文件系統(tǒng)概述 | ||
環(huán)境配置 | ||
Hadoop集群配置與啟動 | ||
Hadoop安全模式與HDFS操作 | ||
非關(guān)系型數(shù)據(jù)庫概述 | ||
MongoDB部署模式與數(shù)據(jù)分片 | ||
系統(tǒng)部署單節(jié)點MongoDB | ||
Linux系統(tǒng)部署MongoDB副本集與分片集群 | ||
數(shù)據(jù)庫管理工具 | ||
大數(shù)據(jù)采集技術(shù) | 網(wǎng)絡(luò)爬蟲框架 | |
簡介與快速入門 | ||
Agent組件類型 | ||
攔截器、Channel選擇器和Sink處理器 | ||
常見的采集配置 | ||
多Agent數(shù)據(jù)采集 | ||
廣告系統(tǒng)日志數(shù)據(jù)采集分析 | ||
廣告曝光日志數(shù)據(jù)采集分析 | ||
用戶行為日志數(shù)據(jù)采集分析 | ||
農(nóng)產(chǎn)品信息采集與分析 | ||
機器學(xué)習(xí)進階知識 | 分類與回歸 | 回歸分析 |
決策樹算法介紹 | ||
泰坦尼克號生還者預(yù)測 | ||
人工神經(jīng)網(wǎng)絡(luò)介紹 | ||
單樣本網(wǎng)絡(luò)訓(xùn)練 | ||
全樣本網(wǎng)絡(luò)訓(xùn)練 | ||
K近鄰算法 | ||
?樸素貝葉斯 | ||
支持向量機算法介紹 | ||
支持向量機代碼實現(xiàn) | ||
市財政收入分析及預(yù)測 | ||
聚類分析 | ?聚類分析概述與實現(xiàn) | |
密度與層次聚類 | ||
根據(jù)刷卡經(jīng)緯度信息分析乘客上車站點 | ||
推薦算法 | 基于用戶的協(xié)同過濾推薦 | |
基于物品的協(xié)同過濾推薦 | ||
基于流行度推薦 | ||
實操案例:新聞用戶智能推薦 | ||
時間序列 | 時間序列原理與實現(xiàn) | |
腦卒中發(fā)病環(huán)境因素分析及干預(yù) | ||
金融服務(wù)機構(gòu)資金流量預(yù)測 | ||
集成學(xué)習(xí)與強化學(xué)習(xí) | 集成學(xué)習(xí)概述與實現(xiàn) | |
強化學(xué)習(xí)概述與實現(xiàn) | ||
網(wǎng)絡(luò)入侵用戶自動識別 | ||
職業(yè)技術(shù)考核 | 大數(shù)據(jù)采集工程師(高級)職業(yè)技術(shù)考試 | ? |
四、報考條件
初級:無要求 ,皆可報考。
中級:(滿足其中一個條件即可)?
1.獲得初級證書。
2.年滿18周歲,具備高中以上學(xué)歷,工作年限滿1年
高級:(滿足其中一個條件即可)
1.獲得中級證書。
2.年滿20周歲以上,工作年限滿2年
3.年滿20周歲以上,具備大專及以上學(xué)歷
五、考試方式
考試方式分為線下考試站點或線上考試系統(tǒng)統(tǒng)考兩種方式,考試形式為上機答題,閉卷。
考試題型:
初級:120 分鐘,單選題+多選題+判斷題+操作題+簡答題,上機答題。
中級:120 分鐘,單選題+多選題+判斷題+操作題+簡答題,上機答題。
高級:120 分鐘,單選題+多選題+判斷題+操作題+簡答題,上機答題。
六、成績評分
考試最終成績滿分為100分,成績80-100分為優(yōu)秀;成績60-79分為合格;成績60分以下為不合格。
七、證書樣本
學(xué)員經(jīng)考核合格,由工業(yè)和信息化部教育與考試中心頒發(fā)大數(shù)據(jù)采集工程師職業(yè)技術(shù)證書 ,證書可登錄國家工信部教育與考試中心官網(wǎng)查詢。
證書樣本:
據(jù)技術(shù)應(yīng)用工程師.png)
八、官方指定報名渠道www.xmqqs.cn,詳情可咨詢:
必須備注:大數(shù)據(jù)采集工程師
