lnwshop logo
  • ตอบกระทู้
  • ตั้งกระทู้ใหม่
QUOTE 

วิธีขูดสนามบินเสียงร้องของหน่วยข้อมูลบีบีซีอังกฤษ | บล็อกวารสารศาสตร์ออนไลน์

nappyending20
nappyending20 (Guest)
IP: 115.87.121.x
3 สัปดาห์ที่ผ่านมา
heathrow-noise-story

นี่

Daniel Wainwright พยายามอธิบายถึงการขูดเว็บพื้นฐานในงาน Data Journalism Conference ในปีนี้ แต่ปัญหาทางเทคนิคได้รับ ในทางนี้เป็นสิ่งที่ควรเกิดขึ้น: ข่าวนี้ใช้ขูดเพื่อรวบรวมข้อมูลเกี่ยวกับการร้องเรียนเกี่ยวกับเสียง ฉันสงสัยว่าทำไมถึงไม่มีใครคุยเรื่อง scraping ในที่ประชุมได้แสดงให้เห็นถึงขั้นตอนจริงๆ ดูเหมือนว่าฉันจะเป็นหนึ่งในทักษะที่ใฝ่หาที่สุดสำหรับนักข่าวสืบสวนใด ๆจากนั้นฉันก็พยายามที่จะทำเช่นนั้นตัวเองในเซสชั่นอย่างกะทันหันในการประชุมวารสารศาสตร์ข้อมูลครั้งแรกที่เบอร์มิงแฮม (# DJUK16) และพบว่าทำไมมันถึงไม่ง่ายอย่างที่ควรจะเป็น สำหรับทุกคนที่เป็นข้อมูลใหม่ในการสื่อสารมวลชนข้อมูลมีดโกนใกล้เคียงกับเวทมนตร์ที่คุณใช้กับสเปรดชีตและไม่มีไม้กายสิทธิ์ ตัวเลขและข้อความในหน้าหลังหน้าหลังหน้าหลังจากหน้าเพียงอย่างง่ายดายเริ่มปรากฏอย่างเรียบร้อยในสเปรดชีตที่คุณสามารถเรียงลำดับกรองและสอบปากคำ คุณสามารถปล่อยให้มีดโกนทำงานขณะที่คุณติดต่อหรือเพียงแค่ทำชา ขูดคำร้องเรียนเกี่ยวกับ Heathrow ฉันใช้เครื่องขูดที่เป็นพื้นฐานอย่างเป็นธรรมเพื่อรวบรวมข้อมูลการร้องเรียนเกี่ยวกับเสียงรบกวนในสนามบิน Heathrow Airport เป็นเวลา 3 ปี กับรันเวย์ที่สามมากในวาระข่าวในสัปดาห์ที่ฉันต้องการได้อย่างรวดเร็วได้รับความคิดของเท่าใดของปัญหาเสียงอยู่แล้วผลที่ได้คือเรื่องนี้ซึ่งได้รับการยอมรับอย่างกว้างขวางโดยร้านอื่น ๆ แต่ฉันทำมันได้อย่างไร?ข้อมูลการร้องเรียนสำหรับแต่ละวันในแต่ละปีถูกเผยแพร่บน URL ที่แยกต่างหาก ในการสร้างสเปรดชีตจะต้องใช้เวลาหลายชั่วโมงหรือแม้แต่วัน ใช้ Googlesheets ฉันสร้างสูตรมาตรฐานเพื่อนำเข้าข้อมูลจากตาราง HTML ในแต่ละหน้าของไซต์ข้อมูลการดำเนินงาน (นี่เป็นสิ่งที่ทำได้ดีที่สุดในสเปรดชีตใหม่ - ที่ Data Journalism UK ฉันพยายามจะทำเช่นนี้โดยการแก้ไขสเปรดชีตที่มีอยู่ซึ่งสร้างแผ่นงานเต็มข้อผิดพลาด #REF! ) image002 หมายเหตุว่าตัวเลขสองตัวแรกตรงกับจำนวนผู้ติดต่อทางโทรศัพท์อีเมลและจดหมายและจำนวนรายชื่อเว็บทั้งหมด: Complaints คอลัมน์ E มีผลรวมพื้นฐานเพื่อเพิ่มเซลล์ในคอลัมน์ C และ D ร่วมกัน c2 plus d2 สูตรที่คว้าข้อมูล ตอนนี้เรามาแบ่งสูตรกันเถอะ เริ่มต้นจากตรงกลาง ImportHTML กำลังบอกให้แผ่นงานลากสิ่งที่อยู่ภายใน HTML ของที่อยู่เว็บในเซลล์ A2 "table" กำลังบอกแผ่นงานเพื่อค้นหาตาราง ตัวเลขต่อไปนี้หมายถึง: 1 & nbsp; = ตารางแรกที่พบ 33 รับทำ SEO = แถว 33 ของตารางนั้น 2 = คอลัมน์ที่ 2 ของตารางนั้น substitute หมายถึงบิตที่อยู่ปลาย บอกกล่าวหากพบเครื่องหมายดอกจันเพื่อแทนที่ว่าด้วยเนื้อหาของ " ในกรณีนี้อย่าวางอะไรไว้ในตำแหน่ง เมื่อมันเกิดขึ้นก็ไม่มีเครื่องหมายดอกจันเพื่อแทนที่จึงเป็นบิตซ้ำซ้อน แต่สามารถใช้แทนที่ช่องว่างด้วย % 20 ซึ่งเบราว์เซอร์จะต้องทำงานอย่างถูกต้อง คุณรู้ได้อย่างไรว่าเป็นแถวไหน
เพื่อหาสิ่งนี้เราต้องดูจากเว็บไซต์ของตัวเอง คลิกขวาที่เมาส์และเลือก "ดูหน้าเว็บ" สิ่งนี้จะทำให้สิ่งที่ดูเหมือนว่า: Code อย่าตกใจ ใช้ Ctrl และ F และค้นหา "complaint" ซึ่งเป็นบิตที่เราต้องการ More code คุณจะเห็นข้อความว่า "row-33" ด้วยจำนวนจริงที่เราต้องการเพียงเล็กน้อยหลังจากพูดว่า "column-2" เช่นเดียวกันสำหรับข้อมูลอื่น ๆ ที่เราต้องการที่แถว 34 เราจะเปลี่ยนตัวเลขเมื่อเราคัดลอกสูตรลงในเซลล์ที่อยู่ติดกัน (คอลัมน์ D) ของสเปรดชีต indexformua คัดลอกวันที่ทั้งหมด คุณสามารถใช้จ่ายได้ตราบเท่าที่คุณจะใช้คู่มือสเปรดชีต หากคุณต้องการคัดลอก URL สำหรับทุกๆวันลงในคอลัมน์ A วันที่ทุกคนมีพื้นฐานการเริ่มต้น URL เช่น http://heathrowoperationaldata.com/ เราสามารถคัดลอกวันที่จากรายการแบบเลื่อนลงทางด้านขวามือ เราทำและใส่ลงในเซลล์ B. dates แล้วกลับมาในเซลล์ A เราเริ่มต้นด้วย = และวางจุดเริ่มต้นของ URL จากนั้นเราจะใช้ & amp; และใส่หมายเลขของเซลล์ถัดไป B2 ในกรณีนี้ สิ่งที่บอกให้ทำคือ ผนวก วันที่ลงบนส่วนที่เหลือของ URL ซึ่งจะสร้างลิงก์ที่สามารถคลิกได้ 8 * "> แต่คุณสังเกตเห็นช่องว่างระหว่างแต่ละวันเดือนและปี เราต้องการให้มีขีดกลาง (-) แทนมิฉะนั้น URL จะไม่ทำงาน dashes จากนั้นคุณสามารถคัดลอกสูตรในคอลัมน์ A เพื่อสร้าง URL สำหรับแต่ละวัน เมื่อเสร็จแล้วเครื่องถูของเราควรมีชีวิตชีวาและเริ่มบรรจุแผ่น "ควร" เป็นคำผ่าตัด บันทึกการปฏิบัติที่ดี โปรดจำไว้ว่าไม่มีการทดแทนการตรวจสอบข้อเท็จจริงของคุณอย่างละเอียด มีดโกนช่วยให้คุณดึงข้อมูลที่จัดเก็บไว้ทั้งหมดในรูปแบบเดียวกัน แต่ทั้งนี้ขึ้นอยู่กับคุณเพื่อให้แน่ใจว่าสิ่งที่คุณอาศัยอยู่มีความถูกต้อง และนี่เป็นแค่ข้อมูลที่เหมาะสมในการเขียนและเผยแพร่ข่าวเช่นเดียวกับในการสาธิตอย่างกะทันหันเกี่ยวกับสิ่งที่คุณทำได้สำเร็จด้วยตัวคุณเองเพียงครั้งเดียว แบ่งปันสิ่งนี้:
  • Twitter
  • Reddit
  • หมวดหมู่สินค้า....

    RANDOM PRODUCTS

    MEMBER

    เข้าสู่ระบบด้วย
    เข้าสู่ระบบ
    สมัครสมาชิก

    ยังไม่มีบัญชีเทพ สร้างบัญชีใหม่ ไม่เกิน 5 นาที
    สมัครสมาชิก (ฟรี)

    CONTACT US

    080-141-6889

     

    Statistics

    หน้าที่เข้าชม323,625 ครั้ง
    ผู้ชมทั้งหมด116,263 ครั้ง
    ร้านค้าอัพเดท12 ส.ค. 2560
    Go to Top