Специалист по сбору PII-документов — автоматизация и исследование@ Handigital
О позиции
Мы ищем Специалиста по сбору PII-документов, который будет заниматься созданием корпуса реальных документов, содержащих общедоступные персонально идентифицируемые данные (PII) в различных областях. Ваша задача будет заключаться в сочетании умного desk-research с целенаправленным веб-скрейпингом для поиска, захвата и каталогизации этих данных для последующего анализа.
Чем вы будете заниматься
- Сбор материалов: реальные наборы данных, отчёты, документы или любые материалы, которые содержат PII (имена, адреса, номера социального страхования, номера медицинских записей, детали аккаунтов и т.д.).
- Фокус на областях: здравоохранение, финансы и образование.
- Географический акцент: публикации Северной Америки на данном этапе (государственные порталы, сайты открытых данных, публичные судебные документы, регуляторные раскрытия и т.д.); другие регионы могут быть добавлены позже.
- Методы: сочетание автоматизированного скрейпинга (Python, BeautifulSoup/Scrapy/Selenium или аналогичные) и классического desk-research для достижения источников, которые трудно автоматизировать.
- Выходные данные: организованная структура папок плюс таблица/JSON-каталог с указанием названия документа, URL источника, даты доступа, тег домена и краткой заметки о конкретных полях PII, присутствующих в документе.
Критерии приемки
- Минимум 250 уникальных документов, сбалансированных по трем областям, и все документы должны быть одностраничными с максимальным объёмом 300 слов.
- Каждая запись должна включать рабочие ссылки на источники и четкие доказательства хотя бы одного поля PII.
- Не допускается использование платного или незаконно полученного контента — всё должно быть свободно доступно в открытом интернете.
- Скрипты (если используются) передаются, хорошо прокомментированы и могут быть запущены в стандартной среде Python.
Если у вас есть опыт сбора открытых данных, навигации по государственным порталам и соблюдения норм, при этом находя труднодоступные файлы, мы хотели бы услышать, как вы собираетесь справиться с этой задачей и как быстро сможете предоставить первую партию.
Требования
- Сбор данных
- Извлечение данных
- Управление данными
- Добыча данных
- Проверка документов
- Python
- Исследования
- Веб-скрейпинг
Что мы предлагаем
- Гибкий график работы
- Возможность удалённой работы
- Интересные задачи и проекты
- Доступ к обучающим материалам
- Конкурентоспособная оплата
Вакансия предлагает интересные задачи в области сбора данных, но требует значительного опыта в веб-скрейпинге и соблюдении норм. Оплата конкурентоспособная, но не указана конкретная зарплата.
Формируем профиль успеха...
Анализируем требования вакансии и данные рынка
Обзор рынка
Навыки и требования
Тренды отрасли
Новости Data Privacy
Загружаем новости отрасли...
Ищем релевантные статьи за последние 6 месяцев