File Upload -- загрузка и обработка файлов
Описание
Заголовок раздела «Описание»Процессор File Upload позволяет загрузить файл (CSV, Excel XLSX) и автоматически преобразовать его строки в отдельные DataPackets для дальнейшей обработки в воронке. Это основной способ загрузки собственных данных в систему: списков компаний, ИНН, контактов или любых других табличных данных.
Процессор всегда является первым в цепочке. Он поддерживает настройку маппинга колонок, типизацию полей, пропуск пустых строк, обработку дубликатов и батчевую загрузку для больших файлов.
Сценарии использования
Заголовок раздела «Сценарии использования»- Загрузка списка ИНН компаний для последующего обогащения через Registry Search или INN Search
- Импорт базы контактов из CRM для поиска дополнительных данных
- Загрузка списка URL сайтов для парсинга через Site Crawl
- Импорт прайс-листа поставщика для анализа
- Загрузка выгрузки из внешней системы для обработки и передачи в CRM
- Импорт списка ключевых слов для массового поиска
Конфигурация
Заголовок раздела «Конфигурация»| Параметр | Тип | Обязательный | По умолчанию | Описание |
|---|---|---|---|---|
| fileName | string | Да | — | Имя загруженного файла (заполняется автоматически при загрузке) |
| columns | array | Да | — | Массив настроек колонок (настраивается в визуальном интерфейсе после загрузки файла) |
| columns[].originalName | string | Да | — | Исходное название колонки в файле (например, “Full Name”) |
| columns[].fieldName | string | Да | — | Название поля в выходном DataPacket (например, “full_name”) |
| columns[].dataType | "string" / "number" / "boolean" / "date" | Да | — | Тип данных колонки |
| columns[].format | "uri" / "html" / "email" | Нет | — | Дополнительный формат для строковых полей |
| columns[].enabled | boolean | Да | true | Включить колонку в обработку |
| columns[].columnIndex | number | Да | — | Индекс колонки в файле (0-based) |
| skipEmptyRows | boolean | Нет | true | Пропускать пустые строки |
| headerRow | number | Нет | 1 | Номер строки с заголовками (1-based) |
| dataStartRow | number | Нет | 2 | Номер строки, с которой начинаются данные (1-based) |
| duplicateHandling | "skip" / "upload" | Нет | "skip" | Обработка дубликатов: skip — пропускать, upload — загружать все строки |
Входные данные
Заголовок раздела «Входные данные»File Upload не принимает данных от других процессоров — он всегда является первым процессором в цепочке.
Данные поступают из загруженных файлов. Поддерживаемые форматы:
- XLSX (Microsoft Excel) — основной формат, обрабатывается библиотекой xlsx
- CSV — текстовые таблицы с разделителями
Файлы загружаются через интерфейс и хранятся в Object Storage. При запуске процессор находит все необработанные файлы и последовательно обрабатывает их.
Выходные данные
Заголовок раздела «Выходные данные»Каждая строка файла создает отдельный DataPacket. Структура пакета определяется настроенным маппингом колонок.
Пример для файла со списком компаний:
{ "company_name": "ООО Рога и Копыта", "inn": "7707083893", "website": "https://example.com", "contact_email": "info@example.com"}Пример для файла со списком ИНН:
{ "inn": "7707083893", "comment": "Целевая компания"}Метаданные обработки
Заголовок раздела «Метаданные обработки»После обработки каждого файла доступна статистика:
{ "filesProcessed": 1, "totalRowsProcessed": 150, "totalRowsSkipped": 3, "totalDataPacketsCreated": 147, "processingTimeMs": 2500}Стоимость
Заголовок раздела «Стоимость»Процессор File Upload является бесплатным — загрузка и обработка файлов не расходуют токены платформы.
Примеры
Заголовок раздела «Примеры»Загрузка списка ИНН для обогащения
Заголовок раздела «Загрузка списка ИНН для обогащения»- Загрузите Excel-файл с колонкой “ИНН”
- Настройте маппинг колонок:
{ "columns": [ { "originalName": "ИНН", "fieldName": "inn", "dataType": "string", "enabled": true, "columnIndex": 0 }, { "originalName": "Комментарий", "fieldName": "comment", "dataType": "string", "enabled": true, "columnIndex": 1 } ], "skipEmptyRows": true, "headerRow": 1, "dataStartRow": 2, "duplicateHandling": "skip"}Загрузка базы компаний с URL
Заголовок раздела «Загрузка базы компаний с URL»{ "columns": [ { "originalName": "Название", "fieldName": "company_name", "dataType": "string", "enabled": true, "columnIndex": 0 }, { "originalName": "Сайт", "fieldName": "website", "dataType": "string", "format": "uri", "enabled": true, "columnIndex": 1 }, { "originalName": "ИНН", "fieldName": "inn", "dataType": "string", "enabled": true, "columnIndex": 2 } ], "skipEmptyRows": true, "dataStartRow": 2, "duplicateHandling": "skip"}Пропуск ненужных колонок
Заголовок раздела «Пропуск ненужных колонок»Чтобы исключить колонку из обработки, установите enabled: false:
{ "columns": [ { "originalName": "ИНН", "fieldName": "inn", "dataType": "string", "enabled": true, "columnIndex": 0 }, { "originalName": "Внутренний код", "fieldName": "internal_code", "dataType": "string", "enabled": false, "columnIndex": 1 } ]}Связанные процессоры
Заголовок раздела «Связанные процессоры»- Registry Search — часто используется сразу после File Upload для обогащения загруженных ИНН данными из государственных реестров
- INN Search — ищет ИНН компаний по названию, когда в файле нет ИНН
- GPT Filter — фильтрует загруженные данные по сложным критериям через ИИ
- Contact Search — находит контакты ЛПР в компаниях из загруженного списка
- Site Crawl — парсит сайты компаний по URL из загруженного файла
- CRM Update — передает обогащенные данные из файла в CRM-систему